TWI488174B - 自動地建立文字資料與音訊資料間之映射 - Google Patents

自動地建立文字資料與音訊資料間之映射 Download PDF

Info

Publication number
TWI488174B
TWI488174B TW101119921A TW101119921A TWI488174B TW I488174 B TWI488174 B TW I488174B TW 101119921 A TW101119921 A TW 101119921A TW 101119921 A TW101119921 A TW 101119921A TW I488174 B TWI488174 B TW I488174B
Authority
TW
Taiwan
Prior art keywords
text
audio
work
version
location
Prior art date
Application number
TW101119921A
Other languages
English (en)
Other versions
TW201312548A (zh
Inventor
Xiang Cao
Alan C Cannistraro
Gregory S Robbin
Casey M Dougherty
Melissa Breglio Hajj
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/267,738 external-priority patent/US20120310642A1/en
Application filed by Apple Inc filed Critical Apple Inc
Publication of TW201312548A publication Critical patent/TW201312548A/zh
Application granted granted Critical
Publication of TWI488174B publication Critical patent/TWI488174B/zh

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

自動地建立文字資料與音訊資料間之映射
本發明係關於藉由分析音訊資料以偵測反映於音訊資料中之單字並在文件中單字對單字地比較彼等單字來在文字資料與音訊資料之間自動地建立映射。
隨著手持式電子器件之成本降低及對數位內容之大需求,曾經已發佈於印刷媒體上之創作(creative work)作為數位媒體日益變得可用。舉例而言,數位書(亦稱為「電子書」)連同稱為電子書閱讀器(或「電子閱讀器」)之專用手持式電子器件一起日益風行。又,儘管並未單獨地設計為電子閱讀器,但諸如平板電腦及智慧型電話之其他手持式器件具有作為電子閱讀器進行操作的性能。
使電子書格式化之常見標準為EPUB標準(為「電子出版物」之簡稱),該EPUB標準為藉由國際數位出版聯盟(IDPF)所提出之自由且開放之電子書標準。EPUB檔案使用XHTML 1.1(或DTBook)來建構書本之內容。使用稱為OPS樣式表之CSS子集來執行樣式化(Styling)及版面配置(layout)。
對於一些所撰寫著作而言,尤其對於變得風行之彼等著作而言,建立所撰寫著作之音訊版本。舉例而言,著名個人(或具有令人愉快之語音者)朗讀所撰寫著作之錄音被建立且使該錄音可用於供購買,不管是在線上抑或在實體商店(brick and mortar store)中。
對於消費者而言,購買電子書及電子書之音訊版本(或「音訊書」)兩者並非不常見的。在一些狀況下,使用者閱讀電子書之全部,且接著想要聽取音訊書。在其他狀況下,基於使用者之環境,使用者在閱讀書本與聽取書本之間轉變。舉例而言,在參與運動或在通勤(commute)期間駕車的同時,使用者將傾向於聽取書本之音訊版本。另一方面,當在上床之前懶洋洋地躺在沙發椅上時,使用者將傾向於閱讀書本之電子書版本。不幸地,此等轉變可為費力的,此係由於使用者必須記得其在電子書中停止於何處且手動地定位在音訊書中於何處開始,或反之亦然。即使使用者清楚地記得在使用者停止處書本中的事件,此等轉變仍可為費力的,此係因為知曉事件未必使得易於找到電子書或音訊書之對應於彼等事件的部分。因此,電子書與音訊書之間的切換可為極其耗時的。
規範「EPUB媒體疊覆(EPUB Media Overlays)3.0」定義SMIL(同步多媒體整合語言)、封裝文件、EPUB樣式表及EPUB內容文件之使用以用於表示同步的文字及音訊出版物。出版物之預先錄音的旁白可表示為一系列音訊剪輯,每一剪輯對應於文字之部分。構成預先錄音之旁白之一系列音訊剪輯中的每一單一音訊剪輯通常表示單一片語或段落,但不推斷相對於其他剪輯或相對於文件之文字的次序。媒體疊覆藉由使用SMIL標記將結構化音訊旁白繫結至其在EPUB內容文件中之相應文字來解決此同步問題。媒體疊覆為允許定義此等剪輯之播放順序的SMIL 3.0之簡 化子集。
不幸地,建立媒體疊覆檔案很大程度上為手動處理程序。因此,著作之音訊版本與文字版本之間的映射之細微度為極粗的。舉例而言,媒體疊覆檔案可使電子書中之每一段落的開始與書本之音訊版本中的相應位置相關聯。媒體疊覆檔案(尤其對於小說)並不含有處於諸如在逐單字基礎上之任何較精細細微度等級之映射的原因為,建立此高細微度媒體疊覆檔案可能花費無數小時之人力。
描述於此章節中之方法為可推行之方法,但未必為先前已設想或推行的方法。因此,除非另有指示,否則不應假設描述於此章節中之方法中的任一者僅依據其包括於此章節中而說成先前技術。
根據一些實施例,提供一種方法,該方法包括:接收音訊資料,該音訊資料反映一文字版本存在之一著作的一可聞版本;執行該音訊資料之一話音至文字分析以產生該音訊資料之部分的文字;及基於針對該音訊資料之該等部分所產生的該文字,產生該音訊資料中之複數個音訊位置與該著作之該文字版本中的相應複數個文字位置之間的一映射。該方法係藉由一或多個計算器件執行。
在一些實施例中,產生該音訊資料之部分的文字包括至少部分基於該著作之文字內容脈絡產生該音訊資料之部分的文字。在一些實施例中,至少部分基於該著作之文字內容脈絡產生該音訊資料之部分的文字包括至少部分基於用 於該著作之該文字版本中的一或多個語法規則產生文字。在一些實施例中,至少部分基於該著作之文字內容脈絡產生該音訊資料之部分的文字包括基於哪些單字係在該著作之該文字版本或其一子集中而限制該等部分可轉譯成哪些單字。在一些實施例中,基於哪些單字係在該著作之該文字版本中而限制該等部分可轉譯成哪些單字包括,針對該音訊資料之一給定部分,識別該著作之該文字版本的對應於該給定部分之一子章節且將該等單字僅限於在該著作之該文字版本之該子章節中的彼等單字。在一些實施例中,識別該著作之該文字版本的該子章節包括維持該著作之該文字版本中的一當前文字位置,該當前文字位置對應於該話音至文字分析之在該音訊資料中的一當前音訊位置;且該著作之該文字版本的該子章節為與該當前文字位置相關聯的一章節。
在一些實施例中,該等部分包括對應於個別單字之部分,且該映射將對應於個別單字之該等部分的位置映射至該著作之該文字版本中的個別單字。在一些實施例中,該等部分包括對應於個別句子之部分,且該映射將對應於個別句子之該等部分的位置映射至該著作之該文字版本中的個別句子。在一些實施例中,該等部分包括對應於固定量之資料的部分,且該映射將對應於固定量之資料之該等部分的位置映射至該著作之該文字版本中的相應位置。
在一些實施例中,產生該映射包括:(1)將錨嵌入於該音訊資料中;(2)將錨嵌入於該著作之該文字版本中;或 (3)將該映射儲存於係與該音訊資料或該著作之該文字版本相關聯儲存的一媒體疊覆中。
在一些實施例中,該複數個文字位置中之一或多個文字位置中的每一者指示該著作之該文字版本中的一相對位置。在一些實施例中,該複數個文字位置中之一文字位置指示該著作之該文字版本中的一相對位置,且該複數個文字位置中之另一文字位置自該相對位置指示一絕對位置。在一些實施例中,該複數個文字位置中之一或多個文字位置中的每一者指示該著作之該文字版本內的一錨。
根據一些實施例,提供一種方法,該方法包括:接收一著作之一文字版本;執行該文字版本之一文字至話音分析以產生第一音訊資料;基於該第一音訊資料及該文字版本,產生該第一音訊資料中之第一複數個音訊位置與該著作之該文字版本中的相應複數個文字位置之間的一第一映射;接收反映該文字版本存在之該著作之一可聞版本的第二音訊資料;及基於(1)該第一音訊資料與該第二音訊資料之一比較及(2)該第一映射,產生該第二音訊資料中之第二複數個音訊位置與該著作之該文字版本中的該複數個文字位置之間的一第二映射。該方法係藉由一或多個計算器件執行。
根據一些實施例,提供一種方法,該方法包括接收音訊輸入;執行該音訊輸入之一話音至文字分析以產生該音訊輸入之部分的文字;判定針對該音訊輸入之部分所產生的該文字是否與當前顯示之文字匹配;及回應於判定該文字 與當前顯示之文字匹配,使得當前顯示之該文字經反白顯示。該方法係藉由一或多個計算器件執行。
根據一些實施例,提供一種電子器件,該電子器件包括一經組態以用於接收音訊資料之音訊資料接收單元,該音訊資料反映一文字版本存在之一著作的一可聞版本。該電子器件亦包括一耦接至該音訊資料接收單元之處理單元。該處理單元經組態以:執行該音訊資料之一話音至文字分析以產生該音訊資料之部分的文字;及基於針對該音訊資料之該等部分所產生的該文字,產生該音訊資料中之複數個音訊位置與該著作之該文字版本中的相應複數個文字位置之間的一映射。
根據一些實施例,提供一種電子器件,該電子器件包括一經組態以用於接收一著作之一文字版本的文字接收單元。該電子器件亦包括一耦接至該文字接收單元之處理單元,該處理單元經組態以:執行該文字版本之一文字至話音分析以產生第一音訊資料;及基於該第一音訊資料及該文字版本,產生該第一音訊資料中之第一複數個音訊位置與該著作之該文字版本中的相應複數個文字位置之間的一第一映射。該電子器件亦包括一經組態以用於接收第二音訊資料之音訊資料接收單元,該第二音訊資料反映該文字版本存在之該著作的一可聞版本。該處理單元經進一步組態以,基於(1)該第一音訊資料與該第二音訊資料之一比較及(2)該第一映射,產生該第二音訊資料中之第二複數個音訊位置與該著作之該文字版本中的該複數個文字位置之間 的一第二映射。
根據一些實施例,提供一種電子器件,該電子器件包括一經組態以用於接收音訊輸入之音訊接收單元。該電子器件亦包括一耦接至該音訊接收單元之處理單元。該處理單元經組態以執行該音訊輸入之一話音至文字分析以產生該音訊輸入之部分的文字;判定針對該音訊輸入之部分所產生的該文字是否與當前顯示之文字匹配;及回應於判定該文字與當前顯示之文字匹配,使得當前顯示之該文字經反白顯示。
根據一些實施例,提供一種方法,該方法包括獲得位置資料,該位置資料指示一著作之一文字版本內的一指定位置;檢查該著作之一音訊版本中的複數個音訊位置與該著作之該文字版本中之相應複數個文字位置之間的一映射以:判定該複數個文字位置中之對應於該指定位置的一特定文字位置,及基於該特定文字位置判定該複數個音訊位置中之對應於該特定文字位置的一特定音訊位置。該方法包括將基於該特定文字位置所判定之該特定音訊位置提供至一媒體播放器以使得該媒體播放器將該特定音訊位置建立為該音訊資料的一當前播放位置。該方法係藉由一或多個計算器件執行。
在一些實施例中,獲得包含一伺服器經由一網路自一第一器件接收該位置資料;檢查及提供係藉由該伺服器執行;且提供包含該伺服器將該特定音訊位置發送至執行該媒體播放器的一第二器件。在一些實施例中,該第二器件 及該第一器件為同一器件。在一些實施例中,獲得、檢查及提供係藉由一計算器件執行,該計算器件經組態以顯示該著作之該文字版本且執行該媒體播放器。在一些實施例中,該方法進一步包括在無來自一器件之一使用者之輸入的情況下在經組態以顯示該著作之該文字版本的該器件處判定該位置資料。
在一些實施例中,該方法進一步包括:自一使用者接收輸入;及回應於接收該輸入,基於該輸入判定該位置資料。在一些實施例中,將該特定音訊位置提供至該媒體播放器包含將該特定音訊位置提供至該媒體播放器以使得該媒體播放器處理在該當前播放位置處開始的該音訊資料,此情形使得該媒體播放器自該經處理音訊資料產生音訊;且使得該媒體播放器處理該音訊資料係回應於接收到該輸入而執行。
在一些實施例中,該輸入選擇該著作之該文字版本中的多個單字;該指定位置為一第一指定位置;該位置資料亦指示該著作之該文字版本內的不同於該第一指定位置的一第二指定位置;檢查進一步包含檢查該映射以:判定該複數個文字位置中之對應於該第二指定位置的一第二特定文字位置,及基於該第二特定文字位置判定該複數個音訊位置中之對應於該第二特定文字位置的一第二特定音訊位置;且將該特定音訊位置提供至該媒體播放器包含將該第二特定音訊位置提供至該媒體播放器以使得該媒體播放器在該當前播放位置到達或靠近該第二特定音訊位置時中斷 處理該音訊資料。
在一些實施例中,該方法進一步包括:獲得基於來自一使用者之輸入的註解資料;儲存與該指定位置相關聯之該註解資料;及使得關於該註解資料之資訊被顯示。在一些實施例中,使得關於該特定音訊位置及該註解資料之資訊被顯示包含:判定該音訊資料之一當前播放位置何時處於或靠近該特定音訊位置;及回應於判定該音訊資料之該當前播放位置係處於或靠近該特定音訊位置,使得關於該註解資料之資訊被顯示。
在一些實施例中,該註解資料包括文字資料;且使得關於該註解資料之資訊被顯示包含顯示該文字資料。在一些實施例中,該註解資料包括語音資料;且使得關於該註解資料之資訊被顯示包含處理該語音資料以產生音訊。
根據一些實施例,提供一種電子器件,該電子器件包括一經組態以用於獲得位置資料之位置資料獲得單元,該位置資料指示一著作之一文字版本內的一指定位置。該電子器件亦包括一耦接至該位置資料獲得單元之處理單元。該處理單元經組態以檢查該著作之一音訊版本中的複數個音訊位置與該著作之該文字版本中之相應複數個文字位置之間的一映射以:判定該複數個文字位置中之對應於該指定位置的一特定文字位置,及基於該特定文字位置判定該複數個音訊位置中之對應於該特定文字位置的一特定音訊位置;及將基於該特定文字位置所判定之該特定音訊位置提供至一媒體播放器以使得該媒體播放器將該特定音訊位置 建立為該音訊資料的一當前播放位置。
根據一些實施例,提供一種方法,該方法包括:獲得位置資料,該位置資料指示音訊資料內之一指定位置;檢查該音訊資料中之複數個音訊位置與一著作之一文字版本中的相應複數個文字位置之間的一映射以:判定該複數個音訊位置中之對應於該指定位置的一特定音訊位置,及基於該特定音訊位置判定該複數個文字位置中之對應於該特定音訊位置的一特定文字位置;及使得一媒體播放器顯示關於該特定文字位置的資訊。該方法係藉由一或多個計算器件執行。
在一些實施例中,獲得包含一伺服器經由一網路自一第一器件接收該位置資料;檢查及使得係藉由該伺服器執行;且使得包含該伺服器將該特定文字位置發送至執行該媒體播放器的一第二器件。在一些實施例中,該第二器件及該第一器件為同一器件。在一些實施例中,獲得、檢查及使得係藉由一計算器件執行,該計算器件經組態以顯示該著作之該文字版本且執行該媒體播放器。在一些實施例中,該方法進一步包括在無來自一器件之一使用者之輸入的情況下在經組態以處理該音訊資料的該器件處判定該位置資料。
在一些實施例中,該方法進一步包括:自一使用者接收輸入;及回應於接收到該輸入,基於該輸入判定該位置資料。在一些實施例中,使得包含使得該媒體播放器顯示該著作之該文字版本之對應於該特定文字位置的一部分;且 使得該媒體播放器顯示該著作之該文字版本的該部分係回應於接收到該輸入而執行。
在一些實施例中,該輸入選擇該音訊資料之一段落(segment);該指定位置為一第一指定位置;該位置資料亦指示該音訊資料內之不同於該第一指定位置的一第二指定位置;檢查進一步包含檢查該映射以:判定該複數個音訊位置中之對應於該第二指定位置的一第二特定音訊位置,及基於該第二特定音訊位置判定該複數個文字位置中之對應於該第二特定音訊位置的一第二特定文字位置;且使得一媒體播放器顯示關於該特定文字位置的資訊進一步包含使得該媒體播放器顯示關於該第二特定文字位置的資訊。
在一些實施例中,該指定位置對應於該音訊資料中之一當前播放位置;隨著該指定位置處之該音訊資料經處理且音訊經產生,執行使得;且使得包含使得一第二媒體播放器反白顯示該著作之該文字版本內的在該特定文字位置處或靠近該特定文字位置之文字。
在一些實施例中,該方法進一步包括:獲得基於來自一使用者之輸入的註解資料;儲存與該指定位置相關聯之該註解資料;及使得關於該註解資料之資訊被顯示。在一些實施例中,使得關於該註解資料之資訊被顯示包含:判定何時顯示該著作之該文字版本的對應於該特定文字位置之一部分;及回應於判定顯示該著作之該文字版本的對應於該特定文字位置之一部分,使得關於該註解資料之資訊被顯示。
在一些實施例中,該註解資料包括文字資料;且使得關於該註解資料之資訊被顯示包含使得該文字資料被顯示。在一些實施例中,該註解資料包括語音資料;且使得關於該註解資料之資訊被顯示包含使得該語音資料經處理以產生音訊。
根據一些實施例,提供一種方法,該方法包括,在一著作之一音訊版本的播放期間:獲得指示該音訊版本內之一指定位置的位置資料,及基於該指定位置判定該著作之一文字版本中之一特定文字位置,該特定文字位置係與指示何時暫停該音訊版本之播放的暫停資料相關聯;及回應於判定該特定文字位置係與暫停資料相關聯,暫停該音訊版本之播放。該方法係藉由一或多個計算器件執行。
在一些實施例中,該暫停資料係在該著作之該文字版本內。在一些實施例中,判定該特定文字位置包含:檢查該音訊資料中之複數個音訊位置與一著作之一文字版本中的相應複數個文字位置之間的一映射以:判定該複數個音訊位置中之對應於該指定位置的一特定音訊位置,及基於該特定音訊位置判定該複數個文字位置中之對應於該特定音訊位置的該特定文字位置。
在一些實施例中,該暫停資料對應於反映於該著作之該文字版本中的一頁之結尾。在一些實施例中,該暫停資料對應於該著作之該文字版本內的恰先於並不包括文字之一圖片的一位置。
在一些實施例中,該方法進一步包含回應於接收使用者 輸入來繼續該音訊版本的播放。在一些實施例中,該方法進一步包含回應於自暫停該音訊版本之播放起一特定量之時間的推移而繼續該音訊版本的播放。
根據一些實施例,提供一種方法,該方法包括,在一著作之一音訊版本的播放期間:獲得指示該音訊版本內之一指定位置的位置資料,及基於該指定位置判定該著作之一文字版本中的一特定文字位置,該特定文字位置係與頁終資料相關聯,該頁終資料指示反映於該著作之該文字版本中的一第一頁之一結尾;及回應於判定該特定文字位置與該頁終資料相關聯,自動地使得該第一頁中斷顯示且使得該第一頁之後的一第二頁被顯示。該方法係藉由一或多個計算器件執行。
在一些實施例中,該方法進一步包含檢查該音訊資料中之複數個音訊位置與一著作之一文字版本中的相應複數個文字位置之間的一映射以:判定該複數個音訊位置中之對應於該指定位置的一特定音訊位置,及基於該特定音訊位置判定該複數個文字位置中之對應於該特定音訊位置的該特定文字位置。
根據一些實施例,提供一種電子器件,該電子器件包括一經組態以用於獲得位置資料之位置獲得單元,該位置資料指示音訊資料內的一指定位置。該電子器件亦包括一耦接至該位置獲得單元之處理單元。該處理單元經組態以:檢查該音訊資料中之複數個音訊位置與一著作之一文字版本中的相應複數個文字位置之間的一映射以:判定該複數 個音訊位置中之對應於該指定位置的一特定音訊位置,及基於該特定音訊位置判定該複數個文字位置中之對應於該特定音訊位置的一特定文字位置;及使得一媒體播放器顯示關於該特定文字位置的資訊。
根據一些實施例,提供一種電子器件,該電子器件包括一經組態以用於獲得位置資料之位置獲得單元,該位置資料指示在一著作之一音訊版本的播放期間該音訊版本內的一指定位置。該電子器件亦包括一耦接至該位置獲得單元之處理單元,該處理單元經組態以,在一著作之一音訊版本的播放期間:基於該指定位置判定該著作之一文字版本中的一特定文字位置,該特定文字位置係與頁終資料相關聯,該頁終資料指示反映於該著作之該文字版本中的一第一頁之一結尾;及回應於判定該特定文字位置與該頁終資料相關聯,自動地使得該第一頁中斷顯示且使得該第一頁之後的一第二頁被顯示。
根據一些實施例,提供一種電腦可讀儲存媒體,該電腦可讀儲存媒體儲存一或多個程式以供一電子器件之一或多個處理器執行,該一或多個程式包括用於執行上述方法中之任一者的指令。根據一些實施例,提供一種電子器件,該電子器件包含用於執行上述方法中之任一者的構件。在一些實施例中,提供一種電子器件,該電子器件包含一或多個處理器,及儲存一或多個程式以供該一或多個處理器執行的記憶體,該一或多個程式包括用於執行上述方法中之任一者的指令。在一些實施例中,提供一種用於一電子 器件中之資訊處理裝置,該資訊處理裝置包含用於執行上述方法中之任一者的構件。
在以下描述中,為了解釋之目的,闡述眾多特定細節以便提供對本發明之透徹理解。然而,可在無此等特定細節之情況下實踐本發明將為顯而易見的。在其他情況下,以方塊圖形式展示熟知之結構及器件以便避免不必要地混淆本發明。
音訊至文字映射之自動產生的綜述
根據一方法,自動地建立映射,其中映射對著作之音訊版本(例如,音訊書)內的位置與著作之文字版本(例如,電子書)中的相應位置進行映射。藉由對音訊版本執行話音至文字分析以識別反映於音訊版本中的單字來建立映射。經識別單字與著作之文字版本中的相應單字匹配。映射使經識別單字之位置(音訊版本內)與著作之文字版本中的找到經識別單字處的位置相關聯。
音訊版本格式
音訊資料反映著作(諸如,書本、網頁、小冊子、傳單等)之文字版本的文字之可聞朗讀。音訊資料可儲存於一或多個音訊檔案中。該一或多個音訊檔案可呈許多檔案格式中之一者。音訊檔案格式之非限制性實例包括AAC、MP3、WAV及PCM。
文字版本格式
類似地,音訊資料所映射至之文字資料可以許多文件檔 案格式中之一者儲存。文件檔案格式之非限制性實例包括DOC、TXT、PDF、RTF、HTML、XHTML及EPUB。
典型EPUB文件伴有如下檔案:(a)列出每一XHTML內容文件,及(b)指示XHTML內容文件之次序。舉例而言,若書本包含20個章,則彼書本之EPUB文件可具有20個不同的XHTML文件,每一章有一個XHTML文件。伴隨EPUB文件之檔案識別XHTML文件之對應於書本中之章次序的次序。因此,單一(邏輯)文件(不管為EPUB文件抑或另一類型之文件)可包含多個資料項或檔案。
反映於文字資料中之單字或字元可呈一種或多種語言。舉例而言,文字資料之一部分可呈英文,而文字資料之另一部分可呈法文。儘管本文中提供英文單字之實例,但本發明之實施例可應用於包括基於字元之語言的其他語言。
映射中之音訊及文字位置
如本文中所描述,映射包含一組映射記錄,其中每一映射記錄使一音訊位置與一文字位置相關聯。
每一音訊位置識別音訊資料中之位置。音訊位置可指示音訊資料內之絕對位置、音訊資料內之相對位置,或絕對位置與相對位置之組合。作為絕對位置之實例,如上文在實例A中所指示,音訊位置可指示至音訊資料中之時間偏移(例如,04:32:24指示4小時32分24秒),或時間範圍。作為相對位置之實例,音訊位置可指示章號、段號及行號。作為絕對位置與相對位置之組合的實例,音訊位置可指示章號及至藉由章號所指示之章中的時間偏移。
類似地,每一文字位置識別文字資料(諸如,著作之文字版本)中的位置。文字位置可指示著作之文字版本內的絕對位置、著作之文字版本內的相對位置,或絕對位置與相對位置之組合。作為絕對位置之實例,文字位置可指示至著作之文字版本中的位元組偏移,及/或著作之文字版本內的「錨(anchor)」。錨為文字資料內之識別特定位置或文字部分的後設資料。錨可與文字資料中之顯示給終端使用者之文字單獨地儲存,或可儲存於顯示給終端使用者的文字當中。舉例而言,文字資料可包括以下句子:「Why did the chicken<i name=「123」/>cross the road?」,其中「<i name=「123」/>」為錨。當彼句子顯示給使用者時,使用者僅看到「Why did the chicken cross the road?」。類似地,同一句子可具有如下多個錨:「<i name=「123」/>Why<i name=「124」/>did<i name=「125」/>the<i name=「126」/>chicken<i name=「127」/>cross<i name=「128」/>the<i name=「129」/>road?」。在此實例中,在句子中之每一單字之前存在一錨。
作為相對位置之實例,文字位置可指示頁號、章號、段號及/或行號。作為絕對位置與相對位置之組合的實例,文字位置可指示章號及至藉由章號所指示之章中的錨。
表示文字位置及音訊位置之方式的實例提供於題為「EPUB媒體疊覆3.0」之規範中,該規範定義SMIL(同步多媒體整合語言)、EPUB樣式表及EPUB內容文件之使用。使文字位置與音訊位置相關聯且提供於規範中之關聯 的實例係如下:
實例A
在實例A中,「par」元素包括兩個子元素:「文字」元素及「音訊」元素。文字元素包含屬性「src」,該屬性「src」識別XHTML文件內的含有來自書本之第一章之內容的特定句子。音訊元素包含識別含有書本之第一章之音訊版本的音訊檔案的「src」屬性、識別音訊檔案內之音訊剪輯開始於何處的「clipBegin」屬性,及識別音訊檔案內之音訊剪輯結束於何處的「clipEnd」屬性。因此,音訊檔案中之秒23至45對應於書本之章1中的第一句子。
在文字與音訊之間建立映射
根據一實施例,自動地產生著作之文字版本與同一著作之音訊版本之間的映射。因為自動地產生映射,所以相較於使用手動文字至音訊映射技術將係實用之細微度,映射可使用精細得多之細微度。每一自動地產生之文字至音訊映射包括多個映射記錄,其中每一者使文字版本中之文字位置與音訊版本中之音訊位置相關聯。
圖1為描繪根據本發明之實施例的用於在著作之文字版本與同一著作之音訊版本之間自動地建立映射的處理程序 100之流程圖。在步驟110處,話音至文字分析器接收反映著作之可聞版本的音訊資料。在步驟120處,在話音至文字分析器執行音訊資料之分析的同時,話音至文字分析器產生音訊資料之多個部分的文字。在步驟130處,基於針對音訊資料之該等部分所產生的文字,話音至文字分析器產生音訊資料中之複數個音訊位置與著作之文字版本中的相應複數個文字位置之間的映射。
步驟130可涉及,話音至文字分析器比較所產生文字與著作之文字版本中的文字以判定所產生文字在著作之文字版本內位於何處。對於在著作之文字版本中所找到之所產生文字的每一部分而言,話音至文字分析器使以下兩者相關聯:(1)指示在音訊資料內於何處找到音訊資料之相應部分的音訊位置與(2)指示在著作之文字版本內於何處找到文字之部分的文字位置。
文字內容脈絡
每一文件具有「文字內容脈絡」。著作之文字版本的文字內容脈絡包括著作之文字版本的固有特性(例如,撰寫著作之文字版本所採用的語言、著作之文字版本使用的特定單字、著作之文字版本使用的語法及標點符號、使著作之文字版本結構化的方式等),及著作之外在特性(例如,創作著作之時段,著作所屬之風格、著作的作者等)。
不同的著作可具有顯著不同之文字內容脈絡。舉例而言,用於經典英文小說中之語法可大大不同於現代詩歌之語法。因此,儘管某一字序可遵循一語法之規則,但同一 字序可能違反另一語法的規則。類似地,用於經典英文小說及現代詩歌兩者中之語法可不同於用於自一青少年發送至另一青少年之文字訊息中的語法(或無其語法)。
如上文所提及,本文中所描述之一技術藉由執行著作之音訊版本的話音至文字轉換來自動地建立著作之音訊版本與同一著作之文字版本之間的精細細微度映射。在實施例中,著作之文字內容脈絡用以增加對著作之音訊版本所執行的話音至文字分析之精度。舉例而言,為了判定用於著作中之語法,話音至文字分析器(或另一處理程序)可在執行話音至文字分析之前分析著作的文字版本。話音至文字分析器可接著利用由此獲得之語法資訊以增加著作之音訊版本的話音至文字分析的精度。
替代於基於著作之文字版本自動地判定著作之語法或除此情形之外,使用者可提供輸入,該輸入識別著作之作者所遵循的一或多個語法規則。與所識別語法相關聯之規則輸入至話音至文字分析器以在辨識著作之音訊版本中的單字時輔助分析器。
基於文字版本限制候選辭典
通常,話音至文字分析器必須經組態或設計以辨識採用英語語言之事實上每一單字,及視情況採用其他語言之一些單字。因此,話音至文字分析器必須存取單字之大辭典。話音至文字分析器在話音至文字操作期間選擇單字所自之辭典在本文中稱為話音至文字分析器的「候選辭典」。典型候選辭典中之獨特單字的數目為大約500,000 個。
在實施例中,當執行著作之音訊版本的話音至文字分析時,考慮來自著作之文字版本的文字。特定言之,在一實施例中,在著作之音訊版本的話音至文字分析期間,藉由話音至文字分析器所使用之候選辭典限於係在著作之文字版本中的特定單字集合。換言之,僅在對著作之音訊版本所執行的話音至文字操作期間考慮為「候選者」的單字為實際上出現於著作之文字版本中的彼等單字。
藉由將用於特定著作之話音至文字轉譯中的候選辭典限於出現於著作之文字版本中的彼等單字,話音至文字操作可得到顯著改良。舉例而言,假設特定著作中之獨特單字的數目為20,000。習知話音至文字分析器可具有判定音訊之特定部分對應於500,000單字候選辭典之哪一特定單字上的困難。然而,當考慮係在著作之文字版本中的僅20,000個獨特單字時,音訊之彼同一部分可清楚地對應於一特定單字。因此,藉由可能單字之此小得多之辭典,話音至文字分析器之精度可得到顯著改良。
基於當前位置限制候選辭典
為了改良精度,可將候選辭典限於相較於著作之文字版本中之所有單字更少的單字。在一實施例中,將候選辭典限於在著作之文字版本之特定部分中找到的彼等單字。舉例而言,在著作之話音至文字轉譯期間,相對於著作之文字版本大致追蹤轉譯操作之「當前轉譯位置」為可能的。可(例如)藉由比較(a)迄今在話音至文字操作期間已產生之 文字與(b)著作之文字版本來執行此追蹤。
一旦已判定當前轉譯位置,則可基於當前轉譯位置進一步限制候選辭典。舉例而言,在一實施例中,將候選辭典限於僅彼等在當前轉譯位置之後出現於著作之文字版本內的單字。因此,自候選辭典有效地移除在當前轉譯位置之前找到但在其後未找到之單字。此移除可增加話音至文字分析器之精度,此係由於候選辭典愈小,話音至文字分析器將愈不可能將音訊資料的一部分轉譯成錯誤單字。
作為另一實例,在話音至文字分析之前,可將音訊書及數位書分成數個段落或章節(section)。可使音訊書與音訊章節映射相關聯,且可使數位書與文字章節映射相關聯。舉例而言,音訊章節映射及文字章節映射可識別每一章開始或結束之處。此等各別映射可藉由話音至文字分析器使用以限制候選辭典。舉例而言,若話音至文字分析器基於音訊章節映射判定話音至文字分析器正分析音訊書之第4章,則話音至文字分析器使用文字章節映射以識別數位書的第4章且將候選辭典限於在第4章中找到的單字。
在相關實施例中,話音至文字分析器使用隨著當前轉譯位置移動而移動的滑動窗。隨著話音至文字分析器正分析音訊資料,話音至文字分析器移動滑動窗「跨越」著作之文字版本。滑動窗指示著作之文字版本內的兩個位置。舉例而言,滑動窗之邊界可為(a)先於當前轉譯位置之段落的開始,及(b)在當前轉譯位置之後的第三段落之結尾。將候選辭典限於僅彼等出現於彼等兩個位置之間的單字。
儘管上文提供特定實例,但窗可橫越著作之文字版本內的任何量之文字。舉例而言,窗可橫越絕對量之文字,諸如60個字元。作為另一實例,窗可橫越來自著作之文字版本的相對量之文字,諸如10個單字、3「行」文字、2個句子或1「頁」文字。在相對量情境下,話音至文字分析器可使用著作之文字版本內的格式化資料,以判定著作之文字版本的多少構成一行或一頁。舉例而言,著作之文字版本可包含頁指示符(例如,呈HTML或XML標籤之形式),該指示符指示著作之文字版本之內容內的頁之開始或頁之結尾。
在實施例中,窗之開始對應於當前轉譯位置。舉例而言,話音至文字分析器維持指示著作之文字版本中之最新近匹配單字的當前文字位置,且維持指示音訊資料中之最新近識別單字的當前音訊位置。除非旁白者(其語音反映於音訊資料中)在錄音期間誤讀著作之文字版本的文字、添加其自己之內容,或跳過著作之文字版本的多個部分,否則話音至文字分析器在音訊資料中偵測到之下一單字(亦即,在當前音訊位置之後)最可能為著作之文字版本中的下一單字(亦即,在當前文字位置之後)。維持兩個位置可顯著增加話音至文字轉譯之精度。
使用音訊至音訊相關建立映射
在實施例中,文字至話音產生器及音訊至文字相關器用以自動地建立著作之音訊版本與著作之文字版本之間的映射。圖2為描繪用以產生映射之此等分析器及資料的方塊 圖。將著作之文字版本210(諸如,EPUB文件)輸入至文字至話音產生器220。文字至話音產生器220可以軟體、硬體或硬體與軟體之組合來實施。不管以軟體抑或硬體來實施,文字至話音產生器220可實施於單一計算器件上或可散佈於多個計算器件當中。
文字至話音產生器220基於文件210產生音訊資料230。在音訊資料230之產生期間,文字至話音產生器220(或另一未圖示組件)建立音訊至文件映射240。音訊至文件映射240將文件210內之多個文字位置映射至所產生音訊資料230內的相應音訊位置。
舉例而言,假設文字至話音產生器220產生位於文件210內之位置Y處之單字的音訊資料。進一步假設針對著作所產生之音訊資料位於音訊資料230內之位置X處。為了反映文件210內之單字的位置與音訊資料230中之相應音訊之位置之間的相關,映射將建立於位置X與位置Y之間。
因為文字至話音產生器220知曉在音訊之單字或片語產生時相應單字或片語出現於文件210中之處,所以可容易地產生相應單字或片語之間的每一映射。
音訊至文字相關器260接受所產生音訊資料230、音訊書250及音訊至文件映射240作為輸入。音訊至文字相關器260執行兩個主要步驟:音訊至音訊相關步驟及查找步驟。對於音訊至音訊相關步驟而言,音訊至文字相關器260比較所產生音訊資料230與音訊書250,以判定音訊資料230之多個部分與音訊書250之多個部分之間的相關。舉 例而言,音訊至文字相關器260針對表示於音訊資料230中之每一單字可判定音訊書250中之相應單字的位置。
為建立相關之目的,分割音訊資料230所藉以之細微度可在實施間變化。舉例而言,相關可建立於音訊資料230中之每一單字與音訊書250中之每一相應單字之間。或者,可基於固定持續時間間隔建立相關(例如,每1分鐘之音訊有一映射)。在又一替代例中,可針對基於其他準則(諸如,於段落或章邊界處)所建立之音訊的多個部分、大的暫停(例如,大於3秒之靜默)或基於音訊書250中之資料的其他位置(諸如,音訊書250內的音訊標記)建立相關。
在識別音訊資料230之一部分與音訊書250之一部分之間的相關之後,音訊至文字相關器260使用音訊至文件映射240來識別對應於所產生音訊資料230內之音訊位置的文字位置(指示於映射240中)。音訊至文字相關器260接著使文字位置與音訊書250內之音訊位置相關聯,以在文件至音訊映射270中建立映射記錄。
舉例而言,假設音訊書250之一部分(位於位置Z處)與所產生音訊資料230之位於位置X處的部分匹配。基於使位置X與文件210內之位置Y相關的映射記錄(在音訊至文件映射240中),將建立文件至音訊映射270中之使音訊書250之位置Z與文件210內的位置Y相關的映射記錄。
音訊至文字相關器260針對音訊資料230之每一部分重複地執行音訊至音訊相關及查找步驟。因此,文件至音訊映射270包含多個映射記錄,每一映射記錄將文件210內之位 置映射至音訊書250內的位置。
在實施例中,針對音訊資料230之每一部分的音訊至音訊相關立即繼之以音訊之彼部分的查找步驟。因此,在進行至音訊資料230之下一部分之前,可針對音訊資料230之每一部分建立文件至音訊映射270。或者,在執行任何查找步驟之前,可針對音訊資料230之許多或所有部分執行音訊至音訊相關步驟。在已建立所有音訊至音訊相關之後,可批量執行針對所有部分之查找步驟。
映射細微度
映射具有數個屬性,該等屬性中之一者為映射之大小,映射之大小指代映射中之映射記錄的數目。映射之另一屬性為映射之「細微度」。映射之「細微度」指代映射中之映射記錄相對於數位著作之大小的數目。因此,映射之細微度可在數位著作間變化。舉例而言,包含200「頁」之數位書的第一映射包括僅針對數位書中之每一段落的映射記錄。因此,第一映射可包含1000個映射記錄。另一方面,包含20頁之數位「兒童」書的第二映射包括針對兒童書中之每一單字的映射記錄。因此,第二映射可包含800個映射記錄。儘管第一映射相較於第二映射包含更多映射記錄,但第二映射之細微度相較於第一映射之細微度為較精細的。
在實施例中,可基於至產生映射之話音至文字分析器的輸入來規定映射之細微度。舉例而言,使用者可在使得話音至文字分析器產生映射之前指定特定細微度。特定細微 度之非限制性實例包括:- 單字細微度(亦即,針對每一單字之關聯),- 句子細微度(亦即,針對每一句子之關聯),- 段落細微度(亦即,針對每一段落之關聯),- 10字細微度(亦即,針對數位著作中之每10個單字部分的映射),及- 10秒細微度(亦即,針對每10秒音訊之映射)。
作為另一實例,使用者可指定數位著作之類型(例如,小說、兒童書、短篇故事),且話音至文字分析器(或另一處理程序)基於著作之類型來判定細微度。舉例而言,兒童書可與單字細微度相關聯,而小說可與句子細微度相關聯。
映射之細微度可甚至在同一數位著作內變化。舉例而言,數位書之前三章的映射可具有句子細微度,而該數位書之剩餘章的映射具有單字細微度。
文字至音訊轉變期間之運作中映射產生
在許多狀況下,儘管音訊至文字映射將在使用者需要依靠一映射之前產生,但在一實施例中,在執行時間或在使用者已開始在使用者之器件上取用音訊資料及/或文字資料之後,產生音訊至文字映射。舉例而言,使用者使用平板電腦閱讀數位書之文字版本。平板電腦追蹤平板電腦已顯示給使用者的數位書最新近頁或章節。藉由「文字書籤」來識別最新近頁或章節。
稍後,使用者選擇播放同一著作之音訊書版本。播放器 件可為使用者閱讀數位書之同一平板電腦或另一器件。無關於將播放音訊書之器件,擷取文字標籤,且關於音訊書之至少一部分執行話音至文字分析。在話音至文字分析期間,「臨時」映射記錄產生以建立所產生文字與音訊書內之相應位置之間的相關。
一旦已產生文字及相關記錄,則文字至文字比較用以判定對應於文字書籤之所產生文字。接著,臨時映射記錄用以識別音訊書之對應於所產生文字之部分的部分,所產生文字之該部分對應於文字書籤。音訊書之播放接著自彼位置起始。
可將執行話音至文字分析的音訊書部分限於對應於文字書籤之部分。舉例而言,指示音訊書之某些部分開始及/或結束於何處的音訊章節映射可能已存在。舉例而言,音訊章節映射可指示每一章開始於何處,一或多個頁開始於何處等。此音訊章節映射可有助於判定在何處開始話音至文字分析,使得不需要執行對整個音訊書之話音至文字分析。舉例而言,若文字書籤指示數位書之第12章內之位置,且與音訊資料相關聯之音訊章節映射識別第12章在音訊資料中於何處開始,則不需要對音訊書之前11章中的任一者執行話音至文字分析。舉例而言,音訊資料可由20個音訊檔案組成,每一章有一個音訊檔案。因此,僅將對應於第12章之音訊檔案輸入至話音至文字分析器。
音訊至文字轉變期間之運作中映射產生
可在運作中產生映射記錄以促進音訊至文字轉變以及文 字至音訊轉變。舉例而言,假設使用者正使用智慧型電話聽取音訊書。智慧型電話追蹤音訊書內之正播放的當前位置。當前位置係藉由「音訊書籤」來識別。稍後,使用者拾取平板電腦且選擇音訊書之數位書版本以供顯示。平板電腦接收音訊書籤(例如,自相對於平板電腦及智慧型電腦為遠端的中央伺服器)、執行音訊書之至少一部分的話音至文字分析,且識別音訊書內之對應於音訊書之文字版本內的一文字部分的部分,音訊書內之該部分對應於音訊書籤。平板電腦接著開始顯示文字版本內之所識別部分。
可將執行話音至文字分析的音訊書部分限於對應於音訊書籤之部分。舉例而言,對音訊書之一部分執行話音至文字分析,該部分橫越在音訊書中之音訊書籤之前的一或多個時間區段(例如,秒)及/或音訊書中之音訊書籤之後的一或多個時間區段。比較藉由對彼部分之話音至文字分析所產生的文字與文字版本中之文字,以定位所產生文字中之該等系列單字或片語在何處與文字版本中之文字匹配。
若存在指示文字版本之某些部分開始或結束於何處之文字章節映射,且音訊書籤可用以識別文字章節映射中之章節,則不需要分析文字版本之大部分以便定位所產生文字中的該等系列單字或片語在何處與文字版本中之文字匹配。舉例而言,若音訊書籤指示音訊書之第3章內的位置,且與數位書相關聯之文字章節映射識別第3章在文字版本中於何處開始,則不需要對音訊書之前兩章中之任一者或對音訊書之第3章之後的章中之任一者執行話音至文 字分析。
音訊至文字映射之使用的綜述
根據一方法,映射(不管手動建立抑或自動建立)用以識別數位著作之音訊版本(例如,音訊書)內的對應於該數位著作之文字版本(例如,電子書)內之位置的位置。舉例而言,映射可用以基於建立於音訊書中之「書籤」識別電子書內之位置。作為另一實例,映射可用以隨著朗讀文字之人員的音訊錄音正在播放而識別哪一所顯示文字對應於該音訊錄音,且使得所識別文字經反白顯示。因此,在正播放音訊書之同時,由於電子書閱讀器使相應文字反白顯示,因此電子書閱讀器之使用者可跟隨。作為另一實例,映射可用以識別音訊資料中之位置,且回應於自電子書選擇所顯示文字之輸入而播放彼位置處的音訊。因此,使用者可選擇電子書中之單字,此選擇使得對應於彼單字之音訊被播放。作為另一實例,使用者可建立註解同時「取用」(例如,閱讀或聽取)數位著作之一版本(例如,電子書),且使得註解被取用同時使用者正取用數位著作的另一版本(例如,音訊書)。因此,使用者可對電子書之「頁」作出註釋,且可檢視彼等註釋同時聽取電子書的音訊書。類似地,使用者可作出註釋同時聽取音訊書,且接著可在閱讀相應電子書時檢視彼註釋。
圖3為描繪根據本發明之實施例的用於在此等情境中之一或多者下使用映射之處理程序的流程圖。
在步驟310處,獲得指示第一媒體項目內之指定位置的 位置資料。第一媒體項目可為著作之文字版本或對應於該著作之文字版本的音訊資料。此步驟可藉由取用第一媒體項目之器件(藉由使用者操作)執行。或者,該步驟可藉由相對於取用第一媒體項目之器件遠端地定位的伺服器執行。因此,器件使用通信協定經由網路將位置資料發送至伺服器。
在步驟320處,檢查映射以判定對應於指定位置之第一媒體位置。類似地,此步驟可藉由取用第一媒體項目之器件或藉由相對於該器件遠端地定位的伺服器執行。
在步驟330處,判定對應於第一媒體位置且指示於映射中的第二媒體位置。舉例而言,若指定位置為音訊「書籤」,則第一媒體位置為指示於映射中之音訊位置,且第二媒體位置為與映射中之音訊位置相關聯的文字位置。類似地,舉例而言,若指定位置為文字「書籤」,則第一媒體位置為指示於映射中之文字位置,且第二媒體位置為與映射中之文字位置相關聯的音訊位置。
在步驟340處,基於第二媒體位置處理第二媒體項目。舉例而言,若第二媒體項目為音訊資料,則第二媒體位置為音訊位置且用作音訊資料中的當前播放位置。作為另一實例,若第二媒體項目為著作之文字版本,則第二媒體位置為文字位置且用以判定顯示著作之文字版本的哪一部分。
下文提供在特定情境下使用處理程序300之實例。
架構綜述
上文所提及且下文詳細描述之實例情境中的每一者可涉及一或多個計算器件。圖4為根據本發明之實施例的可用以實施本文中所描述之處理程序中之一些的實例系統400之方塊圖。系統400包括終端使用者器件410、中間器件420及終端使用者器件430。終端使用者器件410及430之非限制性實例包括桌上型電腦、膝上型電腦、智慧型電話、平板電腦及其他手持式計算器件。
如圖4中所描繪,器件410儲存數位媒體項目402,且執行文字媒體播放器412及音訊媒體播放器414。文字媒體播放器412經組態以處理電子文字資料,且使得器件410顯示文字(例如,在器件410之未圖示的觸控式螢幕上)。因此,若數位媒體項目402為電子書,則文字媒體播放器412可經組態以處理數位媒體項目402,只要數位媒體項目402係呈文字媒體播放器412經組態以處理之文字格式即可。器件410可執行經組態以處理其他類型之媒體(諸如,視訊)的一或多個其他媒體播放器(未圖示)。
類似地,音訊媒體播放器414經組態以處理音訊資料,且使得器件410產生音訊(例如,經由器件410上之未圖示的揚聲器)。因此,若數位媒體項目402為音訊書,則音訊媒體播放器414可經組態以處理數位媒體項目402,只要數位媒體項目402係呈音訊媒體播放器414經組態以處理之音訊格式即可。不管項目402為電子書抑或音訊書,項目402可包含多個檔案,不管為音訊檔案抑或文字檔案。
器件430類似地儲存數位媒體項目404,且執行經組態以 處理音訊資料並使得器件430產生音訊的音訊媒體播放器432。器件430可執行經組態以處理其他類型之媒體(諸如,視訊及文字)的一或多個其他媒體播放器(未圖示)。
中間器件420儲存映射406,映射406將音訊資料內之音訊位置映射至文字資料中之文字位置。舉例而言,映射406可將數位媒體項目404內之音訊位置映射至數位媒體項目402內的文字位置。儘管圖4中未描繪,但中間器件420可儲存許多映射,音訊資料及文字資料的每一相應集合有一映射。又,中間器件420可與未圖示之許多終端使用者器件互動。
又,中間器件420可儲存使用者可經由其各別器件存取的數位媒體項目。因此,器件(例如,器件430)可向中間器件420請求數位媒體項目,而非儲存數位媒體項目的本端複本。
另外,中間器件420可儲存使使用者之一或多個器件與單一帳戶相關聯的帳戶資料。因此,此帳戶資料可指示藉由同一使用者以同一帳戶登記器件410及430。中間器件420亦可儲存使帳戶與特定使用者所擁有(或購買)之一或多個數位媒體項目相關聯的帳戶-項目關聯資料。因此,中間器件420可藉由以下操作來驗證器件430可存取特定數位媒體項目:判定帳戶-項目關聯資料是否指示器件430及特定數位媒體項目與同一帳戶相關聯。
儘管僅描繪兩個終端使用者器件,但終端使用者可擁有且操作取用數位媒體項目(諸如,電子書及音訊書)的更多 或更少之器件。類似地,儘管僅描繪單一中間器件420,但擁有且操作中間器件420之實體可操作多個器件,該多個器件中之每一者提供相同服務或可一起操作以向終端使用者器件410及430的使用者提供服務。
經由網路440使中間器件420與終端使用者器件410及430之間的通信為可能的。網路440可藉由提供各種計算器件之間的資料交換之任何媒體或機構實施。此網路之實例包括(但不限於)諸如區域網路(LAN)、廣域網路(WAN)、乙太網路或網際網路的網路,或一或多個陸地、衛星或無線鏈路。網路可包括諸如所描述之彼等網路的網路之組合。網路可根據傳輸控制協定(TCP)、使用者資料報協定(UDP)及/或網際網路協定(IP)傳輸資料。
映射之儲存位置
可與產生映射所自之文字資料及音訊資料單獨地儲存映射。舉例而言,如圖4中所描繪,與數位媒體項目402及404單獨地儲存映射406,即使映射406可用以基於一數位媒體項目中的媒體位置來識別另一數位媒體項目中的媒體位置亦如此。實際上,映射406儲存於與分別儲存數位媒體項目402及404的器件410及430分離之計算器件(中間器件420)上。
另外或或者,映射可作為相應文字資料之部分被儲存。舉例而言,映射406可儲存於數位媒體項目402中。然而,即使映射作為文字資料之部分被儲存,映射仍可能並不顯示給取用文字資料之終端使用者。再另外或或者,映射可 作為音訊資料之部分被儲存。舉例而言,映射406可儲存於數位媒體項目404中。
書籤切換
「書籤切換」指代在數位著作之一版本中建立指定位置(或「書籤」)及使用書籤來找到數位著作之另一版本內的相應位置。存在兩種類型之書籤切換:文字至音訊(TA)書籤切換及音訊至文字(AT)書籤切換。TA書籤切換涉及使用建立於電子書中之文字書籤以識別音訊書中的相應音訊位置。相反,本文中稱為AT書籤切換之另一類型之書籤切換涉及使用建立於音訊書中的音訊標籤來識別電子書內的相應文字位置。
文字至音訊書籤切換
圖5A為描繪根據本發明之實施例的用於TA書籤切換之處理程序500的流程圖。使用描繪於圖4中之系統400的元件來描述圖5A。
在步驟502處,文字媒體播放器412(例如,電子閱讀器)判定數位媒體項目402(例如,數位書)內的文字書籤。器件410將來自數位媒體項目402之內容顯示給器件410的使用者。
可回應於來自使用者之輸入來判定文字書籤。舉例而言,使用者可觸碰器件410之觸控式螢幕上的區域。器件410之顯示器在該區域處或靠近該區域顯示一或多個單字。回應於輸入,文字媒體播放器412判定最接近區域之一或多個單字。文字媒體播放器412基於所判定之一或多 個單字判定文字書籤。
或者,可基於顯示給使用者之最後文字資料判定文字書籤。舉例而言,數位媒體項目402可包含200個電子「頁」,且頁110為所顯示之最後頁。文字媒體播放器412判定頁110為所顯示之最後頁。文字媒體播放器412可將頁110建立為文字書籤,或可將頁110之開始處的點建立為文字書籤,此係由於可能不存在知曉使用者在何處停止閱讀的方式。假設使用者至少閱讀頁109上之最後句子可為安全的,該句子可能已在頁109或頁110上結束。因此,文字媒體播放器412可將下一句子(其在頁110上開始)之開始建立為文字書籤。然而,若映射之細微度係處於段落層級,則文字媒體播放器412可建立頁109上之最後段落的開始。類似地,若映射之細微度係處於句子層級,則文字媒體播放器412可將包括頁110之章的開始建立為文字書籤。
在步驟504處,文字媒體播放器412經由網路440將指示文字書籤之資料發送至中間器件420。中間器件420可儲存與器件410及/或器件410之使用者之帳戶相關聯的文字書籤。在步驟502之前,使用者可能已藉由中間器件420之操作者建立帳戶。使用者接著藉由操作者登記包括器件410之一或多個器件。登記使得該一或多個器件中之每一者與使用者之帳戶相關聯。
一或多個因素可使得文字媒體播放器412將文字書籤發送至中間器件420。此等因素可包括文字媒體播放器412之退出(或停機)、文字書籤藉由使用者的建立,或藉由使用 者進行以保存文字書籤以用於在聽取對應於著作之文字版本的音訊書時使用的顯式指令,文字書籤係針對該文字版本而建立。
如先前所提到,中間器件420存取(例如,儲存)映射406,在此實例中,映射406映射數位媒體項目404中之多個音訊位置與數位媒體項目402內的多個文字位置。
在步驟506處,中間器件420檢查映射406以判定多個文字位置中之對應於文字書籤的特定文字位置。文字書籤可能並非與映射406中之多個文字位置中之任一者準確匹配。然而,中間器件420可選擇最接近文字書籤之文字位置。或者,中間器件420可選擇恰在文字書籤之前的文字位置,該文字位置可能或可能並非最接近文字書籤的文字位置。舉例而言,若文字書籤指示第5章第3段第5句,且映射406中之最接近文字位置為(1)第5章第3段第1句及(2)第5章第3段第6句,則選擇文字位置(1)。
在步驟508處,一旦識別映射中之特定文字位置,則中間器件420判定映射406中之對應於特定文字位置的特定音訊位置。
在步驟510處,中間器件420將特定音訊位置發送至器件430,器件430在此實例中不同於器件410。舉例而言,器件410可為平板電腦,且器件430可為智慧型電話。在相關實施例中,不涉及器件430。因此,中間器件420可將特定音訊位置發送至器件410。
可(亦即)回應於中間器件420判定特定音訊位置而自動 執行步驟510。或者,可回應於自器件430接收到器件430正打算處理數位媒體項目404的指示而執行步驟510或步驟506。該指示可為對對應於文字書籤之音訊位置的請求。
在步驟512處,音訊媒體播放器432將特定音訊位置建立為數位媒體項目404中之音訊資料的當前播放位置。可回應於自中間器件420接收到特定音訊位置而執行此建立。因為當前播放位置變為特定音訊位置,所以不要求音訊媒體播放器432播放先於音訊資料中之特定音訊位置的音訊中之任一者。舉例而言,若特定音訊位置指示2:56:03(2小時56分及3秒),則音訊媒體播放器432將音訊資料中之彼時間建立為當前播放位置。因此,若器件430之使用者選擇器件430上之「播放」按鈕(不管為圖形抑或實體),則音訊媒體播放器430開始處理彼2:56:03標誌處的音訊資料。
在替代性實施例中,器件410儲存映射406(或映射406之複本)。因此,替代於步驟504至508,文字媒體播放器412檢查映射406以判定多個文字位置中之對應於文字書籤的特定文字位置。接著,文字媒體播放器412判定映射406中之對應於特定文字位置的特定音訊位置。文字媒體播放器412可接著使得特定音訊位置發送至中間器件420,以允許器件430擷取特定音訊位置且將音訊資料中之當前播放位置建立為特定音訊位置。文字媒體播放器412亦可使得特定文字位置(或文字書籤)發送至中間器件420,以允許器件410(或另一未圖示器件)稍後擷取特定文字位置從而允許在另一器件上執行的另一文字媒體播放器顯示數位媒體項目 402的另一複本之一部分(例如,頁),其中該部分對應於特定文字位置。
在另一替代性實施例中,不涉及中間器件420及器件430。因此,不執行步驟504及510。因此,器件410執行圖5A中之包括步驟506及508的所有其他步驟。
音訊至文字書籤切換
圖5B為描繪根據本發明之實施例的用於AT書籤切換之處理程序550的流程圖。類似於圖5A,使用描繪於圖4中之系統400的元件來描述圖5B。
在步驟552處,音訊媒體播放器432判定數位媒體項目404(例如,音訊書)內之音訊書籤。
可回應於來自使用者之輸入來判定音訊書籤。舉例而言,使用者可(例如)藉由選擇顯示於器件430之觸控式螢幕上的「停止」按鈕來停止音訊資料的播放。音訊媒體播放器432判定數位媒體項目404之音訊資料內的對應於停止播放之處的位置。因此,音訊書籤可僅為使用者停止聽取自數位媒體項目404所產生之音訊的最後地方。另外或或者,使用者可選擇器件430之觸控式螢幕上的一或多個圖形按鈕,以將數位媒體項目404內之特定位置建立為音訊書籤。舉例而言,器件430顯示對應於數位媒體項目404中之音訊資料之長度的時刻表。使用者可選擇時刻表上之位置,且接著提供藉由音訊媒體播放器432所使用之一或多個額外輸入以建立音訊書籤。
在步驟554處,器件430經由網路440將指示音訊書籤之 資料發送至中間器件420。中間器件420可儲存與器件430及/或器件430之使用者之帳戶相關聯的音訊書籤。在步驟552之前,使用者藉由中間器件420之操作者建立帳戶。使用者接著藉由操作者登記包括器件430之一或多個器件。登記使得該一或多個器件中之每一者與使用者之帳戶相關聯。
中間器件420亦存取(例如,儲存)映射406。映射406映射數位媒體項目404之音訊資料中的多個音訊位置與數位媒體項目402之文字資料內的多個文字位置。
一或多個因素可使得音訊媒體播放器432將音訊書籤發送至中間器件420。此等因素可包括音訊媒體播放器432之退出(或停機)、音訊書籤藉由使用者的建立,或藉由使用者進行以保存音訊書籤以用於在顯示對應於數位媒體項目404的著作之文字版本(反映於數位媒體項目402中)的多個部分時使用之顯式指令,音訊書籤係針對數位媒體項目404而建立。
在步驟556處,中間器件420檢查映射406以判定多個音訊位置中之對應於音訊書籤的特定音訊位置。音訊書籤可能並非與映射406中之多個音訊位置中之任一者準確匹配。然而,中間器件420可選擇最接近音訊書籤之音訊位置。或者,中間器件420可選擇恰在音訊書籤之前的音訊位置,該音訊位置可能或可能並非最接近音訊書籤的音訊位置。舉例而言,若音訊書籤指示02:43:19(或2小時43分及19秒),且映射406中之最接近音訊位置為(1)02:41:07及 (2)0:43:56,則選擇音訊位置(1),即使音訊位置(2)最接近音訊書籤亦如此。
在步驟558處,一旦識別映射中之特定音訊位置,則中間器件420判定映射406中之對應於特定音訊位置的特定文字位置。
在步驟560處,中間器件420將特定文字位置發送至器件410,器件410在此實例中不同於器件430。舉例而言,器件410可為平板電腦,且器件430可為經組態以處理音訊資料並產生可聞聲音的智慧型電話。
可(亦即)回應於中間器件420判定特定文字位置而自動執行步驟560。或者,可回應於自器件410接收到器件410正打算處理數位媒體項目402的指示而執行步驟560(或步驟556)。該指示可為對對應於音訊書籤之文字位置的請求。
在步驟562處,文字媒體播放器412顯示關於特定文字位置之資訊。可回應於自中間器件420接收到特定文字位置而執行步驟562。不要求器件410顯示先於反映於數位媒體項目402中的著作之文字版本中之特定文字位置的內容中之任一者。舉例而言,若特定文字位置指示第3章第2段第4句,則器件410顯示包括彼句子之頁。文字媒體播放器412可使得標記顯示於頁中之特定文字位置處,該標記向器件410之使用者視覺上指示在頁中於何處開始閱讀。因此,使用者能夠立即閱讀著作之於對應於音訊書中的藉由旁白者說出之最後單字的位置處開始之文字版本。
在替代性實施例中,器件410儲存映射406。因此,替代於步驟556至560,在步驟554(其中器件430將指示音訊書籤之資料發送至中間器件420)之後,中間器件420將音訊書籤發送至器件410。接著,文字媒體播放器412檢查映射406以判定多個音訊位置中之對應於音訊書籤的特定音訊位置。接著,文字媒體播放器412判定映射406中之對應於特定音訊位置的特定文字位置。此替代性處理程序接著進行至上述步驟562。
在另一替代性實施例中,不涉及中間器件420。因此,不執行步驟554及560。因此,器件430執行圖5B中之包括步驟556及558的所有其他步驟。
回應於播放音訊而反白顯示文字
在實施例中,在播放對應於著作之文字版本的音訊資料之同時,反白顯示或「照亮」來自著作之文字版本之一部分的文字。如先前所提到,音訊資料為著作之文字版本的音訊版本,且可反映藉由人類使用者進行之來自文字版本之文字的朗讀。如本文中所使用,「反白顯示」文字指代媒體播放器(例如,「電子閱讀器」)視覺上區分彼文字與係與經反白顯示文字同時顯示的其他文字。反白顯示文字可涉及改變文字之字型、改變文字之字型樣式(例如,斜體、粗體、加底線)、改變文字之大小、改變文字之色彩、改變文字之背景色彩,或建立與文字相關聯的動畫。建立動畫之實例為使得文字(或文字之背景)斷續地閃爍或改變色彩。建立動畫之另一實例為建立出現於文字上方、 下方或周圍的圖形。舉例而言,回應於媒體播放器正播放並偵測到單字「toaster」,媒體播放器在所顯示文字中於單字「toaster」上方顯示烤麵包機影像。動畫之另一實例為在於所播放之音訊資料中偵測到文字之一部分(例如,單字、字節或字母)時在彼部分上「彈跳」的彈跳球。
圖6為描繪根據本發明之實施例的用於在著作之音訊版本正播放的同時使得來自著作之文字版本的文字經反白顯示的處理程序600之流程圖。
在步驟610處,判定音訊版本之音訊資料的當前播放位置(其正不斷地改變)。此步驟可藉由在使用者之器件上執行的媒體播放器來執行。媒體播放器處理音訊資料以產生針對使用者之音訊。
在步驟620處,基於當前播放位置,識別映射中之映射記錄。當前播放位置可與在映射記錄中所識別之音訊位置匹配或幾乎與該音訊位置匹配。
若媒體播放器存取映射音訊資料中之多個音訊位置與著作之文字版本中的多個文字位置的映射,則步驟620可藉由媒體播放器執行。或者,步驟620可藉由在使用者之器件上執行的另一處理程序或藉由經由網路自使用者之器件接收到當前播放位置的伺服器執行。
在步驟630處,識別在映射記錄中所識別之文字位置。
在步驟640處,使得著作之文字版本的對應於文字位置之部分經反白顯示。此步驟可藉由媒體播放器或在使用者之器件上執行的另一軟體應用程式來執行。若伺服器執行 查找步驟(620及630),則步驟640可進一步涉及伺服器將文字位置發送至使用者之器件。作為回應,媒體播放器或另一軟體應用程式接受文字位置作為輸入且使得相應文字經反白顯示。
在實施例中,映射中藉由媒體播放器所識別之不同文字位置係與不同類型之反白顯示相關聯。舉例而言,映射中之一文字位置可與字型色彩自黑色至紅色之改變相關聯,而映射中之另一文字位置可與動畫(諸如,展示自烤麵包機「彈出」的一塊烤麵包片的烤麵包機圖形)相關聯。因此,映射中之每一映射記錄可包括指示藉由相應文字位置所識別之文字將被反白顯示的方式的「反白顯示資料」。因此,對於媒體播放器識別且包括反白顯示資料的在映射中之每一映射記錄而言,媒體播放器使用反白顯示資料來判定反白顯示文字的方式。若映射記錄不包括反白顯示資料,則媒體播放器可能不反白顯示相應文字。或者,若映射中之映射記錄不包括反白顯示資料,則媒體播放器可使用「預設」反白顯示技術(例如,使文字粗體化)來反白顯示文字。
基於音訊輸入反白顯示文字
圖7為描繪根據本發明之實施例的回應於來自使用者之音訊輸入使所顯示文字反白顯示之處理程序700的流程圖。在此實施例中,不需要映射。音訊輸入用以反白顯示著作之文字版本的同時顯示給使用者之部分中的文字。
在步驟710處,接收音訊輸入。音訊輸入可係基於使用 者朗讀來自著作之文字版本的文字。音訊輸入可藉由顯示文字版本之一部分的器件接收。該器件可提示使用者朗讀單字、片語或整個句子。該提示可為視覺提示或音訊提示。作為視覺提示之實例,在器件顯示加底線之句子的同時或恰在器件顯示加底線的句子之前,器件可使得以下文字被顯示:「請朗讀加底線文字」。作為音訊提示之實例,器件可使得電腦產生之語音朗讀「請朗讀加底線文字」或使得預先錄音之人類語音被播放,其中預先錄音的人類語音提供同一指令。
在步驟720處,對音訊輸入執行話音至文字分析以偵測反映於音訊輸入中的一或多個單字。
在步驟730處,對於反映於音訊輸入中之每一所偵測單字而言,比較彼所偵測單字與單字之特定集合。單字之特定集合可為藉由計算器件(例如,電子閱讀器)同時顯示的所有單字。或者,單字之特定集合可為提示使用者朗讀之所有單字。
在步驟740處,對於與特定集合中之單字匹配的每一所偵測單字而言,器件使得彼匹配單字經反白顯示。
描繪於處理程序700中之步驟可藉由顯示來自著作之文字版本之文字的單一計算器件來執行。或者,描繪於處理程序700中之步驟可藉由不同於顯示來自文字版本之文字之計算器件的一或多個計算器件來執行。舉例而言,步驟710中來自使用者之音訊輸入可經由網路自使用者之器件發送至執行話音至文字分析的網路伺服器。網路伺服器可 接著將反白顯示資料發送至使用者之器件,以使得使用者之器件反白顯示適當文字。
回應於文字選擇播放音訊
在實施例中,顯示著作之文字版本之多個部分的媒體播放器之使用者可選擇所顯示文字之多個部分,且使得相應音訊被播放。舉例而言,若來自數位書之所顯示單字為「donut」且使用者選擇彼單字(例如,藉由觸碰媒體播放器之觸控式螢幕的顯示彼單字之部分),則可播放「donut」之音訊。
映射著作之文字版本中的文字位置與音訊資料中之音訊位置的映射用以識別音訊資料之對應於所選擇文字的部分。使用者可選擇單一單字、片語或甚至一或多個句子。回應於選擇所顯示文字之一部分的輸入,媒體播放器可識別一或多個文字位置。舉例而言,媒體播放器可識別對應於所選擇部分之單一文字位置,即使所選擇部分包含多個行或句子亦如此。所識別文字位置可對應於所選擇部分之開始。作為另一實例,媒體播放器可識別對應於所選擇部分之開始的第一文字位置,及對應於所選擇部分之結尾的第二文字位置。
媒體播放器使用所識別之文字位置來查找映射中之映射記錄,該映射記錄指示最接近所識別文字位置(或在所識別文字位置前最接近)的文字位置。媒體播放器使用指示於映射記錄中之音訊位置來識別在音訊資料中於何處開始處理音訊資料以便產生音訊。若識別出僅單一文字位置, 則僅可播放音訊位置處或靠近音訊位置的單字或聲音。因此,在播放單字或聲音之後,媒體播放器中斷從而不再播放音訊。或者,媒體播放器在音訊位置處或靠近音訊位置開始播放,且並不中斷播放跟隨音訊位置後的音訊,直至(a)達到音訊資料之結尾、(b)來自使用者之其他輸入(例如,「停止」按鈕之選擇),或(c)音訊資料中之預先指定的停止點(例如,需要其他輸入以進行的頁或章之結尾)。
若媒體播放器基於所選擇部分識別兩個文字位置,則兩個音訊位置經識別,且可用以識別於何處開始播放且於何處停止播放相應音訊。
在實施例中,在不超過音訊資料中之當前播放位置的情況下,藉由音訊位置所識別之音訊資料可經緩慢(亦即,以緩慢播放速度)或連續播放。舉例而言,若平板電腦之使用者藉由用其手指觸碰平板電腦之觸控式螢幕且連續地觸碰所顯示單字(亦即,不抬起其手指且不將其手指移動至另一所顯示單字)來選擇所顯示單字「two」,則平板電腦播放相應音訊從而建立藉由朗讀單字「twoooooooooooooooo」所反映的聲音。
在類似實施例中,使用者在媒體播放器之觸控式螢幕上拖曳其手指跨越所顯示文字的速度使得以相同或類似速度播放相應音訊。舉例而言,使用者選擇所顯示單字「donut」之字母「d」,且接著緩慢地移動其手指跨越所顯示單字。回應於此輸入,媒體播放器識別相應音訊資料(使用映射),且以與使用者移動其手指之速度相同的速度 播放相應音訊。因此,媒體播放器建立聽起來如同著作之文字版本之文字的讀者將單字「donut」發音為「dooooooonnnnnnuuuuuut」的音訊。
在類似實施例中,使用者「觸碰」顯示於觸控式螢幕上之單字的時間指示快速或緩慢地播放單字之音訊版本的程度。舉例而言,使用者之手指對所顯示單字之快速輕扣使得相應音訊以正常速度播放,而使用者將其手指按下於所選擇單字上歷時多於1秒使得以½正常速度播放相應音訊。
傳送使用者註解
在實施例中,使用者起始對數位著作之一媒體版本(例如,音訊)之註解的建立,且使得註解與數位著作之另一媒體版本(例如,文字)相關聯。因此,儘管可在一類型之媒體的內容脈絡中建立註解,但可在另一類型之媒體的內容脈絡中取用註解。建立或取用註解之「內容脈絡」指代在建立或取用發生時正顯示文字抑或正播放音訊。
儘管以下實例涉及在建立註解時判定音訊內之位置或文字位置,但本發明之一些實施例並不如此受限。舉例而言,當在文字內容脈絡中取用註解時,不使用在音訊內容脈絡中建立註解時音訊檔案內的當前播放位置。實情為,可藉由器件在相應文字版本之開始或結尾處或在相應文字版本之每一「頁」上顯示註解的指示。作為另一實例,當在音訊內容脈絡中取用註解時,並不使用在文字內容脈絡中建立註解時所顯示之文字。實情為,可藉由器件在相應音訊版本之開始或結尾處顯示註解的指示,或在正播放相 應音訊版本之同時連續地顯示註解的指示。除視覺指示之外或替代於視覺指示,可播放註解之音訊指示。舉例而言,以可聽到「嗶聲」及音軌兩者之方式同時播放嗶聲與音軌。
圖8A至圖8B為描繪根據本發明之實施例的用於將註解自一內容脈絡傳送至另一內容脈絡之處理程序的流程圖。特定言之,圖8A為描繪用於在「文字」內容脈絡中建立註解且在「音訊」內容脈絡中取用註解之處理程序800的流程圖,而圖8B為描繪用於在「音訊」內容脈絡中建立註解且在「文字」內容脈絡中取用註解之處理程序850的流程圖。註解之建立及取用可發生於同一計算器件(例如,器件410)上,或單獨的計算器件(例如,器件410及430)上。圖8A描述在器件410上建立並取用註解之情境,而圖8B描述在器件410上建立註解且稍後在器件430上取用註解之情境。
在圖8A中之步驟802處,在器件410上執行之文字媒體播放器412使得顯示來自數位媒體項目402之文字(亦即,呈頁之形式)。
在步驟804處,文字媒體播放器412判定反映於數位媒體項目402中之著作之文字版本內的文字位置。最終儲存與註解相關聯之文字位置。可以數種方式來判定文字位置。舉例而言,文字媒體播放器412可接收選擇所顯示文字內之文字位置的輸入。輸入可為使用者觸碰器件410之觸控式螢幕(顯示文字)歷時一時段。輸入可選擇特定單字、數 個單字、頁之開始或結尾、句子之前或之後等。輸入亦可包括首先選擇按鈕,此情形使得文字媒體播放器412改變為註解可經建立並與文字位置相關聯的「建立註解」模式。
作為判定文字位置之另一實例,文字媒體播放器412基於正顯示著作(反映於數位媒體項目402中)之文字版本的哪一部分而自動地判定文字位置(在無使用者輸入之情況下)。舉例而言,若器件410正顯示著作之文字版本的頁20,則將使註解與頁20相關聯。
在步驟806處,文字媒體播放器412接收輸入,該輸入選擇可顯示於觸控式螢幕上之「建立註解」按鈕。可回應於步驟804中之選擇文字位置的輸入而顯示此按鈕,其中(例如)使用者觸碰觸控式螢幕歷時一時段(諸如,1秒)。
儘管將步驟804描繪為發生於步驟806之前,但或者,「建立註解」按鈕之選擇可在判定文字位置之前發生。
在步驟808處,文字媒體播放器412接收用以建立註解資料的輸入。輸入可為語音資料(諸如,使用者對著器件410之麥克風說話)或文字資料(諸如,使用者選擇鍵盤上之鍵,不管為實體鍵或圖形鍵)。若註解資料為語音資料,則文字媒體播放器412(或另一處理程序)可對語音資料執行話音至文字分析以建立語音資料的文字版本,
在步驟810處,文字媒體播放器412儲存與文字位置相關聯之註解資料。文字媒體播放器412使用映射(例如,映射406之複本)來識別映射中之最接近該文字位置的特定文字 位置。接著,使用映射,文字媒體播放器識別對應於特定文字位置的音訊位置。
或者至步驟810,文字媒體播放器412經由網路440將註解資料及文字位置發送至中間器件420。作為回應,中間器件420儲存與文字位置相關聯之註解資料。中間器件420使用映射(例如,映射406)來識別映射406中之最接近該文字位置的特定文字位置。接著,使用映射406,中間器件420識別對應於特定文字位置的音訊位置。中間器件420經由網路440將所識別之音訊位置發送至器件410。中間器件420可回應於來自器件410之對某音訊資料及/或對與某音訊資料相關聯之註解的請求而發送所識別之音訊位置。舉例而言,回應於對「The Tale of Two Cities」之音訊書版本的請求,中間器件420判定是否存在與彼音訊書相關聯之任何註解資料,且若有則將註解資料發送至器件410。
步驟810亦可包含儲存指示何時建立註解之日期及/或時間資訊。當在音訊內容脈絡中取用註解時,可稍後顯示此資訊。
在步驟812處,音訊媒體播放器414藉由處理數位媒體項目404之音訊資料來播放音訊,數位媒體項目404在此實例中(儘管未圖示)可儲存於器件410上或可經由網路440自中間器件420串流傳輸至器件410。
在步驟814處,音訊媒體播放器414判定音訊資料中之當前播放位置何時與使用映射406在步驟810中所識別之音訊位置匹配或幾乎匹配。或者,如步驟812中所指示,音訊 媒體播放器414可使得指示一註解可用之資料被顯示,而無關於當前播放位置定位於何處且無需播放任何音訊。換言之,步驟812為不必要的。舉例而言,使用者可啟動音訊媒體播放器414且使得音訊媒體播放器414載入數位媒體項目404之音訊資料。音訊媒體播放器414判定註解資料係與音訊資料相關聯。在不產生與音訊資料相關聯之任何音訊的情況下,音訊媒體播放器414使得關於音訊資料之資訊(例如,標題、藝術家、風格、長度等)被顯示。該資訊可包括對註解資料之參考及關於音訊資料內之與註解資料相關聯之位置的資訊,其中位置對應於在步驟810中所識別之音訊位置。
在步驟816處,音訊媒體播放器414取用註解資料。若註解資料為語音資料,則取用註解資料可涉及處理語音資料以產生音訊或將語音資料轉換為文字資料並顯示該文字資料。若註解資料為文字資料,則取用註解資料可涉及(例如)在顯示所播放之音訊資料之屬性的GUI之側面板中或在顯現為與GUI分離之新窗中顯示文字資料。屬性之非限制性實例包括音訊資料之時間長度、可指示音訊資料內之絕對位置(例如,時間偏移)或音訊資料內之相對位置(例如,章號或章節號)的當前播放位置、音訊資料之波形,及數位著作的標題。
如先前所提到,圖8B描述在器件430上建立註解且稍後在器件410上取用註解的情境。
在步驟852處,音訊媒體播放器432處理來自數位媒體項 目404之音訊資料以播放音訊。
在步驟854處,音訊媒體播放器432判定音訊資料內之音訊位置。最終儲存與註解相關聯之音訊位置。可以數種方式來判定音訊位置。舉例而言,音訊媒體播放器432可接收選擇音訊資料內之音訊位置的輸入。輸入可為使用者觸碰器件430之觸控式螢幕(顯示音訊資料之屬性)歷時一時段。輸入可選擇時刻表內之反映音訊資料之長度的絕對位置或音訊資料內之相對位置(諸如,章號及段號)。輸入亦可包含首先選擇按鈕,此情形使得音訊媒體播放器432改變為註解可經建立並與音訊位置相關聯的「建立註解」模式。
作為判定音訊位置之另一實例,音訊媒體播放器432基於音訊資料之哪一部分正被處理來自動地判定音訊位置(在無使用者輸入的情況下)。舉例而言,若音訊媒體播放器432正處理音訊資料之對應於反映於數位媒體項目404中之數位著作的章20之部分,則音訊媒體播放器432判定音訊位置至少係章20內之某處。
在步驟856處,音訊媒體播放器432接收輸入,該輸入選擇可顯示於器件430之觸控式螢幕上之「建立註解」按鈕。可回應於步驟854中之選擇音訊位置的輸入而顯示此按鈕,其中(例如)使用者連續觸碰觸控式螢幕歷時一時段(諸如,1秒)。
儘管將步驟854描繪為發生於步驟856之前,但或者,「建立註解」按鈕之選擇可在判定音訊位置之前發生。
在步驟858處,類似於步驟808,第一媒體播放器接收用以建立註解資料的輸入。
在步驟860處,音訊媒體播放器432儲存與音訊位置相關聯之註解資料。音訊媒體播放器432使用映射(例如,映射406)來識別映射中之最接近步驟854中所判定之音訊位置的特定音訊位置。接著,使用映射,音訊媒體播放器432識別對應於特定音訊位置的文字位置。
或者至步驟860,音訊媒體播放器432經由網路400將註解資料及音訊位置發送至中間器件420。作為回應,中間器件420儲存與音訊位置相關聯之註解資料。中間器件420使用映射406來識別映射中之最接近在步驟854中所判定之音訊位置的特定音訊位置。接著,使用映射406,中間器件420識別對應於特定音訊位置的文字位置。中間器件420經由網路440將所識別之文字位置發送至器件410。中間器件420可回應於來自器件410之對某文字資料及/或對與某文字資料相關聯之註解的請求而發送所識別之文字位置。舉例而言,回應於對「The Grapes of Wrath」之數位書的請求,中間器件420判定是否存在與彼數位書相關聯之任何註解資料,且若有則將註解資料發送至器件430。
步驟860亦可包含儲存指示何時建立註解之日期及/或時間資訊。當在文字內容脈絡中取用註解時,可稍後顯示此資訊。
在步驟862處,器件410顯示與數位媒體項目402相關聯之文字資料,數位媒體項目402為數位媒體項目404的文字 版本。器件410基於數位媒體項目402之本端儲存之複本而顯示數位媒體項目402的文字資料,或若本端儲存之複本並不存在,則可顯示文字資料同時文字資料自中間器件420串流傳輸。
在步驟864處,器件410判定著作(反映於數位媒體項目402中)之文字版本的包括文字位置(在步驟860中所識別)之部分何時被顯示。或者,器件410可顯示指示註解可用之資料,而無關於著作之文字版本的哪一部分(若存在)被顯示。
在步驟866處,文字媒體播放器412取用註解資料。若註解資料為語音資料,則取用註解資料可包含播放語音資料或將語音資料轉換為文字資料並顯示該文字資料。若註解資料為文字資料,則取用註解資料可包含(例如)在顯示著作之文字版本的一部分之GUI之側面板中或在顯現為與GUI分離之新窗中顯示文字資料。
硬體綜述
根據一實施例,本文中所描述之技術係藉由一或多個專用計算器件來實施。專用計算器件可經硬連線以執行該等技術,或可包括經永久程式化以執行該等技術的數位電子器件,諸如一或多個特殊應用積體電路(ASIC)或場可程式化閘陣列(FPGA),或可包括經程式化以按照韌體、記憶體、其他儲存器或組合中之程式指令執行該等技術的一或多個通用硬體處理器。此等專用計算器件亦可藉由定製程式化組合定製硬連線邏輯、ASIC或FPGA以實現該等技 術。專用計算器件可為桌上型電腦系統、攜帶型電腦系統、手持式器件、網路連接器件,或併有硬連線及/或程式邏輯以實施該等技術的任何其他器件。
舉例而言,圖9為說明可實施本發明之實施例的電腦系統900之方塊圖。電腦系統900包括匯流排902或用於傳達資訊之其他通信機構,及與匯流排902耦接以用於處理資訊的硬體處理器904。硬體處理器904可為(例如)通用微處理器。
電腦系統900亦包括耦接至匯流排902以用於儲存資訊及待藉由處理器904執行之指令的主要記憶體906,諸如隨機存取記憶體(RAM)或其他動態儲存器件。主要記憶體906亦可用於在執行待藉由處理器904執行之指令期間儲存臨時變數或其他中間資訊。此等指令在儲存於對於處理器904為可存取之非暫時性儲存媒體中時致使電腦系統900為經定製以執行在指令中所指定之操作的專用機器。
電腦系統900進一步包括耦接至匯流排902以用於儲存靜態資訊及用於處理器904之指令的唯讀記憶體(ROM)908或其他靜態儲存器件。諸如磁碟或光碟之儲存器件910經提供並耦接至匯流排902以用於儲存資訊及指令。
電腦系統900可經由匯流排902耦接至諸如陰極射線管(CRT)之顯示器912,以用於將資訊顯示給電腦使用者。包括文數字及其他鍵之輸入器件914耦接至匯流排902,以用於將資訊及命令選擇傳達至處理器904。另一類型之使用者輸入器件為諸如滑鼠、軌跡球或游標方向鍵之游標控制 916,以用於將方向資訊及命令選擇傳達至處理器904且用於控制顯示器912上之游標移動。此輸入器件通常具有允許器件指定平面中之位置的兩個軸線(第一軸線(例如,x)及第二軸線(例如,y))上之兩個自由度。
電腦系統900可使用經定製之硬連線邏輯、一或多個ASIC或FPGA、韌體及/或程式邏輯來實施本文中所描述之技術,前述裝置與電腦系統組合而使得電腦系統900成為專用機器或將電腦系統900程式化為專用機器。根據一實施例,本文中之技術係回應於處理器904執行含於主要記憶體906中之一或多個指令的一或多個序列而藉由電腦系統900執行。此等指令可自另一儲存媒體(諸如,儲存器件910)讀取至主要記憶體906中。含於主要記憶體906中之指令之序列的執行使得處理器904執行本文中所描述之處理程序步驟。在替代性實施例中,可替代於軟體指令或組合軟體指令而使用硬連線電路。
如本文中所使用之術語「儲存媒體」指代儲存資料及/或使得機器以特定型式操作之指令的任何非暫時性媒體。此等儲存媒體可包含非揮發性媒體及/或揮發性媒體。非揮發性媒體包括(例如)諸如儲存器件910之光碟或磁碟。揮發性媒體包括諸如主要記憶體906之動態記憶體。儲存媒體之常見形式包括(例如)軟性磁碟、可撓性磁碟、硬碟、固態驅動機、磁帶、或任何其他磁性資料儲存媒體、CD-ROM、任何其他光學資料儲存媒體、具有孔洞圖案之任何實體媒體、RAM、PROM、及EPROM、FLASH-EPROM、 NVRAM、任何其他記憶體晶片或匣。
儲存媒體相異於傳輸媒體,但可結合傳輸媒體使用。傳輸媒體參與在儲存媒體之間傳送資訊。舉例而言,傳輸媒體包括同軸纜線、銅導線及光纖,包括包含匯流排902的導線。傳輸媒體亦可採用聲波或光波之形式,諸如在無線電波及紅外線資料通信期間所產生的彼等。
在將一或多個指令之一或多個序列攜載至處理器904以供執行時可涉及各種形式之媒體。舉例而言,指令最初可攜載於遠端電腦之磁碟或固態驅動機上。遠端電腦可將指令載入至其動態記憶體中,且使用數據機經由電話線而發送指令。電腦系統900之本端數據機可在電話線上接收資料,且使用紅外線傳輸器將資料轉換成紅外線信號。紅外線偵測器可接收攜載於紅外線信號中之資料,且適當電路可將資料置放於匯流排902上。匯流排902將資料攜載至主要記憶體906,處理器904自主要記憶體906擷取並執行指令。藉由主要記憶體906所接收之指令可視情況在藉由處理器904執行之前抑或之後儲存於儲存器件910上。
電腦系統900亦包括耦接至匯流排902之通信介面918。通信介面918提供至網路鏈路920之雙向資料通信耦接,網路鏈路920連接至區域網路922。舉例而言,通信介面918可為整合服務數位網路(ISDN)卡、纜線數據機、衛星數據機,或將資料通信連接提供至相應類型之電話線的數據機。作為另一實例,通信介面918可為區域網路(LAN)卡以向相容LAN提供資料通信連接。亦可實施無線鏈路。在任 何此實施中,通信介面918發送及接收電信號、電磁信號或光學信號,該等信號攜載表示各種類型之資訊的數位資料串流。
網路鏈路920通常經由一或多個網路向其他資料器件提供資料通信。舉例而言,網路鏈路920可經由區域網路922將連接提供至主機電腦924或藉由網際網路服務提供者(ISP)926所操作之資料設備。ISP 926又經由現統稱為「網際網路」928之全球封包資料通信網路提供資料通信服務。區域網路922及網際網路928皆使用攜載數位資料串流的電、電磁或光學信號。攜載至及自電腦系統900之數位資料的通過各種網路之信號及在網路鏈路920上且通過通信介面918的信號為傳輸媒體之實例形式。
電腦系統900可經由(多個)網路、網路鏈路920及通信介面918發送訊息並接收包括程式碼的資料。在網際網路實例中,伺服器930可能經由網際網路928、ISP 926、區域網路922及通信介面918傳輸應用程式之所請求程式碼。
所接收程式碼可在其被接收時藉由處理器904執行,及/或儲存於儲存器件910或其他非揮發性儲存器中以供稍後執行。
根據一些實施例,圖10至圖15展示根據如上文所描述之本發明之原理的電子器件1000至1500之功能方塊圖。器件之功能區塊可藉由硬體、軟體或硬體與軟體之組合來實施以執行本發明的原理。熟習此項技術者應理解,描述於圖10至圖15中之功能區塊可經組合或分離成子區塊以實施如 上文所描述的本發明之原理。因此,本文中之描述可支援本文中所描述之功能區塊的任何可能組合或分離或其他定義。
如圖10中所展示,電子器件1000包括經組態以用於接收音訊資料的音訊資料接收單元1002,該音訊資料反映存在文字版本之著作的可聞版本。電子器件1000亦包括耦接至音訊資料接收單元1002之處理單元1006。在一些實施例中,處理單元1006包括話音至文字單元1008及映射單元1010。
處理單元1006經組態以執行音訊資料之話音至文字分析以產生音訊資料之多個部分的文字(例如,藉由話音至文字單元1008);及基於針對音訊資料之該等部分所產生的文字,產生音訊資料中之複數個音訊位置與著作之文字版本中的相應複數個文字位置之間的映射(例如,藉由映射單元1010)。
如圖11中所展示,電子器件1100包括經組態以用於接收著作之文字版本的文字接收單元1102。電子器件1100亦包括經組態以用於接收第二音訊資料之音訊資料接收單元1104,該第二音訊資料反映文字版本存在之著作的可聞版本。電子器件1100亦包括耦接至文字接收單元1102之處理單元1106。在一些實施例中,處理單元1106包括文字至話音單元1108及映射單元1110。
處理單元1106經組態以執行文字版本之文字至話音分析以產生第一音訊資料(例如,藉由文字至話音單元1108); 且基於第一音訊資料及文字版本,產生第一音訊資料中之第一複數個音訊位置與著作之文字版本中的相應複數個文字位置之間的第一映射(例如,藉由映射單元1110)。處理單元1106經進一步組態以基於(1)第一音訊資料與第二音訊資料之比較及(2)第一映射,產生第二音訊資料中之第二複數個音訊位置與著作之文字版本中的該複數個文字位置之間的第二映射(例如,藉由映射單元1110)。
如圖12中所展示,電子器件1200包括經組態以用於接收音訊輸入之音訊接收單元1202。電子器件1200亦包括耦接至音訊接收單元1202之處理單元1206。在一些實施例中,處理單元1206包括話音至文字單元1208、文字匹配單元1209及顯示控制單元1210。
處理單元1206經組態以執行音訊輸入之話音至文字分析以產生音訊輸入之多個部分的文字(例如,藉由話音至文字單元1208);判定針對音訊輸入之多個部分所產生的文字是否與當前顯示之文字匹配(例如,藉由文字匹配單元1209);及回應於判定文字與當前顯示之文字匹配,使得當前顯示之文字經反白顯示(例如,藉由顯示控制單元1210)。
如圖13中所展示,電子器件1300包括經組態以用於獲得位置資料之位置資料獲得單元1302,該位置資料指示著作之文字版本內的指定位置。電子器件1300亦包括耦接至位置資料獲得單元1302之處理單元1306。在一些實施例中,處理單元1306包括映射檢查單元1308。
處理單元1306經組態以檢查著作之音訊版本中的複數個音訊位置與著作之文字版本中之相應複數個文字位置之間的映射(例如,藉由映射檢查單元1308)以:判定該複數個文字位置中之對應於指定位置的特定文字位置,及基於特定文字位置判定該複數個音訊位置中之對應於特定文字位置的特定音訊位置。處理單元1306亦經組態以將基於特定文字位置所判定之特定音訊位置提供至媒體播放器,以使得媒體播放器將特定音訊位置建立為音訊資料的當前播放位置。
如圖14中所展示,電子器件1400包括經組態以用於獲得位置資料之位置獲得單元1402,該位置資料指示音訊資料內的指定位置。電子器件1400亦包括耦接至位置獲得單元1402之處理單元1406。在一些實施例中,處理單元1406包括映射檢查單元1408及顯示控制單元1410。
處理單元1406經組態以檢查音訊資料中之複數個音訊位置與著作之文字版本中的相應複數個文字位置之間的映射(例如,藉由映射檢查單元1408)以:判定該複數個音訊位置中之對應於指定位置的特定音訊位置,及基於特定音訊位置判定該複數個文字位置中之對應於特定音訊位置的特定文字位置。處理單元1406亦經組態以使得媒體播放器顯示關於特定文字位置之資訊(例如,藉由顯示控制單元1410)。
如圖15中所展示,電子器件1500包括經組態以用於獲得位置資料之位置獲得單元1502,該位置資料指示在著作之 音訊版本之播放期間在音訊版本內的指定位置。電子器件1500亦包括耦接至位置資料獲得單元1502之處理單元1506。在一些實施例中,處理單元1506包括文字位置判定單元1508及顯示控制單元1510。
處理單元1506經組態以在著作之音訊版本的播放期間:基於指定位置判定著作之文字版本中的特定文字位置(例如,藉由文字位置判定單元1508),該特定文字位置係與頁終資料相關聯,該頁終資料指示反映於著作之文字版本中的第一頁之結尾;及回應於判定特定文字位置與頁終資料相關聯,自動地使得第一頁中斷顯示且使得第一頁之後的第二頁被顯示(例如,藉由顯示控制單元1510)。
在前述說明書中,已參考可在實施間變化的眾多特定細節描述了本發明之實施例。因此,說明書及圖式應視為具有說明性意義而非限制性意義。本發明之範疇的單獨及排外性指示符及申請人期望係本發明之範疇之物為以技術方案發佈所呈的特定形式自本申請案發佈的包括任何後續校正之技術方案集合文字(literal)及等效範疇。
210‧‧‧文字版本/文件
220‧‧‧文字至話音產生器/文字至話音分析器
230‧‧‧音訊資料
240‧‧‧音訊至文件映射
250‧‧‧音訊書
260‧‧‧音訊至文字相關器/話音至話音分析器
270‧‧‧文件至音訊映射/文件至文字映射
400‧‧‧系統
402‧‧‧數位媒體項目
404‧‧‧數位媒體項目
406‧‧‧映射
410‧‧‧終端使用者器件
412‧‧‧文字媒體播放器
414‧‧‧音訊媒體播放器
420‧‧‧中間器件
430‧‧‧終端使用者器件
432‧‧‧音訊媒體播放器
440‧‧‧網路
900‧‧‧電腦系統
902‧‧‧匯流排
904‧‧‧硬體處理器
906‧‧‧主要記憶體
908‧‧‧唯讀記憶體(ROM)
910‧‧‧儲存器件
912‧‧‧顯示器
914‧‧‧輸入器件
916‧‧‧游標控制
918‧‧‧通信介面
920‧‧‧網路鏈路
922‧‧‧區域網路
924‧‧‧主機電腦
926‧‧‧網際網路服務提供者(ISP)
928‧‧‧網際網路
930‧‧‧伺服器
1000‧‧‧電子器件
1002‧‧‧音訊資料接收單元
1006‧‧‧處理單元
1008‧‧‧話音至文字單元
1010‧‧‧映射單元
1100‧‧‧電子器件
1102‧‧‧文字接收單元
1104‧‧‧音訊資料接收單元
1106‧‧‧處理單元
1108‧‧‧文字至話音單元
1110‧‧‧映射單元
1200‧‧‧電子器件
1204‧‧‧音訊接收單元
1206‧‧‧處理單元
1208‧‧‧話音至文字單元
1209‧‧‧文字匹配單元
1210‧‧‧顯示控制單元
1300‧‧‧電子器件
1302‧‧‧位置資料獲得單元
1306‧‧‧處理單元
1308‧‧‧映射檢查單元
1400‧‧‧電子器件
1402‧‧‧位置獲得單元
1406‧‧‧處理單元
1408‧‧‧映射檢查單元
1410‧‧‧顯示控制單元
1500‧‧‧電子器件
1502‧‧‧位置獲得單元/位置資料獲得單元
1506‧‧‧處理單元
1508‧‧‧文字位置判定單元
1510‧‧‧顯示控制單元
圖1為描繪根據本發明之實施例的用於在文字資料與音訊資料之間自動地建立映射之處理程序的流程圖;圖2為描繪根據本發明之實施例的在於文字資料與音訊資料之間產生映射時涉及音訊至文字相關器之處理程序的方塊圖;圖3為描繪根據本發明之實施例的用於在此等情境中之 一或多者下使用映射之處理程序的流程圖;圖4為根據本發明之實施例的可用以實施本文中所描述之處理程序中之一些的實例系統400之方塊圖。
圖5A至圖5B為描繪根據本發明之實施例的用於書籤切換之處理程序的流程圖;圖6為描繪根據本發明之實施例的用於在著作之音訊版本正播放之同時使得來自著作之文字版本的文字經反白顯示的處理程序之流程圖;圖7為描繪根據本發明之實施例的回應於來自使用者之音訊輸入使所顯示文字反白顯示之處理程序的流程圖;圖8A至圖8B為描繪根據本發明之實施例的用於將註解自一媒體內容脈絡傳送至另一媒體內容脈絡之處理程序的流程圖;及圖9為說明可實施本發明之實施例的電腦系統之方塊圖。
圖10至圖15為根據一些實施例之電子器件的功能方塊圖。

Claims (20)

  1. 一種方法,其包含:接收音訊資料,該音訊資料對應於一文字版本存在之一著作之至少一部分;執行該音訊資料之一話音至文字分析以產生該音訊資料之部分的文字,其中基於該著作之該文字版本內之一當前轉譯位置,將該音訊資料可被轉譯成之單字之一集合限於包含於該文字版本中之單字之一子集;及基於針對該音訊資料之該等部分所產生的該文字,產生該音訊資料中之複數個音訊位置與該著作之該文字版本中的相應複數個文字位置之間的一映射;其中該方法係藉由一或多個計算器件執行。
  2. 如請求項1之方法,其中產生該音訊資料之部分的文字包括:至少部分基於該著作之文字內容脈絡產生該音訊資料之部分的文字。
  3. 如請求項2之方法,其中至少部分基於該著作之文字內容脈絡產生該音訊資料之部分的文字包括:至少部分基於用於該著作之該文字版本中的一或多個語法規則產生文字。
  4. 如請求項1之方法,其中:執行該話音至文字分析包括:維持該著作之該文字版本內的該當前轉譯位置,其中該著作之該文字版本內的該當前轉譯位置對應於該話音至文字分析之在該音訊資料中的一當前音訊位置。
  5. 如請求項1至4中任一項之方法,其中該等部分包括對應於個別單字之部分,且該映射將對應於個別單字之該等部分的位置映射至該著作之該文字版本中的個別單字。
  6. 如請求項1至4中任一項之方法,其中該等部分包括對應於個別句子之部分,且該映射將對應於個別句子之該等部分的位置映射至該著作之該文字版本中的個別句子。
  7. 如請求項1至4中任一項之方法,其中該等部分包括對應於固定量之資料的部分,且該映射將對應於固定量之資料之該等部分的位置映射至該著作之該文字版本中的相應位置。
  8. 如請求項1至4中任一項之方法,其中產生該映射包括:(1)將錨嵌入於該音訊資料中;(2)將錨嵌入於該著作之該文字版本中;或(3)將該映射儲存於係與該音訊資料或該著作之該文字版本相關聯儲存的一媒體疊覆中。
  9. 如請求項1至4中任一項之方法,其中該複數個文字位置中之一或多個文字位置中的每一者指示該著作之該文字版本中的一相對位置。
  10. 如請求項1至4中任一項之方法,其中該複數個文字位置中之一文字位置指示該著作之該文字版本中的一相對位置,且該複數個文字位置中之另一文字位置自該相對位置指示一絕對位置。
  11. 如請求項1至4中任一項之方法,其中該複數個文字位置中之一或多個文字位置中的每一者指示該著作之該文字版本內的一錨。
  12. 如請求項1之方法,其進一步包含:判定針對該音訊輸入之部分所產生的該文字是否與當前顯示之文字匹配;及回應於判定該文字與當前顯示之文字匹配,使得當前顯示之該文字經反白顯示。
  13. 如請求項1之方法,其中靠近該當前轉譯位置之該等單字對應於由圍繞該當前轉譯位置之一滑動窗所界定之單字。
  14. 如請求項13之方法,其中該滑動窗開始於先於該當前轉譯位置之一段落之一開頭,且結束於在該當前轉譯位置之後之一第三段落之一結尾。
  15. 如請求項13之方法,其中該滑動窗橫越少於該著作之該文字版本中所有字元的一預定數目之字元。
  16. 如請求項13之方法,其中該滑動窗橫越少於該著作之該文字版本中所有單字的一預定數目之單字。
  17. 一種電子器件,其包含:至少一處理器;及儲存一或多個程式以供該至少一處理器執行的記憶體,該一或多個程式包括用於進行以下操作的指令:接收音訊資料,該音訊資料對應於一文字版本存在之一著作之至少一部分;執行該音訊資料之一話音至文字分析以產生該音訊資料之部分的文字,其中基於該著作之該文字版本內之一當前轉譯位置,將該音訊資料可被轉譯成之單字之一 集合限於包含於該文字版本中之單字之一子集;及基於針對該音訊資料之該等部分所產生的該文字,產生該音訊資料中之複數個音訊位置與該著作之該文字版本中的相應複數個文字位置之間的一映射。
  18. 一種電子器件,其包含:至少一處理器;及儲存一或多個程式以供該至少一處理器執行的記憶體,該一或多個程式包括用於進行以下操作的指令:接收音訊資料,該音訊資料對應於一文字版本存在之一著作之至少一部分;執行該音訊資料之一話音至文字分析以產生該音訊資料之部分的文字,其中基於該著作之該文字版本內之一當前轉譯位置,將該音訊資料可被轉譯成之單字之一集合限於包含於該文字版本中之單字之一子集;判定針對該音訊資料之部分所產生的該文字是否與當前顯示之文字匹配;及回應於判定該文字與當前顯示之文字匹配,使得當前顯示之該文字經反白顯示。
  19. 一種包括一或多個程式之電腦可讀媒體,該一或多個程式在藉由一電子器件之一或多個處理器執行時使得該電子器件:接收音訊資料,該音訊資料對應於一文字版本存在之一著作之至少一部分;執行該音訊資料之一話音至文字分析以產生該音訊資 料之部分的文字,其中基於該著作之該文字版本內之一當前轉譯位置,將該音訊資料可被轉譯成之單字之一集合限於包含於該文字版本中之單字之一子集;及基於針對該音訊資料之該等部分所產生的該文字,產生該音訊資料之複數個音訊位置與該著作之該文字版本中的相應複數個文字位置之間的一映射。
  20. 一種電子器件,其包含:用於接收音訊資料之構件,該音訊資料對應於一文字版本存在之一著作之至少一部分;用於執行該音訊資料之一話音至文字分析以產生該音訊資料之部分的文字之構件,其中基於該著作之該文字版本內之一當前轉譯位置,將該音訊資料可被轉譯成之單字之一集合限於包含於該文字版本中之單字之一子集;及用於基於針對該音訊資料之該等部分所產生的該文字產生該音訊資料之複數個音訊位置與該著作之該文字版本中的相應複數個文字位置之間的一映射之構件。
TW101119921A 2011-06-03 2012-06-01 自動地建立文字資料與音訊資料間之映射 TWI488174B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201161493372P 2011-06-03 2011-06-03
US13/267,738 US20120310642A1 (en) 2011-06-03 2011-10-06 Automatically creating a mapping between text data and audio data

Publications (2)

Publication Number Publication Date
TW201312548A TW201312548A (zh) 2013-03-16
TWI488174B true TWI488174B (zh) 2015-06-11

Family

ID=47675616

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101119921A TWI488174B (zh) 2011-06-03 2012-06-01 自動地建立文字資料與音訊資料間之映射

Country Status (3)

Country Link
JP (2) JP5463385B2 (zh)
CN (1) CN102937959A (zh)
TW (1) TWI488174B (zh)

Families Citing this family (161)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) * 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
WO2015002585A1 (en) * 2013-07-03 2015-01-08 Telefonaktiebolaget L M Ericsson (Publ) Providing an electronic book to a user equipment
JP6129977B2 (ja) * 2013-09-20 2017-05-17 株式会社東芝 アノテーション共有方法、アノテーション共有装置及びアノテーション共有プログラム
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
CN104765714A (zh) * 2014-01-08 2015-07-08 中国移动通信集团浙江有限公司 一种电子阅读与听书的切换方法及装置
TWI510940B (zh) * 2014-05-09 2015-12-01 Univ Nan Kai Technology 以語音訊號建立備註資料之影像瀏覽裝置及其方法
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
CN105893387B (zh) * 2015-01-04 2021-03-23 伊姆西Ip控股有限责任公司 智能多媒体处理方法和系统
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
CN104866543A (zh) * 2015-05-06 2015-08-26 陆默 一种多种书籍载体切换方法和装置
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN106469040B (zh) 2015-08-19 2019-06-21 华为终端有限公司 通信方法、服务器及设备
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
CN105302908B (zh) * 2015-11-02 2020-06-26 北京奇虎科技有限公司 电子书相关有声音频资源推荐方法和装置
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
CN105373605A (zh) * 2015-11-11 2016-03-02 中国农业大学 数据文件批量存储方法及系统
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
JP6880556B2 (ja) * 2016-03-10 2021-06-02 凸版印刷株式会社 情報提示装置、情報提示方法、情報提示システム、およびプログラム
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
CN107948405A (zh) * 2017-11-13 2018-04-20 百度在线网络技术(北京)有限公司 一种信息处理方法、装置及终端设备
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
CN108172247A (zh) * 2017-12-22 2018-06-15 北京壹人壹本信息科技有限公司 录音播放方法、移动终端及具有存储功能的装置
CN108108143B (zh) * 2017-12-22 2021-08-17 北京壹人壹本信息科技有限公司 录音回放的方法、移动终端及具有存储功能的装置
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
CN109522427B (zh) * 2018-09-30 2021-12-10 北京光年无限科技有限公司 一种面向智能机器人的故事数据处理方法及装置
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN109634700A (zh) * 2018-11-26 2019-04-16 维沃移动通信有限公司 一种音频的文本内容显示方法及终端设备
US11114085B2 (en) 2018-12-28 2021-09-07 Spotify Ab Text-to-speech from media content item snippets
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN110750229A (zh) * 2019-09-30 2020-02-04 北京淇瑀信息科技有限公司 一种语音质检显示方法、装置及电子设备
CN111324330B (zh) * 2020-02-07 2021-04-30 掌阅科技股份有限公司 电子书的播放处理方法、计算设备及计算机存储介质
CN111459446B (zh) * 2020-03-27 2021-08-17 掌阅科技股份有限公司 电子书的资源处理方法、计算设备及计算机存储介质
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112530472B (zh) * 2020-11-26 2022-06-21 北京字节跳动网络技术有限公司 音频与文本的同步方法、装置、可读介质和电子设备
US11798536B2 (en) 2021-06-14 2023-10-24 International Business Machines Corporation Annotation of media files with convenient pause points
US11537781B1 (en) 2021-09-15 2022-12-27 Lumos Information Services, LLC System and method to support synchronization, closed captioning and highlight within a text document or a media file
TWI812070B (zh) * 2022-03-15 2023-08-11 宏碁股份有限公司 錄音檔轉文字稿方法及系統

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6260011B1 (en) * 2000-03-20 2001-07-10 Microsoft Corporation Methods and apparatus for automatically synchronizing electronic audio files with electronic text files
US20080140652A1 (en) * 2006-12-07 2008-06-12 Jonathan Travis Millman Authoring tool
TW200901162A (en) * 2007-03-20 2009-01-01 Ibm Indexing digitized speech with words represented in the digitized speech
TW200907932A (en) * 2007-02-14 2009-02-16 Lg Electronics Inc Methods and apparatuses for encoding and decoding object-based audio signals
US20090112572A1 (en) * 2007-10-30 2009-04-30 Karl Ola Thorn System and method for input of text to an application operating on a device
US20100324905A1 (en) * 2009-01-15 2010-12-23 K-Nfb Reading Technology, Inc. Voice models for document narration

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
JP2000074685A (ja) * 1998-08-31 2000-03-14 Matsushita Electric Ind Co Ltd 車載装置における検索方法と車載ナビゲーション装置
US6369811B1 (en) * 1998-09-09 2002-04-09 Ricoh Company Limited Automatic adaptive document help for paper documents
ATE341810T1 (de) * 1999-02-19 2006-10-15 Custom Speech Usa Inc Automatisiertes übertragungssystem und -verfahren mit zwei instanzen zur sprachumwandlung und rechnergestützter korrektur
JP2002169588A (ja) * 2000-11-16 2002-06-14 Internatl Business Mach Corp <Ibm> テキスト表示装置、テキスト表示制御方法、記憶媒体、プログラム伝送装置及び応対支援方法
US7366979B2 (en) * 2001-03-09 2008-04-29 Copernicus Investments, Llc Method and apparatus for annotating a document
JP2002344880A (ja) * 2001-05-22 2002-11-29 Megafusion Corp コンテンツ配信システム
US20050131559A1 (en) * 2002-05-30 2005-06-16 Jonathan Kahn Method for locating an audio segment within an audio file
US7567902B2 (en) * 2002-09-18 2009-07-28 Nuance Communications, Inc. Generating speech recognition grammars from a large corpus of data
JP2004152063A (ja) * 2002-10-31 2004-05-27 Nec Corp マルチメディアコンテンツ構造化方法、構造化装置および構造化プログラム、ならびに提供方法
JP2005070645A (ja) * 2003-08-27 2005-03-17 Casio Comput Co Ltd テキスト音声同期装置およびテキスト音声同期処理プログラム
WO2005069171A1 (ja) * 2004-01-14 2005-07-28 Nec Corporation 文書対応付け装置、および文書対応付け方法
JP2006023860A (ja) * 2004-07-06 2006-01-26 Sharp Corp 情報閲覧装置、情報閲覧プログラム、情報閲覧プログラム記録媒体及び情報閲覧システム
US20070055514A1 (en) * 2005-09-08 2007-03-08 Beattie Valerie L Intelligent tutoring feedback
JP2007206317A (ja) * 2006-02-01 2007-08-16 Yamaha Corp オーサリング方法、オーサリング装置およびプログラム
US8055693B2 (en) * 2008-02-25 2011-11-08 Mitsubishi Electric Research Laboratories, Inc. Method for retrieving items represented by particles from an information database
JP2010078979A (ja) * 2008-09-26 2010-04-08 Nec Infrontia Corp 音声録音装置、録音音声検索方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6260011B1 (en) * 2000-03-20 2001-07-10 Microsoft Corporation Methods and apparatus for automatically synchronizing electronic audio files with electronic text files
US20080140652A1 (en) * 2006-12-07 2008-06-12 Jonathan Travis Millman Authoring tool
TW200907932A (en) * 2007-02-14 2009-02-16 Lg Electronics Inc Methods and apparatuses for encoding and decoding object-based audio signals
TW200901162A (en) * 2007-03-20 2009-01-01 Ibm Indexing digitized speech with words represented in the digitized speech
US20090112572A1 (en) * 2007-10-30 2009-04-30 Karl Ola Thorn System and method for input of text to an application operating on a device
US20100324905A1 (en) * 2009-01-15 2010-12-23 K-Nfb Reading Technology, Inc. Voice models for document narration

Also Published As

Publication number Publication date
TW201312548A (zh) 2013-03-16
JP2013008357A (ja) 2013-01-10
CN102937959A (zh) 2013-02-20
JP2014132345A (ja) 2014-07-17
JP5463385B2 (ja) 2014-04-09

Similar Documents

Publication Publication Date Title
TWI488174B (zh) 自動地建立文字資料與音訊資料間之映射
AU2016202974B2 (en) Automatically creating a mapping between text data and audio data
US10671251B2 (en) Interactive eReader interface generation based on synchronization of textual and audial descriptors
US11657725B2 (en) E-reader interface system with audio and highlighting synchronization for digital books
KR100287093B1 (ko) 음성 합성 방법, 음성 합성 장치, 하이퍼 텍스트의 제어 방법 및 제어 장치
MacWhinney et al. Transcribing, searching and data sharing: The CLAN software and the TalkBank data repository
JP5257330B2 (ja) 発言記録装置、発言記録方法、プログラム及び記録媒体
US8209169B2 (en) Synchronization of an input text of a speech with a recording of the speech
US20060194181A1 (en) Method and apparatus for electronic books with enhanced educational features
JP2001014306A (ja) 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体
US10650089B1 (en) Sentence parsing correction system
Öktem et al. Corpora compilation for prosody-informed speech processing
KR101030777B1 (ko) 스크립트 데이터 생성 방법 및 장치
KR20100014031A (ko) 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히추출하여 u-컨텐츠 만드는 장치 및 그 방법
TW202221697A (zh) 用於語言之分析系統及上傳分析方法
JP2001014137A (ja) 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees