JP5404726B2 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP5404726B2
JP5404726B2 JP2011208968A JP2011208968A JP5404726B2 JP 5404726 B2 JP5404726 B2 JP 5404726B2 JP 2011208968 A JP2011208968 A JP 2011208968A JP 2011208968 A JP2011208968 A JP 2011208968A JP 5404726 B2 JP5404726 B2 JP 5404726B2
Authority
JP
Japan
Prior art keywords
information
character string
reading
speech
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011208968A
Other languages
English (en)
Other versions
JP2013069228A (ja
Inventor
信宏 下郡
朋男 池田
晃嗣 上野
修 西山
博和 鈴木
学 永尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2011208968A priority Critical patent/JP5404726B2/ja
Priority to US13/533,091 priority patent/US9798804B2/en
Publication of JP2013069228A publication Critical patent/JP2013069228A/ja
Application granted granted Critical
Publication of JP5404726B2 publication Critical patent/JP5404726B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Description

本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。
従来、音声データをテキスト化する書き起こし作業の効率化を図るための様々な技術が知られている。例えば、ユーザーが、書き起こし対象の音声データを用いて文字列の入力を行っている途中の段階で、最終的に入力される語句を予測して提示する技術が知られている。一例として、音声データに対する音声認識処理により得られた複数の語句の中から、当該語句の読みを示す文字列の少なくとも一部が入力中の文字列と一致する語句を検索し、その検索により得られた語句を入力候補として提示する技術が知られている。
しかしながら、従来の技術では、音声認識処理結果の履歴に含まれる全ての語句が検索対象となるので、多数の候補が検索されてしまい、精度が低いという問題がある。
特開2000−285112号公報
本発明が解決しようとする課題は、入力候補を検索する検索処理の精度を向上させることが可能な情報処理装置、情報処理方法およびプログラムを提供することである。
実施形態の情報処理装置は、記憶部と検出部と取得部と検索部とを備える。記憶部は、音声データに対する音声認識処理により得られる音声テキストデータに含まれる複数の文字列の各々と、音声データ内の位置を示す音声位置情報とが対応付けられた音声インデックスを記憶する。検出部は、音声データのうち、再生された区間を示す再生区間情報を検出する。取得部は、再生された音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報を取得する。検索部は、音声インデックスに含まれる複数の文字列のうち、対応する音声位置情報が再生区間情報に含まれる文字列を検索の対象として特定し、その特定した文字列の中から、読み情報が示す読みを含む文字列を検索する。
実施形態の情報処理方法は、検出ステップと取得ステップと検索ステップとを備える。検出ステップは、音声データのうち、再生された区間を示す再生区間情報を検出する。取得ステップは、再生された音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報を取得する。検索ステップは、音声テキストデータに含まれる複数の文字列の各々と、音声位置情報とが対応付けられた音声インデックスに含まれる複数の文字列のうち、対応する音声位置情報が再生区間情報に含まれる文字列を検索の対象として特定し、その特定した文字列の中から、読み情報が示す読みを含む文字列を検索する。
実施形態のプログラムは、検出ステップと取得ステップと検索ステップとをコンピュータに実行させるためのプログラムである。検出ステップは、音声データのうち、再生された区間を示す再生区間情報を検出する。取得ステップは、再生された音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報を取得する。検索ステップは、音声テキストデータに含まれる複数の文字列の各々と、音声位置情報とが対応付けられた音声インデックスに含まれる複数の文字列のうち、対応する音声位置情報が再生区間情報に含まれる文字列を検索の対象として特定し、その特定した文字列の中から、読み情報が示す読みを含む文字列を検索する。
実施形態に係る情報処理装置の概略構成例を示すブロック図。 実施形態の音声インデックスの一例を示す図。 実施形態のラティス構造の例を示す図。 実施形態の情報処理装置による処理動作の一例を示すフローチャート。 変形例に係る情報処理装置の概略構成例を示すブロック図。
以下、添付図面を参照しながら、本発明に係る情報処理装置、情報処理方法およびプログラムの実施の形態を詳細に説明する。なお、以下の実施形態では、情報処理装置として、音声データを再生する機能、および、ユーザーの操作に応じてテキストを作成するテキスト作成機能を有するPC(Personal Computer)を例に挙げて説明するが、これに限定されるものではない。以下の実施形態では、書き起こし作業を行う場合、ユーザー(書き起こし作業者)は、収録された音声データを再生しながらキーボードを操作してテキスト入力を行い、音声データをテキスト化していく。
図1は、本実施形態の情報処理装置100の概略構成例を示すブロック図である。図1に示すように、情報処理装置100は、第1記憶部11と、第2記憶部12と、再生部13と、再生指示受付部14と、再生制御部15と、検出部16と、取得部17と、検索部18と、表示部19と、選択部20とを含む。
第1記憶部11は、音声データを記憶する。音声データは、例えばwav、mp3などの形式の音声ファイルである。音声データの取得方法は任意であり、例えばインターネット等のネットワーク経由で取得することもできるし、マイクロフォンなどを用いて取得することもできる。
第2記憶部12は、音声データに対する音声認識処理により得られるテキストデータ(音声テキストデータと呼ぶ)に含まれる複数の文字列の各々と、音声データ内の位置を示す音声位置情報とが対応付けられた音声インデックスを記憶する。音声認識処理は、公知の様々な技術を利用することができる。音声認識処理では、音声データを10〜20ms程度の一定間隔で処理する。そして、音声位置情報との対応付けは、処理対象となっている音声データとそれに対応する認識結果を音声認識処理の過程で取得することで実現できる。
本実施形態では、音声認識処理により得られた音声テキストデータは、単語・形態素・文節などの文よりも小さい単位で分割され、ラティスと呼ばれる認識候補(分割単位の候補)をつないだネットワーク構造で表される。なお、音声テキストデータの形態はこれに限定されるものではなく、例えば音声認識処理の最適な認識結果を表す一次元構造(1つのパス)で音声テキストデータを表すこともできる。本実施形態では、第2記憶部12は、ラティス構造の音声テキストデータに含まれる複数の形態素(文字列の一例)の各々と、音声位置情報とが対応付けられた音声インデックスを記憶する。
図2は、「京都12時ですか?」を意味する日本語に対応する音声データIOの音声インデックスの例を示している。本実施形態では、音声位置情報は、音声データの先頭からその位置まで再生するのに要する時間を示す時間情報を用いて表される(単位は秒)。例えば図2の「12時(じゅうにじ)」に対応する音声位置情報は、始点が「0.5s(500ms)」、終点が「1.0s(1000ms)」であるが、これは、音声データIOを再生した場合に、当該音声データIOの再生開始時点から0.5s経過した時点を始点とし、再生開始時点から1.0s経過した時点を終点とする期間が、「12時」という音声が再生される期間であることを意味している。
図3は、音声データIOの音声認識により得られるラティス構造をグラフ化した図である。図3において、各形態素を区切るためのノードは丸で表されており、丸の中の数字がノードを識別するIDである。図3に示す形態素は、ノード間を繋ぐ直線で表される。図3の例では、ノードSからノードEまでの間の各経路の少なくとも一部を、認識候補とすることができる。例えば、ノードSからノードEまでの経路における各形態素を繋いだ「京都12時ですか」が認識候補であってもよいし、ノードSからノード3までの「京都」という単語や、ノードSからノード1までの「今日」という単語が認識候補であってもよい。
再生部13は、音声データを再生する手段であり、例えばスピーカ、DAコンバータおよびヘッドフォンなどから構成される機器である。再生制御部15は、再生指示受付部14で再生を開始する再生開始指示を受け付けた場合、音声データを再生するように再生部13を制御する。また、再生制御部15は、再生指示受付部14で再生を停止する再生停止指示を受け付けた場合、音声データの再生を停止するように再生部13を制御する。再生制御部15は、例えばPCのオペレーションシステムやドライバが有するオーディオ機能で実現されるが、電子回路などのハードウェア回路でも実現可能である。
検出部16は、音声データのうち、再生部13により再生された区間を示す再生区間情報を検出する。より具体的には、検出部16は、音声データのうち、再生部13による再生が開始された位置を示す再生開始位置から、再生部13による再生が停止された位置を示す再生停止位置までの区間を示す時間情報を再生区間情報として検出する。
取得部17は、再生部13により再生された音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報を取得する。例えばユーザーが、「京都」という単語を書き起こそうとして、「京都」の読みを示す文字列「きょうと」のうちの「き」を、キーボード操作により入力した場合、取得部17は、当該「き」を読み情報として取得する。また、例えば「京都」の読みを示す文字列「きょうと」が全部入力された場合は、取得部17は、その入力された「きょうと」を読み情報として取得する。要するに、取得部17は、ユーザーが書き起こそうとする語句の読みを示す文字列の少なくとも一部を読み情報として取得することができる。
検索部18は、第2記憶部12に記憶された音声インデックスに含まれる複数の文字列のうち、対応する音声位置情報が、検出部16で検出された再生区間情報に含まれる文字列を検索の対象として特定する。例えば音声データの再生開始位置が「0s」、再生停止位置が「1.5s(1500ms)」である場合、検出部16は、再生開始位置「0s」から、再生停止位置「1.5s(1500ms)」までの区間を示す時間情報を再生区間情報として検出する。この場合、検索部18は、第2記憶部12に記憶された音声インデックスに含まれる複数の文字列のうち、対応する音声位置情報が「0s」から「1.5s(1500ms)」までの区間に含まれる文字列を、検索の対象となる文字列として特定する。そして、検索部18は、そのように特定した文字列の中から、取得部17で取得された読み情報が示す読みを含む文字列を検索する。
例えば図2に例示された複数の文字列が検索の対象として特定され、取得部17で取得された読み情報が「き」である場合を想定する。検索の単位が単語である場合、検索部18は、「き」という読みを含む単語である「今日」、および、「京都」を検索条件に合致する文字列として特定する。また、例えば検索の単位が句である場合、検索部18は、「き」という読みを含む単語「今日」、および、「京都」の各々の後に続くノードを接続して、「今日途中にですか」、あるいは、「京都12時ですか」といった句を検索条件に合致する文字列として特定することもできる。
表示部19は、検索部18により検索された文字列を入力候補として表示するように、不図示の表示装置を制御する。例えば単語単位の文字列を入力候補として表示することもできるし、句単位の文字列を入力候補として表示することもできる。そして、ユーザー(書き起こし作業者)は、表示された入力候補の何れかを選択することを指示する選択入力を行うことができる。選択入力の方法は任意であり、例えば表示装置の画面のうちユーザーが選択したい入力候補が表示された位置をタッチすることで選択入力を行うこともできるし、キーボード、マウス、ポインティングデバイスなどといった操作デバイスの操作により選択入力を行うこともできる。選択部20は、入力候補の選択入力を受け付けると、その選択入力により選択が指示された入力候補を選択し、その選択した入力候補を入力テキストとして確定する。なお、本実施形態では、ユーザーによる入力作業の効率化を図るために、漢字混じりの表記の文字列が入力候補として提示される。
図4は本実施形態の情報処理装置100による処理動作の一例を示すフローチャートである。図4に示すように、まず取得部17で読み情報が取得された場合(ステップS401の結果:YES)、検出部16は、再生区間情報を検出する(ステップS402)。より具体的には、検出部16は、音声データのうち、直前の再生開始位置から再生停止位置までの区間を示す時間情報を再生区間情報として検出する。なお、音声データの再生が停止されていない場合(再生中の場合)は、検出部16は、現在の再生位置を再生停止位置とみなして再生区間情報を検出することもできる。
次に、検索部18は、ステップS402で検出された再生区間情報を用いて、第2記憶部12に記憶された音声インデックスに含まれる複数の文字列のうち、検索の対象となる文字列を特定する(ステップS403)。次に、検索部18は、ステップS403で特定した文字列の中から、ステップS401で取得された読み情報が示す読みを含む文字列を検索する(ステップS404)。
次に、表示部19は、ステップS404で検索された文字列を入力候補として表示するように、不図示の表示装置を制御する(ステップS405)。
いま、具体例として、「じゅう」という文字列が読み情報として取得され(図4のステップS401)、直前の再生開始位置が「0s」、再生停止位置が「1.5s(1500ms)」であって(図4のステップS402)、図2に例示された複数の文字列が検索の対象として特定された場合を想定する(図4のステップS403)。
この場合、検索部18は、図2に例示された複数の文字列の中から、「じゅう」という読みを含む文字列を検索する(図4のステップS404)。検索対象の単位が単語である場合、検索部18は、「じゅう」という読みを含む単語である「中」、および、「12時」を入力候補(検索条件に合致する文字列)として特定する。また、例えば検索対象の単位が句である場合、検索部18は、「じゅう」という読みを含む単語「中」、および、「12時」の各々の後に続くノードを接続して、「中にですか」、および、「12時ですか」を入力候補として特定することもできる。なお、後続のノードをどこまで接続して入力候補とするかは任意に変更可能である。例えば、入力候補が一定の長さ以下の場合は、後続のノードを接続することができる。また、例えば音声認識システムが出力する確信度を用いて、後続のノードをどこまで接続するかを決定することもできる。そして、表示部19は、入力候補を表示するように表示装置を制御する(図4のステップS405)。
以上に説明したように、本実施形態では、ユーザーが書き起こそうとする語句の読みを示す文字列の少なくとも一部である読み情報が取得部17で取得された場合、検索部18は、音声インデックスに含まれる複数の文字列のうち、対応する音声位置情報が、検出部16で検出された再生区間情報に含まれる文字列を検索の対象として特定する。そして、検索部18は、その特定した文字列の中から、読み情報が示す読みを含む文字列を検索するので、音声インデックスに含まれる全ての文字列が検索の対象となる場合に比べて、検索処理の精度を向上させることができる。
なお、本実施形態では、上述の第1記憶部11、第2記憶部12および再生部13はハードウェア回路で構成される。一方、上述の再生指示受付部14、再生制御部15、検出部16、取得部17、検索部18、表示部19、および、選択部20の各々は、PCに搭載されたCPUがROMなどに格納されたプログラムを実行することにより実現されるが、これに限らず、例えば再生指示受付部14、再生制御部15、検出部16、取得部17、検索部18、表示部19、および、選択部20のうちの少なくとも一部がハードウェア回路で構成されてもよい。
また、情報処理装置は、上記のプログラムをコンピュータ装置に予めインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、当該プログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、言語処理技術や発音推定技術を用いるために利用する各種データファイルが必要であれば、それらを保持する記憶媒体は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどを適宜利用して実現することができる。
以上、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。また、例えば上記実施形態に示される全構成要素(第1記憶部11、第2記憶部12、再生部13、再生指示受付部14、再生制御部15、検出部16、取得部17、検索部18、表示部19、選択部20)から、音声データを再生するための構成要素(例えば第1記憶部11、再生部13、再生指示受付部14、再生制御部15)、および、検索結果の表示を行うための構成要素(ここでは一例として表示部19)のうちの少なくとも一方を除いた構成を、本発明に係る情報処理装置として捉えることもできる。要するに、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。
以下に変形例を記載する。以下の変形例は、任意に組み合わせることが可能である。
(1)変形例1
図5に示すように、例えば情報処理装置200は、複数の文字列が予め登録された辞書記憶部30をさらに備える構成であってもよい。図5の例では、初期状態において、辞書記憶部30には、予め選択された複数の文字列が登録されている。そして、辞書記憶部30には、入力テキストとして確定された文字列(例えば平仮名を漢字に変換するなどの変換処理が確定して入力された文字列)が順次に登録される。検索部18は、第2記憶部12に記憶された音声インデックスから検索の対象として特定した文字列、および、辞書記憶部30に登録された文字列の中から、取得部17で取得された読み情報が示す読みを含む文字列を検索する。
例えば図2に例示された複数の文字列が検索の対象として特定され、取得部17で取得された読み情報が「き」であり、「き」という読みを含む「昨日(きのう)」という単語が辞書記憶部30に登録されていた場合を想定する。検索対象の単位が単語である場合、検索部18は、図2に例示された複数の文字列の中から、「き」という読みを含む単語である「今日」、および、「京都」を検索条件に合致する文字列として特定する。また、検索部18は、辞書記憶部30に登録された複数の文字列の中から、「昨日」という単語を検索条件に合致する文字列として特定する。そして、この場合、表示部19は、検索部18の検索により特定された文字列である「今日」、「京都」および「昨日」の各々を入力候補として表示するように表示装置を制御する。
また、例えば図2に例示された複数の文字列が検索の対象として特定され、取得部17で取得された読み情報が「きの」であり、「きの」という読みを含む「昨日(きのう)」という単語が辞書記憶部30に登録されていた場合を想定する。説明の便宜上、検索対象の単位は単語であるとする。この場合、図2に例示された複数の文字列の中には、「きの」という読みを含む単語は存在しないが、辞書記憶部30には、「きの」という読みを含む「昨日」という単語が登録されているので、検索部18は、辞書記憶部30に登録された複数の文字列の中から、「昨日」という単語を検索条件に合致する文字列として特定する。そして、この場合、表示部19は、検索部18の検索により特定された文字列である「昨日」を入力候補として表示するように表示装置を制御する。
(2)変形例2
上述の実施形態では、検索部18は、音声インデックスに含まれる複数の文字列のうち、対応する音声位置情報が、検出部16で検出された再生区間情報に含まれる文字列を検索の対象として特定しているが、これに限らず、例えば音声インデックスに含まれる複数の文字列のうち、対応する文字列が、再生区間情報が示す区間を所定範囲だけ広げた区間に含まれる文字列を検索の対象として特定することもできる。
(3)変形例3
上述の実施形態では、書き起こし作業の対象となる言語は日本語であるが、これに限らず、書き起こし作業の対象となる言語の種類は任意である。例えば書き起こし作業の対象となる言語は英語であってもよいし、中国語であってもよい。書き起こし作業の対象となる言語が英語あるいは中国語であっても、情報処理装置の構成は、日本語の場合と同様である。
11 第1記憶部
12 第2記憶部
13 再生部
14 再生指示受付部
15 再生制御部
16 検出部
17 取得部
18 検索部
19 表示部
20 選択部
30 辞書記憶部
100 情報処理装置

Claims (7)

  1. 音声データに対する音声認識処理により得られる音声テキストデータに含まれる複数の文字列の各々と、前記音声データ内の位置を示す音声位置情報とが対応付けられた音声インデックスを記憶する記憶部と、
    前記音声データのうち、再生された区間を示す再生区間情報を検出する検出部と、
    再生された前記音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報を取得する取得部と、
    前記音声インデックスに含まれる前記複数の文字列のうち、対応する前記音声位置情報が前記再生区間情報に含まれる文字列を検索の対象として特定し、その特定した文字列の中から、前記読み情報が示す読みを含む文字列を検索する検索部と、を備える、
    情報処理装置。
  2. 前記音声テキストデータはラティス構造を有する、
    請求項1の情報処理装置。
  3. 複数の文字列が予め登録された辞書を記憶する辞書記憶部をさらに備え、
    前記検索部は、前記辞書記憶部に登録された文字列の中から、前記読み情報が示す読みを含む文字列を検索する、
    請求項1の情報処理装置。
  4. 前記検索部により検索された文字列を表示する表示部をさらに備える、
    請求項1の情報処理装置。
  5. 前記音声データを再生する再生部をさらに備える、
    請求項1の情報処理装置。
  6. 音声データのうち、再生された区間を示す再生区間情報を検出する検出ステップと、
    再生された前記音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報を取得する取得ステップと、
    前記音声データに対する音声認識処理により得られる音声テキストデータに含まれる複数の文字列の各々と、前記音声データ内の位置を示す音声位置情報とが対応付けられた音声インデックスに含まれる前記複数の文字列のうち、対応する前記音声位置情報が前記再生区間情報に含まれる文字列を検索の対象として特定し、その特定した文字列の中から、前記読み情報が示す読みを含む文字列を検索する検索ステップと、を備える、
    情報処理方法。
  7. 音声データのうち、再生された区間を示す再生区間情報を検出する検出ステップと、
    再生された前記音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報を取得する取得ステップと、
    前記再生区間情報を用いて、前記音声データに対する音声認識処理により得られる音声テキストデータに含まれる複数の文字列の各々と、前記音声データ内の位置を示す音声位置情報とが対応付けられた音声インデックスに含まれる前記複数の文字列のうち、対応する前記音声位置情報が前記再生区間情報に含まれる文字列を検索の対象として特定し、その特定した文字列の中から、前記読み情報が示す読みを含む文字列を検索する検索ステップと、をコンピュータに実行させるためのプログラム。
JP2011208968A 2011-09-26 2011-09-26 情報処理装置、情報処理方法およびプログラム Active JP5404726B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011208968A JP5404726B2 (ja) 2011-09-26 2011-09-26 情報処理装置、情報処理方法およびプログラム
US13/533,091 US9798804B2 (en) 2011-09-26 2012-06-26 Information processing apparatus, information processing method and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011208968A JP5404726B2 (ja) 2011-09-26 2011-09-26 情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2013069228A JP2013069228A (ja) 2013-04-18
JP5404726B2 true JP5404726B2 (ja) 2014-02-05

Family

ID=47912241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011208968A Active JP5404726B2 (ja) 2011-09-26 2011-09-26 情報処理装置、情報処理方法およびプログラム

Country Status (2)

Country Link
US (1) US9798804B2 (ja)
JP (1) JP5404726B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP2014202848A (ja) 2013-04-03 2014-10-27 株式会社東芝 テキスト生成装置、方法、及びプログラム
JP6165619B2 (ja) 2013-12-13 2017-07-19 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
CN106504744B (zh) * 2016-10-26 2020-05-01 科大讯飞股份有限公司 一种语音处理方法及装置
WO2021011708A1 (en) * 2019-07-15 2021-01-21 Axon Enterprise, Inc. Methods and systems for transcription of audio data

Family Cites Families (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT390685B (de) * 1988-10-25 1990-06-11 Philips Nv System zur textverarbeitung
US5278943A (en) * 1990-03-23 1994-01-11 Bright Star Technology, Inc. Speech animation and inflection system
US5333275A (en) * 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US20020002562A1 (en) * 1995-11-03 2002-01-03 Thomas P. Moran Computer controlled display system using a graphical replay device to control playback of temporal data representing collaborative activities
US5909667A (en) * 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text
GB9716690D0 (en) * 1997-08-06 1997-10-15 British Broadcasting Corp Spoken text display method and apparatus for use in generating television signals
US6076059A (en) * 1997-08-29 2000-06-13 Digital Equipment Corporation Method for aligning text with audio signals
US6397179B2 (en) * 1997-12-24 2002-05-28 Nortel Networks Limited Search optimization system and method for continuous speech recognition
US6151576A (en) * 1998-08-11 2000-11-21 Adobe Systems Incorporated Mixing digitized speech and text using reliability indices
US6360237B1 (en) * 1998-10-05 2002-03-19 Lernout & Hauspie Speech Products N.V. Method and system for performing text edits during audio recording playback
JP2000285112A (ja) * 1999-03-31 2000-10-13 Omron Corp 予測入力装置及び予測入力方法並びに記録媒体
GB2353927B (en) * 1999-09-06 2004-02-11 Nokia Mobile Phones Ltd User interface for text to speech conversion
US6882970B1 (en) * 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
JP3689670B2 (ja) * 1999-10-28 2005-08-31 キヤノン株式会社 パターン整合方法及び装置
US7412643B1 (en) * 1999-11-23 2008-08-12 International Business Machines Corporation Method and apparatus for linking representation and realization data
JP2003518266A (ja) * 1999-12-20 2003-06-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのテキスト編集用音声再生
US6260011B1 (en) * 2000-03-20 2001-07-10 Microsoft Corporation Methods and apparatus for automatically synchronizing electronic audio files with electronic text files
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
US6961895B1 (en) * 2000-08-10 2005-11-01 Recording For The Blind & Dyslexic, Incorporated Method and apparatus for synchronization of text and audio data
US7058889B2 (en) * 2001-03-23 2006-06-06 Koninklijke Philips Electronics N.V. Synchronizing text/visual information with audio playback
JP4173371B2 (ja) * 2001-03-29 2008-10-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 認識音声に対する同期再生中の文字編集
US7505911B2 (en) * 2001-09-05 2009-03-17 Roth Daniel L Combined speech recognition and sound recording
CN1235188C (zh) * 2001-09-17 2006-01-04 皇家飞利浦电子股份有限公司 通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本
US7231351B1 (en) * 2002-05-10 2007-06-12 Nexidia, Inc. Transcript alignment
AU2003256313A1 (en) * 2002-06-26 2004-01-19 William Ii Harbison A method for comparing a transcribed text file with a previously created file
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US7424427B2 (en) * 2002-10-17 2008-09-09 Verizon Corporate Services Group Inc. Systems and methods for classifying audio into broad phoneme classes
WO2004097791A2 (en) * 2003-04-29 2004-11-11 Custom Speech Usa, Inc. Methods and systems for creating a second generation session file
US9710819B2 (en) * 2003-05-05 2017-07-18 Interactions Llc Real-time transcription system utilizing divided audio chunks
GB2404040A (en) * 2003-07-16 2005-01-19 Canon Kk Lattice matching
US7346506B2 (en) * 2003-10-08 2008-03-18 Agfa Inc. System and method for synchronized text display and audio playback
JP4020083B2 (ja) * 2004-02-16 2007-12-12 日本電気株式会社 書き起こしテキスト作成支援システムおよびプログラム
JP3945778B2 (ja) * 2004-03-12 2007-07-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 設定装置、プログラム、記録媒体、及び設定方法
JP4459179B2 (ja) * 2005-03-30 2010-04-28 株式会社東芝 情報処理装置及びその方法
JP4621607B2 (ja) * 2005-03-30 2011-01-26 株式会社東芝 情報処理装置及びその方法
US8560327B2 (en) * 2005-08-26 2013-10-15 Nuance Communications, Inc. System and method for synchronizing sound and manually transcribed text
US7809566B2 (en) * 2005-10-14 2010-10-05 Nuance Communications, Inc. One-step repair of misrecognized recognition strings
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
JP2007133033A (ja) * 2005-11-08 2007-05-31 Nec Corp 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
US20070106685A1 (en) * 2005-11-09 2007-05-10 Podzinger Corp. Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same
US20070126926A1 (en) * 2005-12-04 2007-06-07 Kohtaroh Miyamoto Hybrid-captioning system
ES2420559T3 (es) * 2006-02-10 2013-08-23 Spinvox Limited Un sistema a gran escala, independiente del usuario e independiente del dispositivo de conversión del mensaje vocal a texto
US7877256B2 (en) * 2006-02-17 2011-01-25 Microsoft Corporation Time synchronous decoding for long-span hidden trajectory model
US20070208567A1 (en) * 2006-03-01 2007-09-06 At&T Corp. Error Correction In Automatic Speech Recognition Transcripts
CA2644666A1 (en) * 2006-04-17 2007-10-25 Vovision Llc Methods and systems for correcting transcribed audio files
EP2095363A4 (en) * 2006-11-22 2011-07-20 Multimodal Technologies Inc RECOGNITION OF SPOKEN LANGUAGE IN WORKABLE AUDIO STREAMS
US20080177623A1 (en) * 2007-01-24 2008-07-24 Juergen Fritsch Monitoring User Interactions With A Document Editing System
US20080270344A1 (en) * 2007-04-30 2008-10-30 Yurick Steven J Rich media content search engine
US8407049B2 (en) * 2008-04-23 2013-03-26 Cogi, Inc. Systems and methods for conversation enhancement
US8332212B2 (en) * 2008-06-18 2012-12-11 Cogi, Inc. Method and system for efficient pacing of speech for transcription
US20100299131A1 (en) * 2009-05-21 2010-11-25 Nexidia Inc. Transcript alignment
CN101996631B (zh) * 2009-08-28 2014-12-03 国际商业机器公司 用于对齐文本的方法和装置
US8335689B2 (en) * 2009-10-14 2012-12-18 Cogi, Inc. Method and system for efficient management of speech transcribers
US8370142B2 (en) * 2009-10-30 2013-02-05 Zipdx, Llc Real-time transcription of conference calls
US8543395B2 (en) * 2010-05-18 2013-09-24 Shazam Entertainment Ltd. Methods and systems for performing synchronization of audio with corresponding textual transcriptions and determining confidence values of the synchronization
US20120016671A1 (en) * 2010-07-15 2012-01-19 Pawan Jaggi Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
US20120078712A1 (en) * 2010-09-27 2012-03-29 Fontana James A Systems and methods for processing and delivery of multimedia content
JP5159853B2 (ja) * 2010-09-28 2013-03-13 株式会社東芝 会議支援装置、方法およびプログラム
US20120245936A1 (en) * 2011-03-25 2012-09-27 Bryan Treglia Device to Capture and Temporally Synchronize Aspects of a Conversation and Method and System Thereof
US9774747B2 (en) * 2011-04-29 2017-09-26 Nexidia Inc. Transcription system
JP5638479B2 (ja) * 2011-07-26 2014-12-10 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP5642037B2 (ja) * 2011-09-22 2014-12-17 株式会社東芝 検索装置、検索方法およびプログラム
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP5787780B2 (ja) * 2012-01-25 2015-09-30 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法
JP2014142501A (ja) * 2013-01-24 2014-08-07 Toshiba Corp テキスト再生装置、方法、及びプログラム
JP2014202848A (ja) * 2013-04-03 2014-10-27 株式会社東芝 テキスト生成装置、方法、及びプログラム
JP2014240940A (ja) * 2013-06-12 2014-12-25 株式会社東芝 書き起こし支援装置、方法、及びプログラム
JP6165619B2 (ja) * 2013-12-13 2017-07-19 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム

Also Published As

Publication number Publication date
US20130080163A1 (en) 2013-03-28
JP2013069228A (ja) 2013-04-18
US9798804B2 (en) 2017-10-24

Similar Documents

Publication Publication Date Title
US8355919B2 (en) Systems and methods for text normalization for text to speech synthesis
US9489944B2 (en) Information processing device, method and computer program product for processing voice recognition data
US8583418B2 (en) Systems and methods of detecting language and natural language strings for text to speech synthesis
US8352272B2 (en) Systems and methods for text to speech synthesis
US8396714B2 (en) Systems and methods for concatenation of words in text to speech synthesis
US8712776B2 (en) Systems and methods for selective text to speech synthesis
KR100735820B1 (ko) 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
KR100760301B1 (ko) 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치
JP2007206317A (ja) オーサリング方法、オーサリング装置およびプログラム
US20100082344A1 (en) Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
TWI554984B (zh) 電子裝置
JP5787780B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
WO2010036486A2 (en) Systems and methods for speech preprocessing in text to speech synthesis
JP5404726B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP2011113570A (ja) 音声検索装置と音声検索方法
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP5642037B2 (ja) 検索装置、検索方法およびプログラム
JP5819147B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2011113426A (ja) 辞書作成装置,辞書作成プログラムおよび辞書作成方法
JP5609718B2 (ja) 入力支援プログラム,入力支援装置および入力支援方法
JP2004171174A (ja) 文章読み上げ装置、読み上げのためのプログラム及び記録媒体
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP7257010B2 (ja) 検索支援サーバ、検索支援方法及びコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131029

R151 Written notification of patent or utility model registration

Ref document number: 5404726

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350