JP5404726B2

JP5404726B2 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP5404726B2
Application number: JP2011208968A
Authority: JP
Inventors: 信宏下郡; 朋男池田; 晃嗣上野; 修西山; 博和鈴木; 学永尾
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-09-26
Filing date: 2011-09-26
Publication date: 2014-02-05
Anticipated expiration: 2031-09-26
Also published as: US20130080163A1; JP2013069228A; US9798804B2

Description

本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。

従来、音声データをテキスト化する書き起こし作業の効率化を図るための様々な技術が知られている。例えば、ユーザーが、書き起こし対象の音声データを用いて文字列の入力を行っている途中の段階で、最終的に入力される語句を予測して提示する技術が知られている。一例として、音声データに対する音声認識処理により得られた複数の語句の中から、当該語句の読みを示す文字列の少なくとも一部が入力中の文字列と一致する語句を検索し、その検索により得られた語句を入力候補として提示する技術が知られている。

しかしながら、従来の技術では、音声認識処理結果の履歴に含まれる全ての語句が検索対象となるので、多数の候補が検索されてしまい、精度が低いという問題がある。

特開２０００−２８５１１２号公報

本発明が解決しようとする課題は、入力候補を検索する検索処理の精度を向上させることが可能な情報処理装置、情報処理方法およびプログラムを提供することである。

実施形態の情報処理装置は、記憶部と検出部と取得部と検索部とを備える。記憶部は、音声データに対する音声認識処理により得られる音声テキストデータに含まれる複数の文字列の各々と、音声データ内の位置を示す音声位置情報とが対応付けられた音声インデックスを記憶する。検出部は、音声データのうち、再生された区間を示す再生区間情報を検出する。取得部は、再生された音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報を取得する。検索部は、音声インデックスに含まれる複数の文字列のうち、対応する音声位置情報が再生区間情報に含まれる文字列を検索の対象として特定し、その特定した文字列の中から、読み情報が示す読みを含む文字列を検索する。

実施形態の情報処理方法は、検出ステップと取得ステップと検索ステップとを備える。検出ステップは、音声データのうち、再生された区間を示す再生区間情報を検出する。取得ステップは、再生された音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報を取得する。検索ステップは、音声テキストデータに含まれる複数の文字列の各々と、音声位置情報とが対応付けられた音声インデックスに含まれる複数の文字列のうち、対応する音声位置情報が再生区間情報に含まれる文字列を検索の対象として特定し、その特定した文字列の中から、読み情報が示す読みを含む文字列を検索する。

実施形態のプログラムは、検出ステップと取得ステップと検索ステップとをコンピュータに実行させるためのプログラムである。検出ステップは、音声データのうち、再生された区間を示す再生区間情報を検出する。取得ステップは、再生された音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報を取得する。検索ステップは、音声テキストデータに含まれる複数の文字列の各々と、音声位置情報とが対応付けられた音声インデックスに含まれる複数の文字列のうち、対応する音声位置情報が再生区間情報に含まれる文字列を検索の対象として特定し、その特定した文字列の中から、読み情報が示す読みを含む文字列を検索する。

実施形態に係る情報処理装置の概略構成例を示すブロック図。実施形態の音声インデックスの一例を示す図。実施形態のラティス構造の例を示す図。実施形態の情報処理装置による処理動作の一例を示すフローチャート。変形例に係る情報処理装置の概略構成例を示すブロック図。

以下、添付図面を参照しながら、本発明に係る情報処理装置、情報処理方法およびプログラムの実施の形態を詳細に説明する。なお、以下の実施形態では、情報処理装置として、音声データを再生する機能、および、ユーザーの操作に応じてテキストを作成するテキスト作成機能を有するＰＣ（Personal Computer）を例に挙げて説明するが、これに限定されるものではない。以下の実施形態では、書き起こし作業を行う場合、ユーザー（書き起こし作業者）は、収録された音声データを再生しながらキーボードを操作してテキスト入力を行い、音声データをテキスト化していく。

図１は、本実施形態の情報処理装置１００の概略構成例を示すブロック図である。図１に示すように、情報処理装置１００は、第１記憶部１１と、第２記憶部１２と、再生部１３と、再生指示受付部１４と、再生制御部１５と、検出部１６と、取得部１７と、検索部１８と、表示部１９と、選択部２０とを含む。

第１記憶部１１は、音声データを記憶する。音声データは、例えばwav、mp3などの形式の音声ファイルである。音声データの取得方法は任意であり、例えばインターネット等のネットワーク経由で取得することもできるし、マイクロフォンなどを用いて取得することもできる。

第２記憶部１２は、音声データに対する音声認識処理により得られるテキストデータ（音声テキストデータと呼ぶ）に含まれる複数の文字列の各々と、音声データ内の位置を示す音声位置情報とが対応付けられた音声インデックスを記憶する。音声認識処理は、公知の様々な技術を利用することができる。音声認識処理では、音声データを１０〜２０ｍｓ程度の一定間隔で処理する。そして、音声位置情報との対応付けは、処理対象となっている音声データとそれに対応する認識結果を音声認識処理の過程で取得することで実現できる。

本実施形態では、音声認識処理により得られた音声テキストデータは、単語・形態素・文節などの文よりも小さい単位で分割され、ラティスと呼ばれる認識候補（分割単位の候補）をつないだネットワーク構造で表される。なお、音声テキストデータの形態はこれに限定されるものではなく、例えば音声認識処理の最適な認識結果を表す一次元構造（１つのパス）で音声テキストデータを表すこともできる。本実施形態では、第２記憶部１２は、ラティス構造の音声テキストデータに含まれる複数の形態素（文字列の一例）の各々と、音声位置情報とが対応付けられた音声インデックスを記憶する。

図２は、「京都１２時ですか？」を意味する日本語に対応する音声データＩＯの音声インデックスの例を示している。本実施形態では、音声位置情報は、音声データの先頭からその位置まで再生するのに要する時間を示す時間情報を用いて表される（単位は秒）。例えば図２の「１２時（じゅうにじ）」に対応する音声位置情報は、始点が「０．５ｓ（５００ｍｓ）」、終点が「１．０ｓ（１０００ｍｓ）」であるが、これは、音声データＩＯを再生した場合に、当該音声データＩＯの再生開始時点から０．５ｓ経過した時点を始点とし、再生開始時点から１．０ｓ経過した時点を終点とする期間が、「１２時」という音声が再生される期間であることを意味している。

図３は、音声データＩＯの音声認識により得られるラティス構造をグラフ化した図である。図３において、各形態素を区切るためのノードは丸で表されており、丸の中の数字がノードを識別するＩＤである。図３に示す形態素は、ノード間を繋ぐ直線で表される。図３の例では、ノードＳからノードＥまでの間の各経路の少なくとも一部を、認識候補とすることができる。例えば、ノードＳからノードＥまでの経路における各形態素を繋いだ「京都１２時ですか」が認識候補であってもよいし、ノードＳからノード３までの「京都」という単語や、ノードＳからノード１までの「今日」という単語が認識候補であってもよい。

再生部１３は、音声データを再生する手段であり、例えばスピーカ、ＤＡコンバータおよびヘッドフォンなどから構成される機器である。再生制御部１５は、再生指示受付部１４で再生を開始する再生開始指示を受け付けた場合、音声データを再生するように再生部１３を制御する。また、再生制御部１５は、再生指示受付部１４で再生を停止する再生停止指示を受け付けた場合、音声データの再生を停止するように再生部１３を制御する。再生制御部１５は、例えばＰＣのオペレーションシステムやドライバが有するオーディオ機能で実現されるが、電子回路などのハードウェア回路でも実現可能である。

検出部１６は、音声データのうち、再生部１３により再生された区間を示す再生区間情報を検出する。より具体的には、検出部１６は、音声データのうち、再生部１３による再生が開始された位置を示す再生開始位置から、再生部１３による再生が停止された位置を示す再生停止位置までの区間を示す時間情報を再生区間情報として検出する。

取得部１７は、再生部１３により再生された音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報を取得する。例えばユーザーが、「京都」という単語を書き起こそうとして、「京都」の読みを示す文字列「きょうと」のうちの「き」を、キーボード操作により入力した場合、取得部１７は、当該「き」を読み情報として取得する。また、例えば「京都」の読みを示す文字列「きょうと」が全部入力された場合は、取得部１７は、その入力された「きょうと」を読み情報として取得する。要するに、取得部１７は、ユーザーが書き起こそうとする語句の読みを示す文字列の少なくとも一部を読み情報として取得することができる。

検索部１８は、第２記憶部１２に記憶された音声インデックスに含まれる複数の文字列のうち、対応する音声位置情報が、検出部１６で検出された再生区間情報に含まれる文字列を検索の対象として特定する。例えば音声データの再生開始位置が「０ｓ」、再生停止位置が「１．５ｓ（１５００ｍｓ）」である場合、検出部１６は、再生開始位置「０ｓ」から、再生停止位置「１．５ｓ（１５００ｍｓ）」までの区間を示す時間情報を再生区間情報として検出する。この場合、検索部１８は、第２記憶部１２に記憶された音声インデックスに含まれる複数の文字列のうち、対応する音声位置情報が「０ｓ」から「１．５ｓ（１５００ｍｓ）」までの区間に含まれる文字列を、検索の対象となる文字列として特定する。そして、検索部１８は、そのように特定した文字列の中から、取得部１７で取得された読み情報が示す読みを含む文字列を検索する。

例えば図２に例示された複数の文字列が検索の対象として特定され、取得部１７で取得された読み情報が「き」である場合を想定する。検索の単位が単語である場合、検索部１８は、「き」という読みを含む単語である「今日」、および、「京都」を検索条件に合致する文字列として特定する。また、例えば検索の単位が句である場合、検索部１８は、「き」という読みを含む単語「今日」、および、「京都」の各々の後に続くノードを接続して、「今日途中にですか」、あるいは、「京都１２時ですか」といった句を検索条件に合致する文字列として特定することもできる。

表示部１９は、検索部１８により検索された文字列を入力候補として表示するように、不図示の表示装置を制御する。例えば単語単位の文字列を入力候補として表示することもできるし、句単位の文字列を入力候補として表示することもできる。そして、ユーザー（書き起こし作業者）は、表示された入力候補の何れかを選択することを指示する選択入力を行うことができる。選択入力の方法は任意であり、例えば表示装置の画面のうちユーザーが選択したい入力候補が表示された位置をタッチすることで選択入力を行うこともできるし、キーボード、マウス、ポインティングデバイスなどといった操作デバイスの操作により選択入力を行うこともできる。選択部２０は、入力候補の選択入力を受け付けると、その選択入力により選択が指示された入力候補を選択し、その選択した入力候補を入力テキストとして確定する。なお、本実施形態では、ユーザーによる入力作業の効率化を図るために、漢字混じりの表記の文字列が入力候補として提示される。

図４は本実施形態の情報処理装置１００による処理動作の一例を示すフローチャートである。図４に示すように、まず取得部１７で読み情報が取得された場合（ステップＳ４０１の結果：ＹＥＳ）、検出部１６は、再生区間情報を検出する（ステップＳ４０２）。より具体的には、検出部１６は、音声データのうち、直前の再生開始位置から再生停止位置までの区間を示す時間情報を再生区間情報として検出する。なお、音声データの再生が停止されていない場合（再生中の場合）は、検出部１６は、現在の再生位置を再生停止位置とみなして再生区間情報を検出することもできる。

次に、検索部１８は、ステップＳ４０２で検出された再生区間情報を用いて、第２記憶部１２に記憶された音声インデックスに含まれる複数の文字列のうち、検索の対象となる文字列を特定する（ステップＳ４０３）。次に、検索部１８は、ステップＳ４０３で特定した文字列の中から、ステップＳ４０１で取得された読み情報が示す読みを含む文字列を検索する（ステップＳ４０４）。

次に、表示部１９は、ステップＳ４０４で検索された文字列を入力候補として表示するように、不図示の表示装置を制御する（ステップＳ４０５）。

いま、具体例として、「じゅう」という文字列が読み情報として取得され（図４のステップＳ４０１）、直前の再生開始位置が「０ｓ」、再生停止位置が「１．５ｓ（１５００ｍｓ）」であって（図４のステップＳ４０２）、図２に例示された複数の文字列が検索の対象として特定された場合を想定する（図４のステップＳ４０３）。

この場合、検索部１８は、図２に例示された複数の文字列の中から、「じゅう」という読みを含む文字列を検索する（図４のステップＳ４０４）。検索対象の単位が単語である場合、検索部１８は、「じゅう」という読みを含む単語である「中」、および、「１２時」を入力候補（検索条件に合致する文字列）として特定する。また、例えば検索対象の単位が句である場合、検索部１８は、「じゅう」という読みを含む単語「中」、および、「１２時」の各々の後に続くノードを接続して、「中にですか」、および、「１２時ですか」を入力候補として特定することもできる。なお、後続のノードをどこまで接続して入力候補とするかは任意に変更可能である。例えば、入力候補が一定の長さ以下の場合は、後続のノードを接続することができる。また、例えば音声認識システムが出力する確信度を用いて、後続のノードをどこまで接続するかを決定することもできる。そして、表示部１９は、入力候補を表示するように表示装置を制御する（図４のステップＳ４０５）。

以上に説明したように、本実施形態では、ユーザーが書き起こそうとする語句の読みを示す文字列の少なくとも一部である読み情報が取得部１７で取得された場合、検索部１８は、音声インデックスに含まれる複数の文字列のうち、対応する音声位置情報が、検出部１６で検出された再生区間情報に含まれる文字列を検索の対象として特定する。そして、検索部１８は、その特定した文字列の中から、読み情報が示す読みを含む文字列を検索するので、音声インデックスに含まれる全ての文字列が検索の対象となる場合に比べて、検索処理の精度を向上させることができる。

なお、本実施形態では、上述の第１記憶部１１、第２記憶部１２および再生部１３はハードウェア回路で構成される。一方、上述の再生指示受付部１４、再生制御部１５、検出部１６、取得部１７、検索部１８、表示部１９、および、選択部２０の各々は、ＰＣに搭載されたＣＰＵがＲＯＭなどに格納されたプログラムを実行することにより実現されるが、これに限らず、例えば再生指示受付部１４、再生制御部１５、検出部１６、取得部１７、検索部１８、表示部１９、および、選択部２０のうちの少なくとも一部がハードウェア回路で構成されてもよい。

また、情報処理装置は、上記のプログラムをコンピュータ装置に予めインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、当該プログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、言語処理技術や発音推定技術を用いるために利用する各種データファイルが必要であれば、それらを保持する記憶媒体は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどを適宜利用して実現することができる。

以上、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。また、例えば上記実施形態に示される全構成要素（第１記憶部１１、第２記憶部１２、再生部１３、再生指示受付部１４、再生制御部１５、検出部１６、取得部１７、検索部１８、表示部１９、選択部２０）から、音声データを再生するための構成要素（例えば第１記憶部１１、再生部１３、再生指示受付部１４、再生制御部１５）、および、検索結果の表示を行うための構成要素（ここでは一例として表示部１９）のうちの少なくとも一方を除いた構成を、本発明に係る情報処理装置として捉えることもできる。要するに、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。

以下に変形例を記載する。以下の変形例は、任意に組み合わせることが可能である。
（１）変形例１
図５に示すように、例えば情報処理装置２００は、複数の文字列が予め登録された辞書記憶部３０をさらに備える構成であってもよい。図５の例では、初期状態において、辞書記憶部３０には、予め選択された複数の文字列が登録されている。そして、辞書記憶部３０には、入力テキストとして確定された文字列（例えば平仮名を漢字に変換するなどの変換処理が確定して入力された文字列）が順次に登録される。検索部１８は、第２記憶部１２に記憶された音声インデックスから検索の対象として特定した文字列、および、辞書記憶部３０に登録された文字列の中から、取得部１７で取得された読み情報が示す読みを含む文字列を検索する。

例えば図２に例示された複数の文字列が検索の対象として特定され、取得部１７で取得された読み情報が「き」であり、「き」という読みを含む「昨日（きのう）」という単語が辞書記憶部３０に登録されていた場合を想定する。検索対象の単位が単語である場合、検索部１８は、図２に例示された複数の文字列の中から、「き」という読みを含む単語である「今日」、および、「京都」を検索条件に合致する文字列として特定する。また、検索部１８は、辞書記憶部３０に登録された複数の文字列の中から、「昨日」という単語を検索条件に合致する文字列として特定する。そして、この場合、表示部１９は、検索部１８の検索により特定された文字列である「今日」、「京都」および「昨日」の各々を入力候補として表示するように表示装置を制御する。

また、例えば図２に例示された複数の文字列が検索の対象として特定され、取得部１７で取得された読み情報が「きの」であり、「きの」という読みを含む「昨日（きのう）」という単語が辞書記憶部３０に登録されていた場合を想定する。説明の便宜上、検索対象の単位は単語であるとする。この場合、図２に例示された複数の文字列の中には、「きの」という読みを含む単語は存在しないが、辞書記憶部３０には、「きの」という読みを含む「昨日」という単語が登録されているので、検索部１８は、辞書記憶部３０に登録された複数の文字列の中から、「昨日」という単語を検索条件に合致する文字列として特定する。そして、この場合、表示部１９は、検索部１８の検索により特定された文字列である「昨日」を入力候補として表示するように表示装置を制御する。

（２）変形例２
上述の実施形態では、検索部１８は、音声インデックスに含まれる複数の文字列のうち、対応する音声位置情報が、検出部１６で検出された再生区間情報に含まれる文字列を検索の対象として特定しているが、これに限らず、例えば音声インデックスに含まれる複数の文字列のうち、対応する文字列が、再生区間情報が示す区間を所定範囲だけ広げた区間に含まれる文字列を検索の対象として特定することもできる。

（３）変形例３
上述の実施形態では、書き起こし作業の対象となる言語は日本語であるが、これに限らず、書き起こし作業の対象となる言語の種類は任意である。例えば書き起こし作業の対象となる言語は英語であってもよいし、中国語であってもよい。書き起こし作業の対象となる言語が英語あるいは中国語であっても、情報処理装置の構成は、日本語の場合と同様である。

１１第１記憶部
１２第２記憶部
１３再生部
１４再生指示受付部
１５再生制御部
１６検出部
１７取得部
１８検索部
１９表示部
２０選択部
３０辞書記憶部
１００情報処理装置

Claims

音声データに対する音声認識処理により得られる音声テキストデータに含まれる複数の文字列の各々と、前記音声データ内の位置を示す音声位置情報とが対応付けられた音声インデックスを記憶する記憶部と、
前記音声データのうち、再生された区間を示す再生区間情報を検出する検出部と、
再生された前記音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報を取得する取得部と、
前記音声インデックスに含まれる前記複数の文字列のうち、対応する前記音声位置情報が前記再生区間情報に含まれる文字列を検索の対象として特定し、その特定した文字列の中から、前記読み情報が示す読みを含む文字列を検索する検索部と、を備える、
情報処理装置。
前記音声テキストデータはラティス構造を有する、
請求項１の情報処理装置。
複数の文字列が予め登録された辞書を記憶する辞書記憶部をさらに備え、
前記検索部は、前記辞書記憶部に登録された文字列の中から、前記読み情報が示す読みを含む文字列を検索する、
請求項１の情報処理装置。
前記検索部により検索された文字列を表示する表示部をさらに備える、
請求項１の情報処理装置。
前記音声データを再生する再生部をさらに備える、
請求項１の情報処理装置。
音声データのうち、再生された区間を示す再生区間情報を検出する検出ステップと、
再生された前記音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報を取得する取得ステップと、
前記音声データに対する音声認識処理により得られる音声テキストデータに含まれる複数の文字列の各々と、前記音声データ内の位置を示す音声位置情報とが対応付けられた音声インデックスに含まれる前記複数の文字列のうち、対応する前記音声位置情報が前記再生区間情報に含まれる文字列を検索の対象として特定し、その特定した文字列の中から、前記読み情報が示す読みを含む文字列を検索する検索ステップと、を備える、
情報処理方法。
音声データのうち、再生された区間を示す再生区間情報を検出する検出ステップと、
再生された前記音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報を取得する取得ステップと、
前記再生区間情報を用いて、前記音声データに対する音声認識処理により得られる音声テキストデータに含まれる複数の文字列の各々と、前記音声データ内の位置を示す音声位置情報とが対応付けられた音声インデックスに含まれる前記複数の文字列のうち、対応する前記音声位置情報が前記再生区間情報に含まれる文字列を検索の対象として特定し、その特定した文字列の中から、前記読み情報が示す読みを含む文字列を検索する検索ステップと、をコンピュータに実行させるためのプログラム。