JP5799733B2 - 認識装置、認識プログラムおよび認識方法 - Google Patents

認識装置、認識プログラムおよび認識方法 Download PDF

Info

Publication number
JP5799733B2
JP5799733B2 JP2011225344A JP2011225344A JP5799733B2 JP 5799733 B2 JP5799733 B2 JP 5799733B2 JP 2011225344 A JP2011225344 A JP 2011225344A JP 2011225344 A JP2011225344 A JP 2011225344A JP 5799733 B2 JP5799733 B2 JP 5799733B2
Authority
JP
Japan
Prior art keywords
word
sentence
value
connection score
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011225344A
Other languages
English (en)
Other versions
JP2013083897A (ja
Inventor
原田 将治
将治 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011225344A priority Critical patent/JP5799733B2/ja
Priority to US13/586,533 priority patent/US9082404B2/en
Priority to CN201210313705XA priority patent/CN103050115A/zh
Publication of JP2013083897A publication Critical patent/JP2013083897A/ja
Application granted granted Critical
Publication of JP5799733B2 publication Critical patent/JP5799733B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units

Description

本発明は、認識装置、認識プログラム、認識方法、生成装置、生成プログラムおよび生成方法に関する。
ファイルやウェブページに含まれるテキストを用いて、入力された音声を認識する装置がある。かかる装置の一例としては、入力された音声を示す音声信号とテキストに含まれる単語や単語が接続された文字列との類似度を算出し、算出した類似度が閾値を超える場合の単語または文字列を音声信号に対応する単語または文字列として決定する装置が挙げられる。
また、テキストを用いて、入力された音声を認識する装置の他の例としては、テキストに含まれる単語の全ての接続パターンを生成し、生成した接続パターンを、音声を認識する際に用いられる辞書に登録することで、辞書を生成する装置が挙げられる。辞書を生成する装置は、辞書に登録された接続パターンと、入力された音声を示す音声信号とを比較して、音声認識を行う。なお、辞書を生成する装置は、テキストに含まれる単語の個数がn個である場合には、1からnまでの和の個数分の接続パターンを生成する。
さらに、テキストを用いて、入力された音声を認識する装置の他の例としては、Nグラムにより言語モデルを再学習する装置が挙げられる。この言語モデルを再学習する装置は、コーパスから学習した言語モデルに対して、テキストに存在する、単語が接続された単語列について、接続された単語の確率を高くする。この際、言語モデルを再学習する装置は、テキストに存在する単語数のN乗の個数のパターンを生成し、生成したパターンを用いて、言語モデルに対して、接続された単語の確率を高くする。
特開2002−41081号公報 特開2002−342323号公報
しかしながら、従来の装置では、精度良く音声の認識ができないという問題がある。具体例を挙げて説明すると、上述した辞書を生成する装置では、接続パターンとして辞書に登録されていない音声が入力された場合には、入力された音声の認識結果の精度が低くなる。これは、辞書に登録されている接続パターンには、テキストに含まれる隣接する単語の組み合わせのパターンが含まれるが、テキストに含まれる単語であっても、隣接しない単語の組み合わせのパターンが含まれないからである。
なお、上述した言語を再学習する装置では、テキストに存在する単語数のN乗の個数のパターンを生成するため、生成するパターンの情報量が多いという問題がある。
開示の技術は、上記に鑑みてなされたものであって、精度良く音声の認識を行うことができる認識装置、認識プログラム、認識方法、生成装置、生成プログラムおよび生成方法を提供することを目的とする。
本願の開示する認識装置は、一つの態様において、記憶部と、第一の算出部と、第二の算出部と、決定部とを有する。記憶部は、文章に含まれる単語と単語の文章内の位置を示す位置情報とを記憶する。第一の算出部は、入力された音声信号と、記憶部に記憶された複数の単語を接続した文字列の読み情報とを比較して、類似度を算出する。第二の算出部は、記憶部に記憶された各単語の位置情報に基づいて、接続した複数の単語間の近さを示す接続スコアを算出する。決定部は、類似度および接続スコアに基づいて、音声信号に対応する文字列を決定する。
本願の開示する認識装置の一つの態様によれば、精度良く音声の認識を行うことができる。
図1は、実施例1に係る認識装置および生成装置を有するシステムの構成の一例を示す図である。 図2は、実施例1に係る生成装置の機能構成の一例を示す図である。 図3は、辞書の一例を示す図である。 図4は、実施例1に係る認識装置の機能構成の一例を示す図である。 図5は、実施例1に係る生成処理の手順を示すフローチャートである。 図6は、実施例1に係る認識処理の手順を示すフローチャートである。 図7は、実施例2に係る生成装置の機能構成の一例を示す図である。 図8は、辞書の一例を示す図である。 図9は、実施例2に係る認識装置の構成の一例を示す図である。 図10は、実施例2に係る生成処理の手順を示すフローチャートである。 図11は、実施例2に係る認識処理の手順を示すフローチャートである。 図12は、実施例3に係る認識装置の構成の一例を示す図である。 図13は、言語モデルの一例を示す図である。 図14は、単語辞書の一例を示す図である。 図15は、実施例3に係る認識処理の手順を示すフローチャートである。 図16は、実施例4に係る生成装置の構成の一例を示す図である。 図17は、品詞番号表の一例を示す図である。 図18は、辞書の一例を示す図である。 図19は、実施例4に係る認識装置の構成の一例を示す図である。 図20は、確率表の一例を示す図である。 図21は、実施例4に係る生成処理の手順を示すフローチャートである。 図22は、実施例4に係る認識処理の手順を示すフローチャートである。 図23は、生成プログラムを実行するコンピュータを示す図である。 図24は、認識プログラムを実行するコンピュータを示す図である。
以下に、本願の開示する認識装置、認識プログラム、認識方法、生成装置、生成プログラムおよび生成方法の実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
実施例1に係る認識装置および生成装置について説明する。図1は、実施例1に係る認識装置および生成装置を有するシステムの構成の一例を示す図である。本実施例に係るシステム1は、生成装置10と、認識装置20とを有する。生成装置10と、認識装置20とは、ネットワーク30を介して接続されている。生成装置10と、認識装置20とは、通信可能である。なお、図1の例では、システム1に、生成装置10および認識装置20が各々1台の場合が示されているが、生成装置10および認識装置20の台数はこれに限られない。例えば、生成装置10および認識装置20のそれぞれの台数は、複数台であってもよい。
生成装置10は、文章に含まれる単語と、単語の文章内の位置を示す位置情報とが対応付けられて登録された辞書を生成する。例えば、生成装置10は、まず、入力されたテキストファイルが示す文章を単語ごとに分割する。かかる文章は、テキストとも称される。そして、生成装置10は、分割された単語の文章内の位置を示す位置情報を生成する。続いて、生成装置10は、単語と、単語の文章内の位置を示す位置情報とが対応付けられて登録された辞書を生成する。そして、生成装置10は、生成した辞書を認識装置20へ送信する。
認識装置20は、生成装置10から送信された辞書を受信する。そして、認識装置20は、入力された音声信号と、辞書に登録された複数の単語を接続した文字列の読み情報とを比較して、類似度を算出する。続いて、認識装置20は、辞書に登録された各単語の位置情報に基づいて、接続した複数の単語間の近さを示す接続スコアを算出する。そして、認識装置20は、類似度および接続スコアに基づいて、入力された音声信号に対応する文字列を決定する。続いて、認識装置20は、決定した文字列を出力する。
このように、認識装置20は、類似度を算出する際に用いられる文字列の複数の単語間の近さを示す接続スコアを算出する。例えば、認識装置20は、類似度を算出する際に用いられる文字列の複数の単語間が近いほど、値が大きくなるような接続スコアを算出する。そして、認識装置20は、類似度だけでなく、接続スコアをも加味して、入力された音声信号に対応する文字列を決定する。例えば、認識装置20は、類似度と接続スコアとを加算した値のうち、閾値を超えた値に対応する文字列を、入力された音声信号に対応する文字列として決定する。そのため、認識装置20は、文章に含まれる複数の単語であって、文章内で隣接しない複数の単語を接続した文字列を発話者が発話して、音声信号として入力された場合であっても、発話者が発話した音声を認識することができる。したがって、認識装置20によれば、精度良く音声の認識を行うことができる。
また、生成装置10は、上述したように精度良く音声の認識を行うことが可能な辞書を生成することができる。
[生成装置の機能構成の一例]
図2は、実施例1に係る生成装置の機能構成の一例を示す図である。図2の例では、生成装置10は、入力部11と、出力部12と、通信部13と、記憶部14と、制御部15とを有する。
入力部11は、各種情報を制御部15に入力する。例えば、入力部11は、ユーザから、他の装置から所定の話題に関する文章を含むテキストファイルを取得する指示を受け付け、受け付けた指示を制御部15に入力する。入力部11のデバイスの一例としては、マウスやキーボードなどが挙げられる。
出力部12は、各種情報を出力する。例えば、出力部12は、制御部15から画像が入力された場合には、画像を表示出力する。出力部12のデバイスの一例としては、CRT(Cathode Ray Tube)や液晶ディスプレイなどが挙げられる。
通信部13は、認識装置20および外部の装置と通信を行うためのネットワークインターフェースである。例えば、通信部13は、外部の装置へ所定の話題に関する文章を含むテキストファイルを生成装置10へ送信する旨の指示を制御部15から受信すると、受信した指示をネットワーク30を介して外部の装置へ送信する。また、通信部13は、外部の装置からテキストファイルを受信すると、受信したテキストファイルを、制御部15へ送信する。
記憶部14は、テキストファイル14aと、辞書14bとを記憶する。
テキストファイル14aは、後述する取得部15aにより記憶部14に格納される。テキストファイルは、文章を示す。テキストファイル14aは、発話者が発話する音声を認識する際に用いられる後述の辞書14bを生成する際に用いられる。したがって、発話者が発話する内容に合ったテキストファイル14aが記憶部14に記憶されることが好ましい。例えば、発話者が天気に関する内容を発話する場合には、テキストファイルに含まれる文章の内容が天気に関する内容であることが好ましい。
辞書14bは、後述する生成部15cにより生成され、後述する格納部15dにより記憶部14に格納される。
図3は、辞書の一例を示す図である。図3の例では、辞書14bは、「表記」の項目、「読み情報」の項目、「位置情報」の項目を有する。「表記」の項目には、入力されたテキストファイルが示す文章に含まれる単語、および、複数の単語を結合した単語列が登録される。また、「読み情報」の項目には、「表記」の項目に登録された単語または単語列の読み方、すなわち、単語または単語列のひらがなの表記が登録される。「位置情報」の項目には、「表記」の項目に登録された単語または単語列の文章内での位置を示す位置情報が登録される。これらの各項目の内容は、生成部15cによって生成される。
図3の例は、一番目のレコードに、テキストファイルが示す文章「衆議院で改正法が審議入り。山川総理が法案を通したいと言及」に含まれる単語「衆議院」が「表記」の項目に登録された場合を示す。また、図3の例は、一番目のレコードに、衆議院の読み方「しゅうぎいん」が「読み情報」の項目に登録された場合を示す。また、図3の例は、一番目のレコードに、単語「衆議院」の文章内での位置を示す位置情報「0」が、「位置情報」の項目に登録された場合を示す。
また、図3の例は、二番目のレコードに、テキストファイルが示す文章「衆議院で改正法が審議入り。山川総理が法案を通したいと言及」に含まれる単語「衆議院」と単語「で」とを結合した単語列「衆議院で」が「表記」の項目に登録された場合を示す。また、図3の例は、二番目のレコードに、「衆議院で」の読み方「しゅうぎいんで」が「読み情報」の項目に登録された場合を示す。また、図3の例は、二番目のレコードに、単語列「衆議院で」の文章内での位置を示す位置情報「1」が、「位置情報」の項目に登録された場合を示す。
記憶部14は、例えば、フラッシュメモリなどの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。なお、記憶部14は、上記の種類の記憶装置に限定されるものではなく、RAM(Random Access Memory)、ROM(Read Only Memory)であってもよい。
制御部15は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する。制御部15は、取得部15aと、分割部15bと、生成部15cと、格納部15dとを有する。
取得部15aは、他の装置から所定の話題に関する文章を含むテキストファイル14aを取得する指示を入力部11から受け付けると、図示しない外部の装置へかかるテキストファイル14aを生成装置10へ送信する旨の指示を通信部13へ送信する。これにより、外部の装置から、所定の話題に関する文章を含むテキストファイル14aが生成装置10へ送信される。そのため、取得部15aは、外部の装置から、所定の話題に関する文章を含むテキストファイル14aを取得することができる。そして、取得部15aは、取得したテキストファイル14aを記憶部14に格納する。
分割部15bは、テキストファイル14aが示す文章を単語ごとに分割する。例えば、分割部15bは、形態素解析を行うためのソフトウェア「ChaSen(茶筌)」、「MeCab(和布蕪)」などを用いて、テキストファイル14aが示す文章に対して形態素解析を行い、形態素ごとに分割する。そして、分割部15bは、分割された各形態素のそれぞれを単語とみなすことで、文章を単語ごとに分割することができる。以下では、形態素を単語とみなす場合を例に挙げて説明するが、複数の形態素、例えば、語幹、活用語尾、助動詞などの3つの形態素を1つの単語とみなしてもよい。例えば、3つの形態素が、語幹「通」、活用語尾「し」、助動詞「たい」である場合には、「通したい」を1つの単語とみなすことができる。また、分割部15bは、上述したソフトウェア「ChaSen(茶筌)」、「MeCab(和布蕪)」などを用いることで、単語ごとの読み情報を得ることができる。すなわち、分割部15bは、文章を単語ごとに分割し、単語の読み情報を取得する。分割部15bにより得られた単語の総数がM個である場合には、文章の先頭の単語は、1番目の単語であり、文章の最後の単語は、M番目の単語となる。
例えば、テキストファイル14aが示す文章が、「衆議院で改正法が審議入り。山川総理が法案を通したいと言及」である場合には、分割部15bは、「衆議院で改正法が審議入り。」の部分について、次のように、単語ごとに分割し、単語の読み情報を取得する。すなわち、分割部15bは、「衆議院+しゅうぎいん/で+で/改正法+かいせいほう/が+が/審議入り+しんぎいり。」というように、文章を単語ごとに分割し、単語の読み情報を取得する。ここで、「/」は、単語の区切り位置を示す記号であり、「+」は、単語と単語に対応する読み情報とを接続する記号である。また、分割部15bは、「山川総理が法案を通したいと言及」の部分について、次のように、単語ごとに分割し、単語の読み情報を取得する。すなわち、分割部15bは、「山川+やまかわ/総理+そうり/が+が/法案+法案/を+を/通+とお/し+し/たい+たい」というように、文章を単語ごとに分割し、単語の読み情報を取得する。
生成部15cは、分割部15bにより分割された単語の文章内の位置を示す位置情報を生成する。これに加えて、生成部15cは、単語のそれぞれについて、その単語に続く1個から(N−1)個の単語までのそれぞれの単語列を生成する。そして、生成部15cは、単語列の文章内の位置を示す位置情報を生成する。
具体例を挙げて説明する。例えば、生成部15cは、まず、位置情報n、変数i、変数jの各値を初期化する。すなわち、生成部15cは、位置情報nの値を0、変数iの値を1、変数jの値を0に設定する。そして、生成部15cは、i番目の単語から(i+j)番目の単語までの単語列を生成する。なお、j=0の場合は、i番目の単語を単語列とみなして下記の処理を行う。また、(i+k;k≦j)番目の単語が存在しない場合には、生成部15cは、(i+k)番目の単語を空欄として扱って、i番目の単語から(i+j)番目の単語までの単語列を生成する。
そして、生成部15cは、格納部15dにより新たに生成された単語列と、読み情報と、位置情報nの値とが辞書14bに登録された場合に、変数jの値を1つインクリメントし、変数nの値を1つインクリメントする。そして、生成部15cは、変数jの値が、単語列に結合する単語の数の最大値である最大結合数Nよりも小さいか否かを判定する。小さい場合には、生成部15cは、再び、i番目の単語から(i+j)番目の単語までの単語列を生成し、上記で説明した処理と同様の処理を行う。
一方、変数jの値が、最大結合数N以上である場合には、生成部15cは、変数iの値を1つインクリメントし、変数jの値を0に設定する。続いて、生成部15cは、変数iの値が、分割部15bにより得られた単語の総数である総単語数M以下であるか否かを判定する。変数iの値が総単語数M以下である場合には、生成部15cは、再び、i番目の単語から(i+j)番目の単語までの単語列を生成し、上記で説明した処理と同様の処理を行う。
格納部15dは、単語および単語列と、対応する読み情報と、対応する位置情報nとを対応付けて記憶部14に格納する。具体例を挙げて説明する。例えば、格納部15dは、生成部15cにより、i番目の単語から(i+j)番目の単語までの単語列が生成された場合に、次のような処理を行う。すなわち、格納部15dは、新たに生成された単語列と、新たに生成された単語列に対応する読み情報と、位置情報nの値とを、それぞれ、辞書14bの「表記」、「読み情報」、「位置情報」の各項目に登録する。なお、格納部15dは、新たに生成された単語列中の単語に、句点「。」が含まれる場合や、空欄がある場合には、単語列と読み情報と位置情報nの値とを辞書14bへ登録する処理を省略できる。これは、単語列中の単語に、句点「。」が含まれる場合や、空欄がある場合には、その単語列は、音声を認識する際の音声との比較対象として不適切であるという理由による。したがって、格納部15dによれば、辞書14bを生成する速度が速くなる。また、格納部15dによれば、より少ない情報量の辞書14bを生成することができる。
以上説明したように、生成部15cおよび格納部15dなどによって、辞書14bが生成される。例えば、テキストファイル14aが示す文章が「衆議院で改正法が審議入り。山川総理が法案を通したいと言及」である場合には、図3の例に示すような辞書14bが生成される。図3の例では、最大結合数Nの値は3である。また、図3の例では、句点や空欄を示す単語が含まれる単語列も辞書14bに登録されているように示されている。しかしながら、これは説明の便宜上のためである。図3の例では、句点や空欄を示す単語が含まれる単語列にかかるレコードについては、「表記」の項目に登録された単語列の先頭部分に「(」の記号が付加されており、「(」の記号が付加された単語列にかかるレコードは、辞書14bには登録されない。すなわち、格納部15cは、総単語数M×最大結合数N−Σn(n=1、2、・・・、N−1)の個数程度のレコードを辞書14bに登録するため、少ない情報量の辞書14bを生成することができる。
なお、最大結合数Nの値は、音声を認識する認識装置20にとって、認識精度が良好となる読みの長さに合わせるのが好ましい。例えば、認識精度が良好となる読みの長さが8音節であり、単語の平均音節長が3である場合には、8/3=2.6・・となるので、最大結合数Nの値として2または3を用いるのが好ましい。以下の説明では、最大結合数Nの値が3である場合について説明するが、最大結合数Nの値はこれに限られない。
また、格納部15dは、認識装置20から辞書14bの送信要求を受信すると、記憶部14から辞書14bを読み込み、辞書14bを通信部13に送信する。辞書14bを受信した通信部13は、辞書14bをインターネット30を介して、認識装置20へ送信する。
制御部15は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路、または、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路である。
[認識装置の機能構成の一例]
図4は、実施例1に係る認識装置の機能構成の一例を示す図である。図4の例では、認識装置20は、音声入力部21と、出力部22と、通信部23と、記憶部24と、制御部25とを有する。
音声入力部21は、ユーザなどの発話者によって発話された音声をA/D変換して、音声信号として制御部25に入力する。音声入力部21のデバイスの一例としては、マイクロフォンなどが挙げられる。
出力部22は、各種情報を出力する。例えば、出力部22は、制御部25から音声認識結果の文字列を示す画像が入力された場合には、かかる画像を表示する。出力部22のデバイスの一例としては、CRT(Cathode Ray Tube)や液晶ディスプレイなどが挙げられる。
通信部23は、生成装置10と通信を行うためのネットワークインターフェースである。例えば、通信部23は、制御部25から、生成装置10に対して認識装置20に辞書14bを送信する旨の送信要求を受信すると、かかる送信要求をネットワーク30を介して生成装置10へ送信する。また、通信部23は、生成装置10から辞書14bを受信すると、受信した辞書14bを制御部25へ送信する。
記憶部24は、辞書14bと、文字列24aを記憶する。
辞書14bは、生成装置10から取得され、後述する第一の算出部26aにより記憶部24に格納される。また、文字列24aは、音声認識の結果、入力された音声信号に対応する文字列として後述する決定部26cにより決定され、後述する出力部27により記憶部24に格納される。
また、記憶部24は、辞書14bの「読み情報」の項目に登録された読み情報に対応する、隠れマルコフモデルなどの音響モデルを記憶する。音声を認識して類似度(確率値)などを算出する際には、この音響モデルと、音声信号との比較が行われる。
記憶部24は、例えば、フラッシュメモリなどの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。なお、記憶部24は、上記の種類の記憶装置に限定されるものではなく、RAM(Random Access Memory)、ROM(Read Only Memory)であってもよい。
制御部25は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する。制御部25は、照合部26と、出力部27とを有する。
照合部26は、入力された音声信号と、辞書14bに登録された読み情報の複数の組み合わせに対応する音響モデルの複数の組み合わせのそれぞれとを比較し、類似度を音響モデルの組み合わせごとに算出する。なお、「読み情報の組み合わせ」とは、読み情報が1つである場合には、その読み情報を指し、読み情報が複数である場合には、読み情報を順番に並べて、各読み情報を接続した場合の文字列を指す。並べる順番を入れ替えることで様々な読み情報の組み合わせが可能である。「音響モデルの組み合わせ」についても同様である。また、照合部26は、類似度を算出する際に組み合わされた読み情報に対応する単語または文字列の位置情報に基づいて、次のような処理を行う。すなわち、照合部26は、組み合わされた複数の読み情報のそれぞれに対応する単語または文字列について、単語間または文字列間もしくは単語と文字列間の文章中の位置の近さを示す接続スコアを読み情報の組み合わせごとに算出する。そして、照合部26は、複数の算出された和のうち、閾値を超え、かつ、最も値が大きい和に対応する文字列を、音声信号に対応する文字列として決定する。照合部26によれば、文章に含まれる複数の単語であって、文章内で隣接しない複数の単語を接続した文字列を発話者が発話して、音声信号として入力された場合であっても、発話者が発話した音声を認識することができる。したがって、照合部26によれば、精度良く音声の認識を行うことができる。
照合部26は、第一の算出部26aと、第二の算出部26bと、決定部26cとを有する。
第一の算出部26aは、入力された音声信号と、辞書14bに登録された複数の単語および単語列を接続した文字列の読み情報に対応する音響モデルとを比較して、類似度を算出する。
具体例を挙げて説明する。例えば、第一の算出部26aは、認識装置20に備えられたキーボードやマウスなどの操作受付装置(図示せず)を介して、ユーザから認識処理を実行する旨の指示を受信した場合に、次のような処理を行う。すなわち、第一の算出部26aは、生成装置10に対して認識装置20に辞書14bを送信する旨の送信要求を通信部23へ送信する。続いて、第一の算出部26aは、生成装置10から辞書14bを受信したか否かを判定する。辞書14bを受信した場合には、第一の算出部26aは、受信した辞書14bを記憶部24へ格納する。
その後、第一の算出部26aは、音声入力部21を介して音声信号を受信したか否かを判定する。音声信号を受信した場合には、第一の算出部26aは、音声信号をフレームごとに分割する。そして、第一の算出部26aは、全てのフレームに対して、下記で説明する処理を行ったか否かを判定する。未処理のフレームがある場合には、第一の算出部26aは、未処理のフレームに対して、辞書14bに登録された読み情報の組み合わせを複数生成し、生成された複数の組み合わせのそれぞれに対応する音響モデルの組み合わせを生成する。
そして、第一の算出部26aは、フレームと、音響モデルの複数の組み合わせのそれぞれとを比較し、音響モデルの組み合わせごとに類似度を算出する。
第二の算出部26bは、辞書14bを参照し、類似度を算出する際に組み合わされた読み情報に対応する単語または文字列の位置情報に基づいて、次のような処理を行う。すなわち、第二の算出部26bは、組み合わされた複数の読み情報のそれぞれに対応する単語または文字列について、単語間または文字列間もしくは単語と文字列間の文章中の位置の近さを示す接続スコアを読み情報の組み合わせごとに算出する。
第二の算出部26bが行う接続スコアの算出方法の一例について説明する。ここでは、先の図3の例に示す辞書14bが記憶部24に記憶された場合を想定する。第二の算出部26bは、第一の算出部26aで類似度を算出する際に、音声信号との比較に用いられた音響モデルの組み合わせを全て特定する。そして、第二の算出部26bは、辞書14bを参照し、特定した音響モデルのそれぞれについて、対応する読み情報の組み合わせを特定する。続いて、第二の算出部26bは、辞書14bを参照し、組み合わされた各読み情報に対応する位置情報を、特定した全ての読み情報の組み合わせごとに取得する。
その後、第二の算出部26bは、組み合わされた各読み情報に対応する位置情報が示す値が、先頭から昇順であるか否かを判定する。例えば、組み合わされた各読み情報が、「しゅうぎいん」、「で」、「かいせいほう」である場合には、図3の例に示す辞書14bに登録された位置情報がそれぞれ「0」、「3」、「6」であるため、第二の算出部26bは、昇順であると判定する。また、組み合わされた各読み情報が、「しゅうぎいんで」、「で」、「かいせいほう」である場合には、図3の例に示す辞書14bに登録された位置情報がそれぞれ「1」、「3」、「6」であるため、第二の算出部26bは、昇順であると判定する。また、組み合わされた各読み情報が、「しゅうぎいん」、「かいせいほう」、「で」である場合には、図3の例に示す辞書14bに登録された位置情報がそれぞれ「0」、「6」、「3」であるため、第二の算出部26bは、昇順でないと判定する。また、組み合わされた各読み情報が、「しゅうぎいん」、「かいせいほう」、「しんぎいり」である場合には、図3の例に示す辞書14bに登録された位置情報がそれぞれ「0」、「6」、「13」であるため、第二の算出部26bは、昇順であると判定する。
続いて、第二の算出部26bは、位置情報が示す値が昇順であると判定された組み合わせについて、次のような処理を行う。すなわち、組み合わせされた読み情報のうち、結合された2つの読み情報、すなわち隣接する読み情報について、先頭に近いほうの読み情報に対応する位置情報が示す値を変数xに代入し、先頭から遠い方の読み情報に対応する位置情報が示す値を変数yに代入する。そして、第二の算出部26bは、下記の式(1)、式(2)に基づいて、X、Yを算出する。
X=(x/N)+(x%N)+1 式(1)
Y=(y/N) 式(2)
ただし、Nは、上述した最大結合数である。また、「/」は、小数点以下を切り捨てて商を整数とするための除算演算を意味する。また、「%」は、剰余演算を意味する。
例えば、組み合わされた各読み情報が、「しゅうぎいん」、「で」、「かいせいほう」である場合には、位置情報がそれぞれ「0」、「3」、「6」である。このため、「しゅうぎいん」および「で」の隣接する読み情報について、変数xに「0」、変数yに「3」が代入されて、X、Yが算出される。さらに、「で」および「かいせいほう」の隣接する読み情報について、変数xに「3」、変数yに「6」が代入され、X、Yが算出される。また、組み合わされた各読み情報が、「しゅうぎいんで」、「で」、「かいせいほう」である場合には、位置情報がそれぞれ「1」、「3」、「6」である。このため、「しゅうぎいんで」および「で」の隣接する読み情報について、変数xに「1」、変数yに「3」が代入されて、X、Yが算出される。さらに、「で」および「かいせいほう」の隣接する読み情報について、変数xに「3」、変数yに「6」が代入され、X、Yが算出される。
第二の算出部26bは、このようにしてX、Yを算出する処理を、位置情報が示す値が昇順であると判定された組み合わせに含まれる、全ての隣接する読み情報について行う。
続いて、第二の算出部26bは、X>Yの場合、隣接する読み情報同士で同じ読み情報(読み情報に対応する単語または文字列)が重複して用いられており、これらの隣接する読み情報の組み合わせは適切でないと考えられるため、接続スコアを最低の点数とする。例えば、接続スコアが0〜30点である場合には、第二の算出部26bは、0点とする。位置情報が「1」、「3」となる「しゅうぎいんで」および「で」が隣接する読み情報として組み合わされた場合、X=2、Y=1となり、「で」の読み情報に対応する単語「で」が重複しているため、第二の算出部26bは、接続スコアを0点とする。
また、第二の算出部26bは、X=Yの場合、入力されたテキストファイル14aが示す文章内で隣接している単語または文字列であるため、これらの読み情報の組み合わせは適切であると考えられるため、接続スコアを最高の点数とする。例えば、接続スコアが0〜30点である場合には、第二の算出部26bは、30点とする。位置情報が「0」、「3」となる「しゅうぎいん」および「で」が隣接する読み情報として組み合わされた場合、X=Y=1となり、第二の算出部26bは、接続スコアを30点とする。また、位置情報が「3」、「6」となる「で」および「かいせいほう」が隣接する読み情報として組み合わされた場合、X=Y=2となり、第二の算出部26bは、接続スコアを30点とする。
また、X<Yの場合、Y−Xの値が小さいほど、2つの隣接する読み情報に対応する単語または文字列が、テキストファイル14aが示す文章内で近い位置に存在すると考えられる。そこで、第二の算出部26bは、Y−Xの値が小さいほど、接続スコアが大きくなるように、接続スコアの点数をつける。例えば、接続スコアが0〜30点である場合には、第二の算出部26bは、MAX(0,30−(Y−X))とする。ただし、MAX(A,B)は、AとBのうち、大きい値を選択する関数である。
第二の算出部26bは、X、Yが算出された隣接する読み情報の全てについて、同様に、接続スコアを算出する。
なお、第二の算出部26bは、位置情報が昇順である場合についての組み合わせについてのみ接続スコアを算出する場合について例示したが、開示の装置はこれに限られない。例えば、第二の算出部26bは、位置情報が降順である場合には、次のような処理を行ってもよい。すなわち、組み合わせされた読み情報のうち、隣接する読み情報について、先頭に近いほうの読み情報に対応する位置情報が示す値を変数yに代入し、先頭から遠い方の読み情報に対応する位置情報が示す値を変数xに代入するようにしてもよい。この場合、算出されたX、Yに対して所定の減点、例えば、3点の減点をするようにして、昇順の場合との接続スコアの点数に差を付けてもよい。このように、昇順だけでなく降順の場合も接続スコアを算出することで、類似度を算出する際に組み合わせられた読み情報に対応する単語または文字列が、テキストファイル14aが示す文章内で近い場合には、高い接続スコアの点数が算出される。たとえば、テキストファイル14aが示す文章が、「衆議院で改正法が審議入り。山川総理が法案を通したいと言及」である場合に、「山川総理が通したい改正法」といったテキストファイル14aが示す文章とは単語の語順が異なるような単語または文字列の組み合わせについても、接続スコアが単語同士の近さに応じて算出される。そのため、発話者が、「山川総理が通したい改正法」と発話した場合であっても、音声認識をすることができる。
決定部26cは、類似度および接続スコアに基づいて、入力された音声信号に対応する文字列を決定する。例えば、決定部26cは、類似度を算出する際に用いられた音響モデルの組み合わせごとに、すなわち、音響モデルの組み合わせに対応する読み情報の組み合わせごとに、対応する類似度と、対応する接続スコアとの和を算出する。そして、決定部26cは、複数の算出された和のうち、閾値を超えた和があるか否かを判定する。閾値を超えた和がある場合には、閾値を超えた和のうち、最も値が大きい和に対応する文字列を、音声信号に対応する文字列として決定する。このようにして、決定部26cは、各フレームに対して、文字列を決定する。
出力部27は、各フレームに対して決定された文字列を音声の認識結果として画面に表示するように出力部22に送信する。また、出力部27は、各フレームに対して決定された文字列を記憶部24に格納する。なお、記憶部24に格納された文字列は、上述した、符号「24a」が付された文字列である。
制御部25は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路、または、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路である。
[処理の流れ]
次に、本実施例に係る生成装置10の処理の流れを説明する。図5は、実施例1に係る生成処理の手順を示すフローチャートである。この生成処理は、入力部11から制御部15に生成処理を実行する指示が入力された場合に実行される。
図5に示すように、分割部15bは、テキストファイル14aが示す文章を単語ごとに分割する(S101)。生成部15cは、位置情報nの値を0、変数iの値を1、変数jの値を0に設定する(S102)。生成部15cは、i番目の単語から(i+j)番目の単語までの単語列を生成する(S103)。
格納部15dは、新たに生成された単語列と、新たに生成された単語列に対応する読み情報と、位置情報nの値とを、それぞれ、辞書14bの「表記」、「読み情報」、「位置情報」の各項目に登録する(S104)。生成部15cは、変数jの値を1つインクリメントし、変数nの値を1つインクリメントする(S105)。生成部15cは、変数jの値が、単語列に結合する単語の数の最大値である最大結合数Nよりも小さいか否かを判定する(S106)。小さい場合(S106肯定)には、S103へ戻る。
一方、変数jの値が、最大結合数N以上である場合(S106否定)には、生成部15cは、変数iの値を1つインクリメントし、変数jの値を0に設定する(S107)。生成部15cは、変数iの値が、分割部15bにより得られた単語の総数である総単語数M以下であるか否かを判定する(S108)。変数iの値が総単語数M以下である場合(S108肯定)には、S103へ戻る。一方、変数iの値が総単語数Mより大きい場合(S108否定)には、処理を終了する。
次に、本実施例に係る認識装置20の処理の流れを説明する。図6は、実施例1に係る認識処理の手順を示すフローチャートである。この認識処理は、操作受付部(図示せず)から制御部25に認識処理を実行する指示が入力された場合に実行される。
図6に示すように、第一の算出部26aは、生成装置10に対して認識装置20に辞書14bを送信する旨の送信要求を通信部23へ送信する(S201)。続いて、第一の算出部26aは、生成装置10から辞書14bを受信したか否かを判定する(S202)。辞書14bを受信していない場合(S202否定)には、第一の算出部26aは、再び同様の判定を行う。一方、辞書14bを受信した場合(S202肯定)には、第一の算出部26aは、受信した辞書14bを記憶部24へ格納する(S203)。
第一の算出部26aは、音声入力部21を介して音声信号を受信したか否かを判定する(S204)。音声信号を受信していない場合(S204否定)には、第一の算出部26aは、再び同様の判定を行う。一方、音声信号を受信した場合(S204肯定)には、第一の算出部26aは、音声信号をフレームごとに分割する(S205)。第一の算出部26aは、全てのフレームに対して、下記のS207以降の処理を行ったか否かを判定する(S206)。未処理のフレームが無い場合(S206肯定)には、処理を終了する。一方、未処理のフレームがある場合(S206否定)には、第一の算出部26aは、次のような処理を行う。すなわち、第一の算出部26aは、未処理のフレームに対して、辞書14bに登録された読み情報の組み合わせを複数生成し、生成された複数の組み合わせのそれぞれに対応する音響モデルの組み合わせを生成する(S207)。
第一の算出部26aは、フレームと、音響モデルの複数の組み合わせのそれぞれとを比較し、音響モデルの組み合わせごとに類似度を算出する(S208)。
第二の算出部26bは、辞書14bを参照し、類似度を算出する際に組み合わされた読み情報に対応する単語または文字列の位置情報に基づいて、次のような処理を行う。すなわち、第二の算出部26bは、組み合わされた複数の読み情報のそれぞれに対応する単語または文字列について、単語間または文字列間もしくは単語と文字列間の文章中の位置の近さを示す接続スコアを読み情報の組み合わせごとに算出する(S209)。
決定部26cは、類似度を算出する際に用いられた音響モデルの組み合わせごとに、すなわち、音響モデルの組み合わせに対応する読み情報の組み合わせごとに、対応する類似度と、対応する接続スコアとの和を算出する(S210)。決定部26cは、複数の算出された和のうち、閾値を超えた和があるか否かを判定する(S211)。ない場合(S211否定)には、S206へ戻る。一方、閾値を超えた和がある場合(S211肯定)には、決定部26cは、閾値を超えた和のうち、最も値が大きい和に対応する文字列を、音声信号に対応する文字列として決定する(S212)。
出力部27は、各フレームに対して決定された文字列を音声の認識結果として画面に表示するように出力部22に送信し、各フレームに対して決定された文字列を記憶部24に格納し(S213)、処理を終了する。
[実施例1の効果]
上述してきたように、認識装置20は、入力された音声信号と、辞書14bに登録された読み情報の複数の組み合わせに対応する音響モデルの複数の組み合わせのそれぞれとを比較し、類似度を音響モデルの組み合わせごとに算出する。また、認識装置20は、類似度を算出する際に組み合わされた読み情報に対応する単語または文字列の位置情報に基づいて、次のような処理を行う。すなわち、認識装置20は、組み合わされた複数の読み情報のそれぞれに対応する単語または文字列について、単語間または文字列間もしくは単語と文字列間の文章中の位置の近さを示す接続スコアを読み情報の組み合わせごとに算出する。そして、認識装置20は、複数の算出された和のうち、閾値を超え、かつ、最も値が大きい和に対応する文字列を、音声信号に対応する文字列として決定する。認識装置20によれば、文章に含まれる複数の単語であって、文章内で隣接しない複数の単語を接続した文字列を発話者が発話して、音声信号として入力された場合であっても、発話者が発話した音声を認識することができる。したがって、認識装置20によれば、精度良く音声の認識を行うことができる。
また、生成装置10は、認識装置20で精度良く音声の認識を行うことができる辞書14bを生成することができる。
また、生成装置10は、総単語数M×最大結合数N−Σn(n=1、2、・・・、N−1)の個数程度のレコードを辞書14bに登録するため、少ない情報量の辞書14bを生成することができる。
実施例2では、テキストファイル14aに含まれる文章の文ごとに識別子が登録された辞書14aを生成し、かかる辞書14aを用いて、文ごとに、接続スコアを算出する場合について説明する。
[生成装置40の機能構成]
図7は、実施例2に係る生成装置の機能構成の一例を示す図である。図7に示すように、生成装置40は、記憶部14および制御部45を有する。かかる制御部45は、図2に示す実施例1に係る制御部15と比較して、生成部45cおよび格納部45dを有する点が異なる。また、記憶部14は、実施例1に係る記憶部14と比較して、辞書44bを記憶する点が異なる。なお、以下では、上記の実施例1と同様の機能を果たす各部については図2と同様の符号を付し、その説明は省略することとする。
辞書44bは、後述する生成部45cにより生成され、後述する格納部45dにより記憶部14に格納される。
図8は、辞書の一例を示す図である。図8の例では、辞書44bは、実施例1と同様の「表記」の項目、「読み情報」の項目、「位置情報」の項目に加え、「文識別子」の項目を有する。「文識別子」の項目には、文を識別するための識別子が登録される。これらの各項目の内容は、生成部45cによって生成される。
図8の例は、一番目のレコードに、テキストファイルが示す文章「決勝に海山学院が進出。山川総理が法案を通したいと言及」に含まれる単語「決勝」が「表記」の項目に登録された場合を示す。また、図8の例は、一番目のレコードに、決勝の読み方「けっしょう」が「読み情報」の項目に登録された場合を示す。また、図8の例は、一番目のレコードに、単語「決勝」の文章内での位置を示す位置情報「0」が、「位置情報」の項目に登録された場合を示す。また、図8の例は、一番目のレコードに、単語「決勝」を含む文の識別子「10」が、「文識別子」の項目に登録された場合を示す。
生成部45cは、分割部15bにより分割された単語の文章内の位置を示す位置情報を生成する。これに加えて、生成部45cは、単語のそれぞれについて、その単語に続く1個から(N−1)個の単語までのそれぞれの単語列を生成する。そして、生成部45cは、単語列の文章内の位置を示す位置情報を生成する。さらに、生成部45cは、分割された単語を含む文を識別するための識別情報を生成する。
具体例を挙げて説明する。例えば、生成部45cは、まず、位置情報n、変数i、変数j、変数sの各値を初期化する。すなわち、生成部45cは、位置情報nの値を0、変数iの値を1、変数jの値を0、変数sの値を10に設定する。そして、生成部45cは、(i−j)番目の単語からi番目の単語までの単語列を生成する。なお、j=0の場合は、i番目の単語を単語列とみなして下記の処理を行う。また、(i−w;w≦j)番目の単語が存在しない場合には、生成部45cは、(i−w)番目の単語を空欄として扱って、(i−j)番目の単語からi番目の単語までの単語列を生成する。
そして、生成部45cは、格納部45dにより新たに生成された単語列と、読み情報と、位置情報nの値と、文識別子sの値とが辞書44bに登録された場合に、変数jの値を1つインクリメントし、変数nの値を1つインクリメントする。そして、生成部45cは、変数jの値が、単語列に結合する単語の数の最大値である最大結合数Nよりも小さいか否かを判定する。小さい場合には、生成部45cは、再び、i番目の単語から(i+j)番目の単語までの単語列を生成し、上記で説明した処理と同様の処理を行う。
一方、変数jの値が、最大結合数N以上である場合には、生成部45cは、i番目の単語が文の区切りを示す記号、例えば、句点「。」であるか否かを判定する。i番目の単語が文の区切りを示す記号である場合には、生成部45cは、変数sの値を1つインクリメントする。そして、生成部45cは、変数iの値を1つインクリメントし、変数jの値を0に設定する。続いて、生成部45cは、変数iの値が、分割部15bにより得られた単語の総数である総単語数M以下であるか否かを判定する。変数iの値が総単語数M以下である場合には、生成部45cは、再び、(i−j)番目の単語からi番目の単語までの単語列を生成し、上記で説明した処理と同様の処理を行う。
格納部45dは、単語および単語列と、対応する読み情報と、対応する位置情報nと、文識別子sとを対応付けて記憶部14に格納する。具体例を挙げて説明する。例えば、格納部45dは、生成部45cにより、(i−j)番目の単語からi番目の単語までの単語列が生成された場合に、次のような処理を行う。すなわち、格納部45dは、新たに生成された単語列と、新たに生成された単語列に対応する読み情報と、位置情報nの値と、文識別子sの値とを、それぞれ、辞書44bの「表記」、「読み情報」、「位置情報」、「文識別子」の各項目に登録する。なお、格納部45dは、新たに生成された単語列中の単語に、句点「。」が含まれる場合や、空欄がある場合には、単語列と読み情報と位置情報nの値とを辞書14bへ登録する処理を省略できる。これは、単語列中の単語に、句点「。」が含まれる場合や、空欄がある場合には、その単語列は、音声を認識する際の音声との比較対象として不適切であるという理由による。したがって、格納部45dによれば、辞書14bを生成する速度が速くなる。また、格納部45dによれば、より少ない情報量の辞書14bを生成することができる。
以上説明したように、生成部45cおよび格納部45dなどによって、辞書44bが生成される。例えば、テキストファイル14aが示す文章が「決勝に海山学院が進出。山川総理が法案を通したいと言及」である場合には、図8の例に示すような辞書14bが生成される。図8の例では、最大結合数Nの値は3である。格納部15cは、総単語数M×最大結合数N−Σn(n=1、2、・・・、N−1)の個数程度のレコードを辞書44bに登録するため、少ない情報量の辞書44bを生成することができる。
また、格納部45dは、後述の認識装置50から辞書14bの送信要求を受信すると、記憶部14から辞書44bを読み込み、辞書44bを通信部13に送信する。辞書44bを受信した通信部13は、辞書44bをインターネット30を介して、後述の認識装置50へ送信する。
制御部45は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路、または、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路である。
[認識装置50の機能構成]
図9は、実施例2に係る認識装置の構成の一例を示す図である。図9に示すように、認識装置50は、記憶部24および制御部55を有する。かかる制御部55は、図4に示す実施例1に係る制御部25と比較して、照合部56の第二の算出部56bを有する点が異なる。また、記憶部24は、実施例1に係る記憶部24と比較して、辞書44bを記憶する点が異なる。なお、以下では、上記の実施例1と同様の機能を果たす各部については図4と同様の符号を付し、その説明は省略することとする。
辞書44bは、第一の算出部26aにより記憶部24に格納される。
第二の算出部56bは、実施例1の第二の算出部26bとほぼ同様の機能を有するが、下記の点で、第二の算出部26bと異なる。第二の算出部56bは、辞書44bを参照し、文識別子が同一の読み情報間でのみ、実施例1と同様に、昇順であるか否かの判定を行う。また、第二の算出部56bは、位置情報が示す値が昇順であると判定された組み合わせについて、次のような処理を行う。すなわち、組み合わせされた読み情報のうち、結合された2つの読み情報、すなわち隣接する読み情報について、先頭に近いほうの読み情報に対応する位置情報が示す値を変数xに代入し、先頭から遠い方の読み情報に対応する位置情報が示す値を変数yに代入する。そして、第二の算出部56bは、下記の式(3)、式(4)に基づいて、X、Yを算出する。
X=(x/N)+1 式(3)
Y=(y/N)−(y%N) 式(4)
ただし、Nは、上述した最大結合数である。また、「/」は、小数点以下を切り捨てて商を整数とするための除算演算を意味する。また、「%」は、剰余演算を意味する。
なお、XとYとを比較し、接続スコアを算出する方法は、実施例1と同様である。
このように、第二の算出部56bによれば、同一の文内でのみ、接続スコアを算出する。したがって、内容が異なる文をまたがった場合などに接続スコアが算出されないので、より精度良く音声を認識することができる。
制御部55は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路、または、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路である。
[処理の流れ]
次に、本実施例に係る生成装置40の処理の流れを説明する。図10は、実施例2に係る生成処理の手順を示すフローチャートである。この生成処理は、入力部11から制御部45に生成処理を実行する指示が入力された場合に実行される。
図10に示すように、分割部15bは、テキストファイル14aが示す文章を単語ごとに分割する(S301)。生成部45cは、位置情報nの値を0、変数iの値を1、変数jの値を0、変数sの値を10に設定する(S302)。生成部45cは、(i−j)番目の単語からi番目の単語までの単語列を生成する(S303)。
格納部45dは、新たに生成された単語列と、新たに生成された単語列に対応する読み情報と、位置情報nの値と、文識別子sとを、それぞれ、辞書44bの「表記」、「読み情報」、「位置情報」、「文識別子」の各項目に登録する(S304)。生成部45cは、変数jの値を1つインクリメントし、変数nの値を1つインクリメントする(S305)。生成部45cは、変数jの値が、単語列に結合する単語の数の最大値である最大結合数Nよりも小さいか否かを判定する(S306)。小さい場合(S306肯定)には、S303へ戻る。
一方、変数jの値が、最大結合数N以上である場合(S306否定)には、生成部45cは、i番目の単語が文の区切りを示す記号、例えば、句点「。」であるか否かを判定する(S307)。i番目の単語が文の区切りを示す記号である場合(S307肯定)には、生成部45cは、変数sの値を1つインクリメントする(S308)。生成部45cは、変数iの値を1つインクリメントし、変数jの値を0に設定する(S309)。生成部45cは、変数iの値が、分割部15bにより得られた単語の総数である総単語数M以下であるか否かを判定する(S310)。変数iの値が総単語数M以下である場合(S310肯定)には、S303へ戻る。一方、変数iの値が総単語数Mより大きい場合(S310否定)には、処理を終了する。また、i番目の単語が文の区切りを示す記号でない場合(S307否定)には、S309へ進む。
次に、本実施例に係る認識装置50の処理の流れを説明する。図11は、実施例2に係る認識処理の手順を示すフローチャートである。この認識処理は、操作受付部(図示せず)から制御部55に認識処理を実行する指示が入力された場合に実行される。
図11に示すS401〜S408、S410〜S413は、上述したS201〜S208、S210〜S213と同様の処理であるため説明を省略する。図11に示すように、第二の算出部56bは、辞書44bを参照し、文識別子が同一の読み情報間でのみ、接続スコアを算出する(S409)。
[実施例2の効果]
上述してきたように、認識装置50は、入力された音声信号と、辞書44bに登録された読み情報の複数の組み合わせに対応する音響モデルの複数の組み合わせのそれぞれとを比較し、類似度を音響モデルの組み合わせごとに算出する。また、認識装置50は、類似度を算出する際に組み合わされた読み情報に対応する単語または文字列の位置情報に基づいて、次のような処理を行う。すなわち、認識装置50は、組み合わされた複数の読み情報のそれぞれに対応する単語または文字列について、単語間または文字列間もしくは単語と文字列間の文章中の位置の近さを示す接続スコアを読み情報の組み合わせごとに算出する。そして、認識装置50は、複数の算出された和のうち、閾値を超え、かつ、最も値が大きい和に対応する文字列を、音声信号に対応する文字列として決定する。認識装置50によれば、文章に含まれる複数の単語であって、文章内で隣接しない複数の単語を接続した文字列を発話者が発話して、音声信号として入力された場合であっても、発話者が発話した音声を認識することができる。したがって、認識装置50によれば、精度良く音声の認識を行うことができる。
また、生成装置40は、認識装置50で精度良く音声の認識を行うことができる辞書44bを生成することができる。
また、生成装置40は、総単語数M×最大結合数N−Σn(n=1、2、・・・、N−1)の個数程度のレコードを辞書44bに登録するため、少ない情報量の辞書44bを生成することができる。
また、認識装置50によれば、同一の文内でのみ、接続スコアを算出する。したがって、内容が異なる文をまたがった場合などに接続スコアが算出されないので、より精度良く音声を認識することができる。
実施例3では、さらに、予め定められたオートマトンなどを用いて、接続スコアを補正する場合について説明する。
[認識装置60の機能構成]
図12は、実施例3に係る認識装置の構成の一例を示す図である。図12に示すように、認識装置60は、記憶部24および制御部65を有する。かかる制御部65は、図4に示す実施例1に係る制御部25と比較して、照合部66の第二の算出部66bを有する点が異なる。また、記憶部24は、辞書64bを記憶するが、かかる辞書64bは、実施例1に係る辞書14bまたは実施例2に係る辞書44bと同一である。また、記憶部24は、言語モデル64c、単語辞書64dを記憶する。なお、以下では、上記の実施例1、2と同様の機能を果たす各部については図4、図9と同様の符号を付し、その説明は省略することとする。
辞書64bは、第一の算出部26aにより記憶部24に格納される。
図13は、言語モデルの一例を示す図である。図13の例では、言語モデル64cは、例えば、オートマトンである。図13の例は、ある単語または文字列に、「に関する」、「に関連する」、「についての」の文字列が付加される場合に、状態1から状態2へと遷移することを示す。また、図13の例は、状態2の状態において、「に関する」、「に関連する」、「についての」の文字列に、「ニュース」、「解説」、「ブログ」、「話題」の単語が付加される場合に、状態2から最終状態へと遷移することを示す。また、図13の例は、ある単語に「を検索」、「のニュース」の文字列が付加される場合に、状態1から最終状態へと遷移することを示す。
図14は、単語辞書の一例を示す図である。図14の例では、単語辞書64dは、「表記」の項目と、「読み情報」の項目とを有する。図14の例の単語辞書64dには、単語モデル64cが示す各状態を遷移する場合の単語または文字列の表記、および、読み情報が対応付けて登録されている。
第二の算出部66bは、実施例1の第二の算出部26bまたは実施例2の第二の算出部56bの機能を有するが、下記の点で、第二の算出部26b、56bと異なる。すなわち、第二の算出部66bは、実施例1または実施例2と同様に、接続スコアを算出するが、かかる接続スコアを、言語モデル64cおよび単語辞書64dに基づいて補正する点が、実施例1および実施例2と異なる。
例えば、組み合わされた読み情報「けっしょうにうみやまがくいんがしんしゅつ」(表記:決勝に海山学院が進出)について、接続スコアSが算出された場合を想定する。この場合、第二の算出部66bは、言語モデル64cおよび単語辞書64dを参照し、組み合わされた読み情報に対応する状態が、「状態1」であるため、接続スコアSについては補正を行わない。
また、例えば、組み合わされた読み情報「けっしょうにうみやまがくいんがしんしゅつのニュース」(表記:決勝に海山学院が進出のニュース)について、接続スコアQが算出された場合を想定する。この場合、第二の算出部66bは、接続スコアQでなく、最終状態に遷移する前の状態1に対応する読み情報「けっしょうにうみやまがくいんがしんしゅつ」について算出された接続スコアSを補正する。例えば、第二の算出部66bは、言語モデル64cおよび単語辞書64dを参照し、組み合わされた読み情報に対応する状態が、「状態1」から「最終状態」へと遷移したため、接続スコアSに所定値を加算して接続スコアを補正する。なお、接続スコアSに、所定値、例えば、100%を示す値を乗算して、接続スコアを補正することもできる。
また、例えば、組み合わされた読み情報「やまかわそうりがとおしたいほうあん」(表記:山川総理が通したい法案)について、接続スコアS´が算出された場合を想定する。この場合、第二の算出部66bは、言語モデル64cおよび単語辞書64dを参照し、組み合わされた読み情報に対応する状態が、「状態1」であるため、接続スコアS´については補正を行わない。
また、例えば、組み合わされた読み情報「やまかわそうりがとおしたいほうあんについてのブログ」(表記:山川総理が通したい法案についてのブログ)について、接続スコアQ´が算出された場合を想定する。この場合、第二の算出部66bは、接続スコアQ´でなく、状態1から状態2、状態2から最終状態に遷移する前の状態1に対応する読み情報「やまかわそうりがとおしたいほうあん」について算出された接続スコアS´を補正する。例えば、第二の算出部66bは、言語モデル64cおよび単語辞書64dを参照し、組み合わされた読み情報に対応する状態が、「状態1」から「状態2」、「状態2」から「最終状態」へと遷移したため、接続スコアS´に所定値を2回加算して接続スコアを補正する。なお、接続スコアSに、所定値、例えば、100%を示す値を2回乗算して、接続スコアを補正することもできる。
制御部65は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路、または、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路である。
[処理の流れ]
次に、本実施例に係る認識装置60の処理の流れを説明する。図15は、実施例3に係る認識処理の手順を示すフローチャートである。この認識処理は、操作受付部(図示せず)から制御部65に認識処理を実行する指示が入力された場合に実行される。
図15に示すS501〜S509、S511〜S514は、上述したS401〜S413、または、S201〜S213と同様の処理であるため説明を省略する。図15に示すように、第二の算出部66bは、言語モデル64cおよび単語辞書64dを参照し、状態が遷移した場合には、状態1の場合に算出された接続スコアを補正する(S510)。
[実施例3の効果]
上述してきたように、認識装置60は、入力された音声信号と、辞書64bに登録された読み情報の複数の組み合わせに対応する音響モデルの複数の組み合わせのそれぞれとを比較し、類似度を音響モデルの組み合わせごとに算出する。また、認識装置60は、類似度を算出する際に組み合わされた読み情報に対応する単語または文字列の位置情報に基づいて、次のような処理を行う。すなわち、認識装置60は、組み合わされた複数の読み情報のそれぞれに対応する単語または文字列について、単語間または文字列間もしくは単語と文字列間の文章中の位置の近さを示す接続スコアを読み情報の組み合わせごとに算出する。そして、認識装置60は、複数の算出された和のうち、閾値を超え、かつ、最も値が大きい和に対応する文字列を、音声信号に対応する文字列として決定する。認識装置60によれば、文章に含まれる複数の単語であって、文章内で隣接しない複数の単語を接続した文字列を発話者が発話して、音声信号として入力された場合であっても、発話者が発話した音声を認識することができる。したがって、認識装置60によれば、精度良く音声の認識を行うことができる。
また、本実施例にかかる生成装置は、認識装置60で精度良く音声の認識を行うことができる辞書64bを生成することができる。
また、本実施例にかかる生成装置は、総単語数M×最大結合数N−Σn(n=1、2、・・・、N−1)の個数程度のレコードを辞書64bに登録するため、少ない情報量の辞書64bを生成することができる。
また、認識装置60によれば、同一の文内でのみ、接続スコアを算出する。したがって、内容が異なる文をまたがった場合などに接続スコアが算出されないので、より精度良く音声を認識することができる。
また、認識装置60によれば、オートマトンなどの言語モデルを用いて接続スコアを補正するため、特定の発話パターンを言語モデルに登録することで、特定の発話パターンの認識率を向上させることができる。
実施例4では、さらに、読み情報(読み情報に対応する単語または文字列)の組み合わせにおいて、隣接する2つの読み情報の接続部分の2つの品詞の接続の適否を示す情報を用いて、接続スコアを補正する場合について説明する。
[生成装置70の機能構成]
図16は、実施例4に係る生成装置の機能構成の一例を示す図である。図16に示すように、生成装置70は、記憶部14および制御部75を有する。かかる制御部75は、図2に示す実施例1に係る制御部15と比較して、生成部75cおよび格納部75dを有する点が異なる。また、記憶部14は、実施例1に係る記憶部14と比較して、辞書74bおよび品詞番号表74cを記憶する点が異なる。なお、以下では、上記の実施例1、2、3と同様の機能を果たす各部については図2、図7と同様の符号を付し、その説明は省略することとする。
辞書74bは、後述する生成部75cにより生成され、後述する格納部75dにより記憶部14に格納される。
図17は、品詞番号表の一例を示す図である。図17の例では、品詞番号表74cは、先頭の単語の品詞が名詞類で、末尾の単語の品詞が名詞類である場合には、品詞番号が「1」である場合が示されている。
図18は、辞書の一例を示す図である。図18の例では、辞書74bは、実施例1と同様の「表記」の項目、「読み情報」の項目、「位置情報」の項目に加え、「品詞番号」の項目を有する。「品詞番号」の項目には、「表記」の項目に登録された単語または単語列の先頭の単語の品詞と、末尾の単語の品詞との組み合わせを示す番号である品詞番号が登録される。かかる品詞番号は、後述の生成部75cによって品詞番号表74cから取得され、後述の格納部75dによって、辞書74bに登録される。
生成部75cは、分割された単語または生成した単語列について、先頭の単語の品詞と、末尾の単語の品詞との組み合わせを示す品詞番号を、品詞番号表74cを参照して取得する。
格納部75dは、実施例1〜3のいずれかの格納部の機能に加え、下記の機能を有する。すなわち、格納部75dは、生成部75cによって取得された品詞番号を辞書74bの「品詞番号」の項目に登録する。
制御部75は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路、または、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路である。
[認識装置80の機能構成]
図19は、実施例4に係る認識装置の構成の一例を示す図である。図19に示すように、認識装置80は、記憶部24および制御部85を有する。かかる制御部85は、図4に示す実施例1に係る制御部25と比較して、照合部86の第二の算出部86bを有する点が異なる。また、記憶部24は、実施例1に係る記憶部24と比較して、辞書74bと、確率表84aを記憶する点が異なる。なお、以下では、上記の実施例1〜3と同様の機能を果たす各部については図4、図9、図12と同様の符号を付し、その説明は省略することとする。
辞書74bは、第一の算出部26aにより記憶部24に格納される。
図20は、確率表の一例を示す図である。図20の例の確率表84aでは、縦軸が、2つの単語または文字列もしくは単語と文字列との組み合わせのうち、前の単語または文字列の品詞番号を示す。また、図20の例の確率表84aでは、横軸が、2つの単語または文字列もしくは単語と文字列との組み合わせのうち、後ろの単語または文字列の品詞番号を示す。図20の例の確率表84aには、前の単語の品詞番号が1であり、後ろの単語の品詞番号が1である場合には、100%の確率が登録されている。
第二の算出部86bは、実施例1〜3のいずれかの第二の算出部とほぼ同様の機能を有するが、下記の点で、実施例1〜3のいずれの第二の算出部とも異なる。すなわち、第二の算出部86bは、まず、組み合わせされた隣接する単語または文字列を特定する。そして、第二の算出部86bは、確率表84aを参照し、特定された隣接する単語または文字列もしくは単語と文字列の2つの品詞番号から、品詞の組み合わせの適否を示す値、例えば、2つの単語または文字列もしくは単語と文字列が接続される確率を取得する。そして、第二の算出部86bは、取得した確率と、対応する組み合わせの接続スコアとを乗算して、接続スコアを補正する。
制御部85は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路、または、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路である。
[処理の流れ]
次に、本実施例に係る生成装置70の処理の流れを説明する。図21は、実施例4に係る生成処理の手順を示すフローチャートである。この生成処理は、入力部11から制御部75に生成処理を実行する指示が入力された場合に実行される。
図21に示すS601〜S603、S605〜S608の処理は、上述したS101〜S103、S105〜S108の処理と同様であるので、説明を省略する。図21に示すように、格納部75dは、実施例1〜3の格納部の機能に加えて、品詞番号を辞書74bに登録する(S604)。
次に、本実施例に係る認識装置80の処理の流れを説明する。図22は、実施例4に係る認識処理の手順を示すフローチャートである。この認識処理は、操作受付部(図示せず)から制御部85に認識処理を実行する指示が入力された場合に実行される。
図22に示すS701〜S709、S711〜S714は、上述したS501〜S509、S511〜S514と同様の処理であるため説明を省略する。図22に示すように、第二の算出部86bは、確率表84aを参照し、品詞番号を用いて、接続スコアを補正する(S710)。
[実施例4の効果]
上述してきたように、認識装置80は、入力された音声信号と、辞書74bに登録された読み情報の複数の組み合わせに対応する音響モデルの複数の組み合わせのそれぞれとを比較し、類似度を音響モデルの組み合わせごとに算出する。また、認識装置80は、類似度を算出する際に組み合わされた読み情報に対応する単語または文字列の位置情報に基づいて、次のような処理を行う。すなわち、認識装置80は、組み合わされた複数の読み情報のそれぞれに対応する単語または文字列について、単語間または文字列間もしくは単語と文字列間の文章中の位置の近さを示す接続スコアを読み情報の組み合わせごとに算出する。そして、認識装置80は、複数の算出された和のうち、閾値を超え、かつ、最も値が大きい和に対応する文字列を、音声信号に対応する文字列として決定する。認識装置80によれば、文章に含まれる複数の単語であって、文章内で隣接しない複数の単語を接続した文字列を発話者が発話して、音声信号として入力された場合であっても、発話者が発話した音声を認識することができる。したがって、認識装置80によれば、精度良く音声の認識を行うことができる。
また、生成装置70は、認識装置80で精度良く音声の認識を行うことができる辞書74bを生成することができる。
また、生成装置70は、総単語数M×最大結合数N−Σn(n=1、2、・・・、N−1)の個数程度のレコードを辞書74bに登録するため、少ない情報量の辞書74bを生成することができる。
また、認識装置80によれば、同一の文内でのみ、接続スコアを算出する。したがって、内容が異なる文をまたがった場合などに接続スコアが算出されないので、より精度良く音声を認識することができる。
また、認識装置80によれば、品詞の適否を加味された接続スコアに基づいて、音声信号に対応する文字列が決定されるので、より精度の高い音声の認識を行うことができる。
さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。
また、各実施例において説明した処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともできる。また、各実施例において説明した処理のうち、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
また、各種の負荷や使用状況などに応じて、各実施例において説明した各処理の各ステップでの処理を任意に細かくわけたり、あるいはまとめたりすることができる。また、ステップを省略することもできる。
また、各種の負荷や使用状況などに応じて、各実施例において説明した各処理の各ステップでの処理の順番を変更できる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的状態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
[生成プログラム]
また、上記の各実施例で説明した生成装置の各種の処理は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することもできる。そこで、以下では、図23を用いて、上記の実施例で説明した生成装置と同様の機能を有する生成プログラムを実行するコンピュータの一例を説明する。図23は、生成プログラムを実行するコンピュータを示す図である。
図23に示すように、コンピュータ300は、CPU(Central Processing Unit)310、ROM(Read Only Memory)320、HDD(Hard Disk Drive)330、RAM(Random Access Memory)340を有する。これら310〜340の各部は、バス350を介して接続される。
ROM320には、OS(Operating System)などのプログラムが記憶される。
HDD330には、上記のいずれかの実施例で示す生成装置の分割部、生成部、格納部と同様の機能を発揮する生成プログラム330aが予め記憶される。なお、生成プログラム330aについては、適宜分離しても良い。
そして、CPU310が、生成プログラム330aをHDD330から読み出して実行する。
また、HDD330には、上記のいずれかの実施例の記憶部に記憶された情報、例えば、テキストファイル、辞書、品詞番号表などが設けられる。
そして、CPU310は、テキストファイル、辞書、品詞番号表などを読み出してRAM340に格納する。さらに、CPU310は、RAM340に格納された各種情報を用いて、生成プログラムを実行する。なお、RAM340に格納される各データは、常に全てのデータがRAM340に格納される必要はなく、処理に必要なデータのみがRAM340に格納されれば良い。
なお、上記した生成プログラムについては、必ずしも最初からHDD330に記憶させておく必要はない。
例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」にプログラムを記憶させておく。そして、コンピュータ300がこれらからプログラムを読み出して実行するようにしてもよい。
さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータ300に接続される「他のコンピュータ(またはサーバ)」などにプログラムを記憶させておく。そして、コンピュータ300がこれらからプログラムを読み出して実行するようにしてもよい。
[認識プログラム]
また、上記の各実施例で説明した認識装置の各種の処理は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することもできる。そこで、以下では、図24を用いて、上記の実施例で説明した認識装置と同様の機能を有する認識プログラムを実行するコンピュータの一例を説明する。図24は、認識プログラムを実行するコンピュータを示す図である。
図24に示すように、コンピュータ400は、CPU410、ROM420、HDD430、RAM440を有する。これら410〜440の各部は、バス450を介して接続される。
ROM420には、OSなどのプログラムが記憶される。
HDD430には、上記のいずれかの実施例で示す認識装置の第一の算出部、第二の算出部、決定部、出力部と同様の機能を発揮する認識プログラム330aが予め記憶される。なお、認識プログラム430aについては、適宜分離しても良い。
そして、CPU410が、認識プログラム430aをHDD430から読み出して実行する。
また、HDD430には、上記のいずれかの実施例の記憶部に記憶された情報、例えば、辞書、言語モデル、単語辞書、確率表などが設けられる。
そして、CPU410は、辞書、言語モデル、単語辞書、確率表などを読み出してRAM440に格納する。さらに、CPU410は、RAM440に格納された各種情報を用いて、認識プログラムを実行する。なお、RAM440に格納される各データは、常に全てのデータがRAM440に格納される必要はなく、処理に必要なデータのみがRAM440に格納されれば良い。
なお、上記した認識プログラムについては、必ずしも最初からHDD430に記憶させておく必要はない。
例えば、コンピュータ400に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」にプログラムを記憶させておく。そして、コンピュータ400がこれらからプログラムを読み出して実行するようにしてもよい。
さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータ400に接続される「他のコンピュータ(またはサーバ)」などにプログラムを記憶させておく。そして、コンピュータ300がこれらからプログラムを読み出して実行するようにしてもよい。
14b 辞書
20 認識装置
24 記憶部
25 制御部
26 照合部
26a 第一の算出部
26b 第二の算出部
26c 決定部

Claims (7)

  1. 文章に含まれる単語と該単語の文章内の位置を示す位置情報とを記憶する記憶部と、
    入力された音声信号と、前記記憶部に記憶された複数の単語を接続した文字列の読み情報とを比較して、類似度を算出する第一の算出部と、
    前記記憶部に記憶された各単語の位置情報に基づいて、接続した複数の単語間の近さを示す接続スコアを算出する第二の算出部と、
    前記類似度および前記接続スコアに基づいて、前記音声信号に対応する文字列を決定する決定部と
    を有し、
    前記第二の算出部は、2つの単語が接続された文字列の先頭側の第一の単語と末尾側の第二の単語において、
    前記第一の単語が前記第二の単語よりも文章中で先頭側に位置し、かつ、前記第一の単語と前記第二の単語とが文章中で隣接している場合に、第一の値を前記接続スコアとして算出し、
    前記第一の単語が前記第二の単語よりも文章中で末尾側に位置している場合に、前記第一の値よりも低い第二の値を前記接続スコアとして算出し、
    前記第一の単語が前記第二の単語よりも文章中で先頭側に位置し、かつ、前記第一の単語と前記第二の単語とが文章中で隣接していない場合に、前記第一の値と前記第二の値の間の値であって、前記第一の単語と前記第二の単語とが文章中で近い位置にあるほど高い値となる第三の値を接続スコアとして算出することを特徴とする認識装置。
  2. 前記記憶部は、さらに、複数の単語が結合された単語列と該単語列の文章内の位置を示す位置情報とを記憶し、
    前記第一の算出部は、さらに、前記単語列を単語として、前記類似度を算出し、
    前記第二の算出部は、さらに、前記単語列を単語として、前記接続スコアを算出する
    ことを特徴とする請求項1に記載の認識装置。
  3. 前記記憶部は、さらに、前記文章に含まれる文に対応させて該文を識別するための識別情報を記憶し、
    前記第二の算出部は、前記記憶部に記憶された各単語の位置情報および識別情報に基づいて、文ごとに、接続した複数の単語間の近さを示す接続スコアを算出する
    ことを特徴とする請求項1または2に記載の認識装置。
  4. 前記記憶部は、さらに、第一の単語に第二の単語が接続される可能性を示す情報を記憶し、
    前記第二の算出部は、さらに、前記記憶部に記憶された第一の単語に第二の単語が接続される可能性を示す情報に基づいて、前記接続スコアを補正する
    ことを特徴とする請求項1、2、3のいずれか一つに記載の認識装置。
  5. 前記記憶部は、さらに、接続される複数の単語のそれぞれの品詞の組み合わせの適否にかかる情報を記憶し、
    前記第二の算出部は、さらに、前記記憶部に記憶された接続される複数の単語のそれぞれの品詞の組み合わせの適否にかかる情報に基づいて、前記接続スコアを補正する
    ことを特徴とする請求項1〜4のいずれか一つに記載の認識装置。
  6. コンピュータに、
    入力された音声信号と、文章に含まれる単語と該単語の文章内の位置を示す位置情報とを記憶する記憶部に記憶された複数の単語を接続した文字列の読み情報とを比較して、類似度を算出し、
    前記記憶部に記憶された各単語の位置情報に基づいて、接続した複数の単語間の近さを示す接続スコアを算出し、
    前記類似度および前記接続スコアに基づいて、前記音声信号に対応する文字列を決定する
    各処理を実行させ
    前記接続スコアを算出する処理は、2つの単語が接続された文字列の先頭側の第一の単語と末尾側の第二の単語において、
    前記第一の単語が前記第二の単語よりも文章中で先頭側に位置し、かつ、前記第一の単語と前記第二の単語とが文章中で隣接している場合に、第一の値を前記接続スコアとして算出し、
    前記第一の単語が前記第二の単語よりも文章中で末尾側に位置している場合に、前記第一の値よりも低い第二の値を前記接続スコアとして算出し、
    前記第一の単語が前記第二の単語よりも文章中で先頭側に位置し、かつ、前記第一の単語と前記第二の単語とが文章中で隣接していない場合に、前記第一の値と前記第二の値の間の値であって、前記第一の単語と前記第二の単語とが文章中で近い位置にあるほど高い値となる第三の値を接続スコアとして算出することを特徴とする認識プログラム。
  7. コンピュータが、
    入力された音声信号と、文章に含まれる単語と該単語の文章内の位置を示す位置情報とを記憶する記憶部に記憶された複数の単語を接続した文字列の読み情報とを比較して、類似度を算出し、
    前記記憶部に記憶された各単語の位置情報に基づいて、接続した複数の単語間の近さを示す接続スコアを算出し、
    前記類似度および前記接続スコアに基づいて、前記音声信号に対応する文字列を決定する
    処理を実行し、
    前記接続スコアを算出する処理は、2つの単語が接続された文字列の先頭側の第一の単語と末尾側の第二の単語において、
    前記第一の単語が前記第二の単語よりも文章中で先頭側に位置し、かつ、前記第一の単語と前記第二の単語とが文章中で隣接している場合に、第一の値を前記接続スコアとして算出し、
    前記第一の単語が前記第二の単語よりも文章中で末尾側に位置している場合に、前記第一の値よりも低い第二の値を前記接続スコアとして算出し、
    前記第一の単語が前記第二の単語よりも文章中で先頭側に位置し、かつ、前記第一の単語と前記第二の単語とが文章中で隣接していない場合に、前記第一の値と前記第二の値の間の値であって、前記第一の単語と前記第二の単語とが文章中で近い位置にあるほど高い値となる第三の値を接続スコアとして算出することを特徴とする認識方法。
JP2011225344A 2011-10-12 2011-10-12 認識装置、認識プログラムおよび認識方法 Active JP5799733B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011225344A JP5799733B2 (ja) 2011-10-12 2011-10-12 認識装置、認識プログラムおよび認識方法
US13/586,533 US9082404B2 (en) 2011-10-12 2012-08-15 Recognizing device, computer-readable recording medium, recognizing method, generating device, and generating method
CN201210313705XA CN103050115A (zh) 2011-10-12 2012-08-29 识别装置、识别方法、生成装置和生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011225344A JP5799733B2 (ja) 2011-10-12 2011-10-12 認識装置、認識プログラムおよび認識方法

Publications (2)

Publication Number Publication Date
JP2013083897A JP2013083897A (ja) 2013-05-09
JP5799733B2 true JP5799733B2 (ja) 2015-10-28

Family

ID=48062731

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011225344A Active JP5799733B2 (ja) 2011-10-12 2011-10-12 認識装置、認識プログラムおよび認識方法

Country Status (3)

Country Link
US (1) US9082404B2 (ja)
JP (1) JP5799733B2 (ja)
CN (1) CN103050115A (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9747900B2 (en) 2013-05-24 2017-08-29 Google Technology Holdings LLC Method and apparatus for using image data to aid voice recognition
KR101574856B1 (ko) * 2013-11-11 2015-12-04 주식회사 엠. 피. 씨 음성 관련 정보 제공 장치 및 방법과 이를 수행하는 프로그램을 저장하는 저장 매체
US9472186B1 (en) * 2014-01-28 2016-10-18 Nvoq Incorporated Automated training of a user audio profile using transcribed medical record recordings
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
JP2017004127A (ja) * 2015-06-05 2017-01-05 富士通株式会社 テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法
CN107305575B (zh) * 2016-04-25 2021-01-26 北京京东尚科信息技术有限公司 人机智能问答系统的断句识别方法和装置
CN106445915B (zh) * 2016-09-14 2020-04-28 安徽科大讯飞医疗信息技术有限公司 一种新词发现方法及装置
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words
CN112100381B (zh) * 2020-09-22 2022-05-17 福建天晴在线互动科技有限公司 一种文本相似度进行量化的方法及其系统

Family Cites Families (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19501599C1 (de) * 1995-01-20 1996-05-02 Daimler Benz Ag Verfahren zur Spracherkennung
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
JP3875357B2 (ja) * 1996-08-02 2007-01-31 富士通株式会社 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability
US6961700B2 (en) * 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
GB2302199B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
JP4267101B2 (ja) * 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
US6223158B1 (en) * 1998-02-04 2001-04-24 At&T Corporation Statistical option generator for alpha-numeric pre-database speech recognition correction
JP3930138B2 (ja) * 1998-02-27 2007-06-13 株式会社東芝 情報解析方法および情報解析プログラムを記憶した媒体
DE19821422A1 (de) * 1998-05-13 1999-11-18 Philips Patentverwaltung Verfahren zum Darstellen von aus einem Sprachsignal ermittelten Wörtern
JP3004254B2 (ja) * 1998-06-12 2000-01-31 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
US6721697B1 (en) * 1999-10-18 2004-04-13 Sony Corporation Method and system for reducing lexical ambiguity
US6542867B1 (en) * 2000-03-28 2003-04-01 Matsushita Electric Industrial Co., Ltd. Speech duration processing method and apparatus for Chinese text-to-speech system
US7280964B2 (en) * 2000-04-21 2007-10-09 Lessac Technologies, Inc. Method of recognizing spoken language with recognition of language color
JP2001343994A (ja) * 2000-06-01 2001-12-14 Nippon Hoso Kyokai <Nhk> 音声認識誤り検出装置および記憶媒体
US7003456B2 (en) * 2000-06-12 2006-02-21 Scansoft, Inc. Methods and systems of routing utterances based on confidence estimates
JP3639776B2 (ja) 2000-07-28 2005-04-20 シャープ株式会社 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
CN1193342C (zh) * 2000-09-08 2005-03-16 皇家菲利浦电子有限公司 具有替换命令的语音识别方法
US7043422B2 (en) * 2000-10-13 2006-05-09 Microsoft Corporation Method and apparatus for distribution-based language model adaptation
US20020087309A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented speech expectation-based probability method and system
JP3961780B2 (ja) 2001-05-15 2007-08-22 三菱電機株式会社 言語モデル学習装置およびそれを用いた音声認識装置
US6934675B2 (en) * 2001-06-14 2005-08-23 Stephen C. Glinski Methods and systems for enabling speech-based internet searches
US6999931B2 (en) * 2002-02-01 2006-02-14 Intel Corporation Spoken dialog system using a best-fit language model and best-fit grammar
WO2003067471A1 (fr) * 2002-02-04 2003-08-14 Celestar Lexico-Sciences, Inc. Appareil et procede permettant de traiter des connaissances dans des documents
US20030149562A1 (en) * 2002-02-07 2003-08-07 Markus Walther Context-aware linear time tokenizer
US7143035B2 (en) * 2002-03-27 2006-11-28 International Business Machines Corporation Methods and apparatus for generating dialog state conditioned language models
US20030204399A1 (en) * 2002-04-25 2003-10-30 Wolf Peter P. Key word and key phrase based speech recognizer for information retrieval systems
US7299180B2 (en) * 2002-12-10 2007-11-20 International Business Machines Corporation Name entity extraction using language models
WO2004075168A1 (ja) * 2003-02-19 2004-09-02 Matsushita Electric Industrial Co., Ltd. 音声認識装置及び音声認識方法
JP4224333B2 (ja) * 2003-03-31 2009-02-12 富士通株式会社 音声認識装置及び方法
DE60316912T2 (de) * 2003-04-29 2008-07-31 Sony Deutschland Gmbh Verfahren zur Spracherkennung
US7289956B2 (en) * 2003-05-27 2007-10-30 Microsoft Corporation System and method for user modeling to enhance named entity recognition
JP4040573B2 (ja) * 2003-12-12 2008-01-30 キヤノン株式会社 音声認識装置および方法
US7542907B2 (en) * 2003-12-19 2009-06-02 International Business Machines Corporation Biasing a speech recognizer based on prompt context
EP1704558B8 (en) * 2004-01-16 2011-09-21 Nuance Communications, Inc. Corpus-based speech synthesis based on segment recombination
US7542971B2 (en) * 2004-02-02 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for collaborative note-taking
JP4236597B2 (ja) * 2004-02-16 2009-03-11 シャープ株式会社 音声認識装置、音声認識プログラムおよび記録媒体。
WO2005122143A1 (ja) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置および音声認識方法
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7848927B2 (en) * 2004-11-30 2010-12-07 Panasonic Corporation Speech recognition device and method of recognizing speech using a language model
JPWO2006115260A1 (ja) * 2005-04-25 2008-12-18 株式会社アイ・ピー・ビー 情報解析報告書自動作成装置、情報解析報告書自動作成プログラムおよび情報解析報告書自動作成方法
JP4542974B2 (ja) * 2005-09-27 2010-09-15 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US20070078653A1 (en) * 2005-10-03 2007-04-05 Nokia Corporation Language model compression
KR100679051B1 (ko) * 2005-12-14 2007-02-05 삼성전자주식회사 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법
JP5212910B2 (ja) * 2006-07-07 2013-06-19 日本電気株式会社 音声認識装置、音声認識方法、および音声認識用プログラム
US8214210B1 (en) * 2006-09-19 2012-07-03 Oracle America, Inc. Lattice-based querying
JP4393494B2 (ja) * 2006-09-22 2010-01-06 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
US8396878B2 (en) * 2006-09-22 2013-03-12 Limelight Networks, Inc. Methods and systems for generating automated tags for video files
US7912700B2 (en) * 2007-02-08 2011-03-22 Microsoft Corporation Context based word prediction
US8620658B2 (en) * 2007-04-16 2013-12-31 Sony Corporation Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition
JP4412504B2 (ja) * 2007-04-17 2010-02-10 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識用プログラム
US8886521B2 (en) * 2007-05-17 2014-11-11 Redstart Systems, Inc. System and method of dictation for a speech recognition command system
WO2009019830A1 (ja) * 2007-08-03 2009-02-12 Panasonic Corporation 関連語提示装置
JP4887264B2 (ja) * 2007-11-21 2012-02-29 株式会社日立製作所 音声データ検索システム
WO2009081861A1 (ja) * 2007-12-21 2009-07-02 Nec Corporation 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US20090198488A1 (en) * 2008-02-05 2009-08-06 Eric Arno Vigen System and method for analyzing communications using multi-placement hierarchical structures
JP4674609B2 (ja) * 2008-02-18 2011-04-20 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
US8145482B2 (en) * 2008-05-25 2012-03-27 Ezra Daya Enhancing analysis of test key phrases from acoustic sources with key phrase training models
JP5200712B2 (ja) * 2008-07-10 2013-06-05 富士通株式会社 音声認識装置、音声認識方法及びコンピュータプログラム
US8712774B2 (en) * 2009-03-30 2014-04-29 Nuance Communications, Inc. Systems and methods for generating a hybrid text string from two or more text strings generated by multiple automated speech recognition systems
US9424246B2 (en) * 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
US8229743B2 (en) * 2009-06-23 2012-07-24 Autonomy Corporation Ltd. Speech recognition system
US9892730B2 (en) * 2009-07-01 2018-02-13 Comcast Interactive Media, Llc Generating topic-specific language models
WO2011050494A1 (en) * 2009-10-29 2011-05-05 Google Inc. Generating input suggestions
JP5296029B2 (ja) * 2010-09-15 2013-09-25 株式会社東芝 文章提示装置、文章提示方法及びプログラム
CN102411563B (zh) * 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
US8838433B2 (en) * 2011-02-08 2014-09-16 Microsoft Corporation Selection of domain-adapted translation subcorpora
WO2013006215A1 (en) * 2011-07-01 2013-01-10 Nec Corporation Method and apparatus of confidence measure calculation
US8650031B1 (en) * 2011-07-31 2014-02-11 Nuance Communications, Inc. Accuracy improvement of spoken queries transcription using co-occurrence information
US20130339001A1 (en) * 2012-06-19 2013-12-19 Microsoft Corporation Spelling candidate generation
US8909526B2 (en) * 2012-07-09 2014-12-09 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results

Also Published As

Publication number Publication date
US20130096918A1 (en) 2013-04-18
CN103050115A (zh) 2013-04-17
US9082404B2 (en) 2015-07-14
JP2013083897A (ja) 2013-05-09

Similar Documents

Publication Publication Date Title
JP5799733B2 (ja) 認識装置、認識プログラムおよび認識方法
US10037758B2 (en) Device and method for understanding user intent
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
JP7092953B2 (ja) エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析
JP7295839B2 (ja) 音節に基づく自動音声認識
TWI698857B (zh) 語音辨識系統及其方法、與電腦程式產品
KR20100019596A (ko) 음성인식을 이용한 언어 번역 방법 및 장치
US10152298B1 (en) Confidence estimation based on frequency
TW201517018A (zh) 語音辨識方法及其電子裝置
WO2022105235A1 (zh) 一种信息识别方法、装置及存储介质
KR20120038198A (ko) 음성 인식 장치 및 방법
WO2014036827A1 (zh) 一种文本校正方法及用户设备
JP5073024B2 (ja) 音声対話装置
CN110335608A (zh) 声纹验证方法、装置、设备及存储介质
KR100930714B1 (ko) 음성인식 장치 및 방법
JP4820240B2 (ja) 単語分類装置及び音声認識装置及び単語分類プログラム
US20220310067A1 (en) Lookup-Table Recurrent Language Model
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP6276516B2 (ja) 辞書作成装置、及び辞書作成プログラム
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
Marinčič et al. Analysis of automatic stress assignment in Slovene
US20230186898A1 (en) Lattice Speech Corrections
JP2003022091A (ja) 音声認識方法および音声認識装置ならびに音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140603

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150320

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150728

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150810

R150 Certificate of patent (=grant) or registration of utility model

Ref document number: 5799733

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150