JP2016099501A

JP2016099501A - 音声認識装置、音声認識方法及び音声認識プログラム

Info

Publication number: JP2016099501A
Application number: JP2014236529A
Authority: JP
Inventors: 麻衣子井元; Maiko Imoto; 丈二中山; Joji Nakayama; 智広山田; Tomohiro Yamada; 滋藤村; Shigeru Fujimura; えりか足利; Erika Ashikaga
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-11-21
Filing date: 2014-11-21
Publication date: 2016-05-30
Anticipated expiration: 2034-11-21
Also published as: JP6363478B2

Abstract

【課題】より適切な音声認識結果を提示する。【解決手段】ユーザ情報格納部１１が、ユーザの利用するサービスからユーザの状況を示すユーザ情報を取得してユーザ情報ＤＢ１２に格納しておき、音声入力部１３がユーザの音声を入力したときに情報送信部１４が音声入力時刻に対応するユーザ情報を取得し、リランキング実行部３３がユーザ情報に含まれる単語を抽出するとともに、２つの単語の組合せの共起関係に関する情報を格納したコンテキスト情報ＤＢ３４からリランキング実行部３３が抽出した単語を含む単語の共起頻度の組Ｓを検索し、単語の共起頻度の組Ｓの中から音声認識部３２の音声認識結果である変換候補それぞれに含まれる単語を含む単語の共起頻度の組Ｓ’を抽出し、その共起頻度に基づいて変換候補を並べ替える。これにより、ユーザのコンテキストを考慮した、より適切な音声認識結果を提示することが可能となる。【選択図】図１

Description

本発明は、音声認識技術に関する。

近年、スマートフォンやタブレットのようなモバイル端末向けの音声認識サービスが普及しつつあり、今後、音声認識機能を提供するサービスが拡大することが予測される。

従来の音声認識技術は、入力された音声を４つのステップでテキスト化する（非特許文献１参照）。第１のステップでは、入力された音声を分析し、音声信号から雑音を除去し、音声認識の手掛かりとなる音響特徴を抽出する。第２のステップでは、各音素の特徴を蓄積した音響モデルを用いて、入力された音声を言葉の最小単位である音素を表す記号に変換する。第３のステップでは、音素列と単語の対応関係を蓄積した認識辞書を用いて音素列を単語に変換する。第４のステップでは、言葉遣いや言い回しを蓄積した言語モデルを用いて、各変換候補に対して妥当性の指標となるスコアを算出する。言語モデルは、単語のつながりのルールを統計値として保持している。音声認識結果として出力される変換候補は、最も妥当な変換候補のみを出力することもあれば、Ｎ−Ｂｅｓｔ解といわれる妥当性の高い順のＮ個の変換候補を出力することもあり、変換候補の出力数は音声認識サービスに依存する。

"音声認識ソリューション認識精度の向上で実用段階に入った音声認識技術"、［online］、2012年10月30日、株式会社インプレス、［2014年9月26日検索］、インターネット〈 URL：http://it.impressbm.co.jp/articles/-/10240/〉

変換候補の妥当性は、発話時の発話者の置かれた状況や背景（コンテキスト）に依存するが、発話者のコンテキストを考慮しない場合は、適切でない音声認識結果を提示するという問題があった。例えば、「おいしいかきをたべたい」という音声が入力されたときに、「かき」という言葉に対して果物の「柿」と貝類の「牡蠣」のどちらが適切であるかの判別が難しい。

本発明は、上記に鑑みてなされたものであり、より適切な音声認識結果を提示することを目的とする。

第１の本発明に係る音声認識装置は、ユーザの状況を示すユーザ情報を格納したユーザ情報蓄積手段と、複数の単語と当該単語間の共起頻度を含む共起頻度情報を格納した共起頻度蓄積手段と、前記ユーザの音声を入力して音声認識を実行し、変換候補を得る音声認識手段と、前記ユーザ情報蓄積手段から前記ユーザが音声を入力した音声入力時刻に対応する前記ユーザ情報を取得して当該ユーザ情報に含まれる単語を抽出するとともに、前記変換候補に含まれる単語を抽出し、それぞれから抽出した単語を含む前記共起頻度情報の共起頻度に基づいて前記変換候補を並べ替える変換候補整列手段と、を有することを特徴とする。

上記音声認識装置において、前記音声認識手段は、前記変換候補に候補の妥当性を示すスコアを付与し、前記変換候補整列手段は、前記変換候補それぞれについて、前記共起頻度情報の共起頻度を加算した値を前記変換候補に付与された前記スコアに加味して前記スコアを再計算し、再計算した前記スコアに基づいて前記変換候補を並び替えることを特徴とする。

上記音声認識装置において、前記音声認識手段は、音声認識を実行した結果から前記音声が示す時間を判定し、前記変換候補整列手段は、前記ユーザ情報蓄積手段から前記時間に対応する前記ユーザ情報を取得することを特徴とする。

第２の本発明に係る音声認識方法は、コンピュータにより実行される音声認識方法であって、ユーザの音声を入力して音声認識を実行し、変換候補を得るステップと、ユーザの状況を示すユーザ情報を格納したユーザ情報蓄積手段から、前記ユーザが音声を入力した音声入力時刻に対応する前記ユーザ情報を取得し、当該ユーザ情報に含まれる単語を抽出するステップと、前記変換候補に含まれる単語を抽出するステップと、複数の単語と当該単語間の共起頻度を含む共起頻度情報を格納した共起頻度蓄積手段から、前記ユーザ情報と前記変換候補のそれぞれから抽出した単語が含まれる前記共起頻度情報を取得し、当該共起頻度情報の共起頻度に基づいて前記変換候補を並べ替えるステップと、を有することを特徴とする。

第３の本発明に係る音声認識プログラムは、上記音声認識装置の各手段としてコンピュータを動作させることを特徴とする。

本発明によれば、より適切な音声認識結果を提示することができる。

本実施の形態における音声認識システムの構成を示す機能ブロック図である。ユーザ情報データベースが保持するデータの例を示す図である。コンテキスト情報データベースが保持するデータの例を示す図である。本実施の形態における音声認識システムの処理の流れを示すフローチャートである。本実施の形態におけるリランキング実行部の処理の流れを示すフローチャートである。リランキング実行部の処理を具体的に説明する図である。

以下、本発明の実施の形態について図面を用いて説明する。

図１は、本実施の形態における音声認識システムの構成を示す機能ブロック図である。同図に示す音声認識システムは、クライアント端末１とサーバ３を備える。本音声認識システムは、ユーザが利用するサービスからユーザのコンテキストを推定するためのユーザに関するユーザ情報を取得して格納しておき、ユーザが音声を入力したときに、その音声を認識して変換候補を得た後、得られた変換候補を、ユーザ情報に基づいてユーザのコンテキストにあった適切な順序に並べ替えて提示する音声認識システムである。以下、クライアント端末１とサーバ３について説明する。

クライアント端末１は、ユーザ情報格納部１１、ユーザ情報データベース（ＤＢ）１２、音声入力部１３、情報送信部１４、認識結果受信部１５、および表示部１６を備える。

ユーザ情報格納部１１は、ユーザが利用するサービスからユーザ情報を取得し、ユーザ情報ＤＢ１２に格納する。ユーザ情報の例としては、例えば、スケジュール管理サービスから取得できるユーザのスケジュールに関する情報、コメント投稿サービスから取得できるユーザの投稿したコメントに関する情報がある。ユーザ情報を取得する対象のサービスは予め登録して本音声認識システムに連携させておく。ユーザ情報格納部１１は、連携させたサービスでユーザ情報が更新されたタイミングで処理を実行し、ユーザ情報ＤＢ１２に格納されたユーザ情報を随時更新する。例えば、スケジュール管理サービスで新たなスケジュールが追加されたときはレコードを追加してユーザ情報を新規登録し、スケジュールが更新されたときはユーザ情報ＤＢ１２に格納した情報を書き換える。

ユーザ情報ＤＢ１２は、各サービスから取得したユーザ情報を保持する。図２に、ユーザ情報ＤＢ１２が保持するデータの例を示す。図２の例では、ユーザ情報ＤＢ１２は、項目カラム、日にちカラム、時間カラムで構成されたレコードを保持している。項目カラムには、ユーザの状況を示す情報が格納される。例えば、連携させるサービスとして、スケジュール管理サービスが設定されているときは、ユーザ情報格納部１１は、スケジュール管理サービスに登録されている予定の項目と日時を取得して、ユーザ情報ＤＢ１２の項目カラム、日にちカラム、時間カラムに格納する。また、連携させるサービスとして、コメント投稿サービスが設定されているときは、ユーザ情報格納部１１は、ユーザによってコメント投稿サービスに投稿された投稿内容と日時を取得して、ユーザ情報ＤＢ１２の項目カラム、日にちカラム、時間カラムに格納する。

連携しているサービスからユーザ情報を取得する方法として、例えばＯＡｕｔｈを用いることができる（参考ＵＲＬｈｔｔｐ：／／ｏａｕｔｈ．ｎｅｔ／）。ＯＡｕｔｈとは、あるウェブサービスＡにおいてユーザが持つリソースとユーザがアクセス権限を持つ各種機能に対し、ユーザの許可を受けた他のウェブサービスＢがアクセスするための仕組みである。ユーザがウェブサービスＢにウェブサービスＡへのアクセスの許可を与えておくことで、ウェブサービスＢは許可を与えられた範囲で、ウェブサービスＡの提供するＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）にアクセスできる。

音声入力部１３は、音声認識すべきユーザの音声を入力し、入力した音声情報を情報送信部１４に送信する。

情報送信部１４は、音声入力部１３から音声情報を受信するとともに、音声入力部１３に音声が入力された時刻である音声入力時刻に対応するユーザ情報をユーザ情報ＤＢ１２から取得し、取得したユーザ情報と音声情報をサーバ３に送信する。ユーザ情報を取得するときは、ユーザ情報ＤＢ１２の日にちカラム、時間カラムが音声入力時刻を含むレコードの項目カラムをユーザ情報として取得する。例えば、図２に示すデータがユーザ情報ＤＢ１２に格納されており、音声入力時刻が「２０１４／９／２７１８：４０」であるとき、情報送信部１４は、音声入力時刻を含むレコードの項目カラムに格納されている情報（図２では「家族と広島旅行」）をユーザ情報Ｉ_ｕ＝｛家族と広島旅行｝とする。このとき、日にちカラムが音声入力時刻の日にちと同じレコードの項目カラムに格納されている情報（図２では「厳島神社すごい。」）を取得し、ユーザ情報Ｉ_ｕ＝｛家族と広島旅行，厳島神社すごい。｝としてもよい。音声入力時刻に対してユーザ情報ＤＢ１２から取得するレコードのルールは予め設定しておく。

認識結果受信部１５は、サーバ３から音声情報の音声認識結果である変換候補を受信して表示部１６に表示させる。

表示部１６は、入力した音声の変換候補を所定の位置に表示する。

サーバ３は、情報受信部３１、音声認識部３２、リランキング実行部３３、およびコンテキスト情報ＤＢ３４を備える。

情報受信部３１は、クライアント端末１から音声情報とユーザ情報を受信し、音声認識部３２に送信する。

音声認識部３２は、受信した音声情報に対して音声認識を実行して変換候補を得て、得られた変換候補とユーザ情報をリランキング実行部３３に送信する。各変換候補には、候補の妥当性を示すスコアが付与される。音声認識の実行には、周知の音声認識技術を用いる。

また、音声認識部３２は、音声情報の時制を判定し、判定した時制が「未来」の特定の時間もしくは「過去」の特定の時間である場合は、クライアント端末１のユーザ情報ＤＢ１２からその時間に対応するユーザ情報を取得してリランキング実行部３３に送信する。例えば、音声情報に「明日」や「昨日」などの具体的な未来や過去を示す表現が含まれているときは、その表現が示す日時に対応するユーザ情報をユーザ情報ＤＢ１２から取得し、取得したユーザ情報をリランキング実行部３３に送信する。

リランキング実行部３３は、コンテキスト情報ＤＢ３４に格納された単語の組合せの共起関係に関する情報を参照し、変換候補に含まれる単語とユーザ情報に含まれる単語の共起関係に基づいて変換候補のスコアを再計算する。リランキング実行部３３の具体的な処理については後述する。

コンテキスト情報ＤＢ３４は、２つの単語の組合せの共起関係に関する情報を保持する。図３に、コンテキスト情報ＤＢ３４が保持するデータの例を示す。同図の例では、単語１カラム、単語２カラム、共起頻度カラムで構成されたレコードを保持している。例えば、既知の共起頻度計算プログラムＮ−ｇｒａｍ（参考ＵＲＬｈｔｔｐ：／／ｏｓｃａｒ．ｇｓｉｄ．ｎａｇｏｙａ−ｕ．ａｃ．ｊｐ／ｐｒｏｊｅｃｔ／ｅｌｃ／ｇｅｎｋｏｕ／ｎｇｒａｍｐａｐｅｒ２／ｎｏｄｅ８．ｈｔｍｌ）、単語共起頻度データベース（参考ＵＲＬｈｔｔｐｓ：／／ａｌａｇｉｎｒｃ．ｎｉｃｔ．ｇｏ．ｊｐ）を用いて２つの単語同士の共起頻度を算出し、その値を共起頻度カラムに格納する。

クライアント端末１、サーバ３が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムはクライアント端末１、サーバ３が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。ここでは、各機能をクライアント端末１とサーバ３に分けたが、本システムを一つの装置で実現してもよい。

次に、本実施の形態における音声認識システムの動作について説明する。

図４は、本実施の形態における音声認識システムの処理の流れを示すフローチャートである。なお、ユーザ情報格納部１１は、連携されたサービスからユーザ情報を随時収集してユーザ情報ＤＢ１２に格納しているとする。

音声入力部１３が音声を入力すると、情報送信部１４は、音声入力時刻に対応するユーザ情報をユーザ情報ＤＢ１２から取得し、音声情報とユーザ情報をサーバ３に送信する（ステップＳ１１）。

情報受信部３１は、クライアント端末１から受信した音声情報とユーザ情報を音声認識部３２に送信し、音声認識部３２は、音声情報に対して音声認識を実行して変換候補を得る（ステップＳ１２）。

音声認識部３２は、音声認識を実行した結果から時制を判定し（ステップＳ１３）、判定した時制が「未来」又は「過去」の特定の時間である場合は（ステップＳ１４のＹＥＳ）、その時間に対応するユーザ情報をユーザ情報ＤＢ１２から取得する（ステップＳ１５）。

リランキング実行部３３は、ユーザ情報に含まれる単語と変換候補に含まれる単語との共起関係をコンテキスト情報ＤＢ３４から検索し、その共起関係に基づいて変換候補のスコアを再計算し、再計算したスコアに基づいて変換候補をリランキングする（ステップＳ１６）。クライアント端末１は、スコアの高い順にリランキングした変換候補をユーザに提示する。

次に、変換候補のリランキングの処理の流れについて説明する。

図５は、本実施の形態におけるリランキング実行部３３の処理の流れを示すフローチャートである。図６は、図５の処理を具体的に説明するための図である。リランキング実行部３３は、音声認識部３２から変換候補Ｒ_１とユーザ情報Ｉ_ｕを受信すると以下の処理を実行する。図６に示すように、音声認識部３２が音声認識を実行した結果である変換候補Ｒ_１にはスコアが付与されている。

リランキング実行部３３は、ユーザ情報Ｉ_ｕを形態素解析して名詞Ｎを抽出する（ステップＳ２１）。例えば、ユーザ情報Ｉ_ｕ＝｛家族と広島旅行，厳島神社すごい｝のときは、Ｎ＝｛家族，広島，旅行，厳島，神社｝が抽出される。形態素解析には、例えば、既知の形態素解析エンジンであるＭｅＣａｂを用いることができる（参考ＵＲＬｈｔｔｐｓ：／／ｃｏｄｅ．ｇｏｏｇｌｅ．ｃｏｍ／ｐ／ｍｅｃａｂ／）。

リランキング実行部３３は、ステップＳ２１で抽出した名詞Ｎそれぞれに対して、その名詞がコンテキスト情報ＤＢ３４の単語１カラムもしくは単語２カラムに格納されているレコードを検索し、単語の共起頻度の組Ｓを取得する（ステップＳ２２）。例えば、Ｎ＝｛家族，広島，旅行，厳島，神社｝でコンテキスト情報ＤＢ３４に図３に示すデータが格納されているときは、図６に示すように、リランキング実行部３３は単語の共起頻度の組Ｓ＝｛［広島，柿，２］，［広島，牡蠣，５］｝を取得する。

リランキング実行部３３は、変換候補Ｒ_１それぞれのスコアを再計算する（ステップＳ２３）。具体的には、例えば、ステップＳ２２で取得した単語の共起頻度の組Ｓの中から、変換候補Ｒ_１のｎ番目の変換候補Ｒ_１（ｎ）に含まれる名詞を含む単語の共起頻度の組Ｓ’を抽出する。そして、スコアｒｅｓｃｏｒｅ（Ｒ_１（ｎ））を次式（１）で算出する。

ここで、Ｓ’（ｉ）は、ｉ番目の単語の共起頻度の組Ｓ’の共起頻度カラムに格納されている数値を表し、ｍは単語の共起頻度の組Ｓ’の要素の数を表す。また、α＞０である。

リランキング実行部３３は、ステップ２３で算出したスコアｒｅｓｃｏｒｅ（Ｒ_１（ｎ））の降順に変換候補Ｒ_１を並び替えて変換候補Ｒ_２を生成する（ステップＳ２４）。図６に示す例では、変換候補Ｒ_１が変換候補Ｒ_２のように並べ替えられてクライアント端末１に送信される。

以上説明したように、本実施の形態によれば、ユーザ情報格納部１１が、ユーザの利用するサービスからユーザの状況を示すユーザ情報を取得してユーザ情報ＤＢ１２に格納しておき、音声入力部１３がユーザの音声を入力したときに情報送信部１４が音声入力時刻に対応するユーザ情報を取得し、リランキング実行部３３がユーザ情報に含まれる単語を抽出するとともに、２つの単語の組合せの共起関係に関する情報を格納したコンテキスト情報ＤＢ３４からリランキング実行部３３が抽出した単語を含む単語の共起頻度の組Ｓを検索し、単語の共起頻度の組Ｓの中から音声認識部３２の音声認識結果である変換候補それぞれに含まれる単語を含む単語の共起頻度の組Ｓ’を抽出し、その共起頻度に基づいて変換候補を並べ替えることにより、ユーザのコンテキストを考慮した、より適切な音声認識結果を提示することが可能となる。

本実施の形態によれば、音声認識部３２がユーザの音声が示す特定の時間を判定し、リランキング実行部３３が特定の時間に対応するユーザ情報を取得することにより、ユーザの音声の示す時間に対応するコンテキストに基づいて、より適切な音声認識結果を提示することが可能となる。

１…クライアント端末
１１…ユーザ情報格納部
１２…ユーザ情報ＤＢ
１３…音声入力部
１４…情報送信部
１５…認識結果受信部
１６…表示部
３…サーバ
３１…情報受信部
３２…音声認識部
３３…リランキング実行部
３４…コンテキスト情報ＤＢ

Claims

ユーザの状況を示すユーザ情報を格納したユーザ情報蓄積手段と、
複数の単語と当該単語間の共起頻度を含む共起頻度情報を格納した共起頻度蓄積手段と、
前記ユーザの音声を入力して音声認識を実行し、変換候補を得る音声認識手段と、
前記ユーザ情報蓄積手段から前記ユーザが音声を入力した音声入力時刻に対応する前記ユーザ情報を取得して当該ユーザ情報に含まれる単語を抽出するとともに、前記変換候補に含まれる単語を抽出し、それぞれから抽出した単語を含む前記共起頻度情報の共起頻度に基づいて前記変換候補を並べ替える変換候補整列手段と、
を有することを特徴とする音声認識装置。
前記音声認識手段は、前記変換候補に候補の妥当性を示すスコアを付与し、
前記変換候補整列手段は、前記変換候補それぞれについて、前記共起頻度情報の共起頻度を加算した値を前記変換候補に付与された前記スコアに加味して前記スコアを再計算し、再計算した前記スコアに基づいて前記変換候補を並び替えることを特徴とする請求項１記載の音声認識装置。
前記音声認識手段は、音声認識を実行した結果から前記音声が示す時間を判定し、
前記変換候補整列手段は、前記ユーザ情報蓄積手段から前記時間に対応する前記ユーザ情報を取得することを特徴とする請求項１又は２記載の音声認識装置。
コンピュータにより実行される音声認識方法であって、
ユーザの音声を入力して音声認識を実行し、変換候補を得るステップと、
ユーザの状況を示すユーザ情報を格納したユーザ情報蓄積手段から、前記ユーザが音声を入力した音声入力時刻に対応する前記ユーザ情報を取得し、当該ユーザ情報に含まれる単語を抽出するステップと、
前記変換候補に含まれる単語を抽出するステップと、
複数の単語と当該単語間の共起頻度を含む共起頻度情報を格納した共起頻度蓄積手段から、前記ユーザ情報と前記変換候補のそれぞれから抽出した単語が含まれる前記共起頻度情報を取得し、当該共起頻度情報の共起頻度に基づいて前記変換候補を並べ替えるステップと、
を有することを特徴とする音声認識方法。
請求項１乃至３のいずれかに記載の音声認識装置の各手段としてコンピュータを動作させることを特徴とする音声認識プログラム。