JP7279636B2

JP7279636B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP7279636B2
Application number: JP2019536735A
Authority: JP
Inventors: 祐平滝; 真一河野; 広岩瀬
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2017-08-17
Filing date: 2018-08-03
Publication date: 2023-05-23
Anticipated expiration: 2038-08-03
Also published as: US20200243074A1; JPWO2019035373A1; EP3671730A4; WO2019035373A1; EP3671730A1

Description

本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、ユーザが期待する音声認識結果を得ることができるようにする情報処理装置、情報処理方法、およびプログラムに関する。

音声認識に関する様々な技術が知られている。その中で、例えば特許文献１には、音声認識結果の正誤を発話者に確認させ、誤りのある箇所を記憶する装置が開示されている。

また近年、大語彙音声認識エンジンを利用して、ユーザの発話音声によって電子機器などに指示を与える技術がある。

特開２００２－２９７１８９号公報

しかしながら、上述したような音声認識エンジンでは、一般的でない固有名詞や、発話したユーザのみが知る単語などは辞書に登録されていないため、ユーザが期待する音声認識結果が得られないことがあった。

例えば、発話音声によって電子機器に対して特定の宛先への電子メールの送信を指示する場合、宛先となる人名が辞書に登録されていないため、正しい宛先が入力されなかった。

本技術は、このような状況に鑑みてなされたものであり、ユーザが期待する音声認識結果を得ることができるようにするものである。

ユーザの発話に対して大語彙音声認識を行う音声認識部と、前記大語彙音声認識により得られた文字列からなる文章の意味解析を行うことで、前記文章に含まれる第１の単語の属性を特定する意味解析部と、内部に保持しているリストから、特定された前記属性に対応した探索範囲に基づいてローカル音声認識辞書を作成することで、前記第１の単語の置換候補となる第２の単語を探索する探索部とを備える。

本技術の情報処理方法は、情報処理装置が、ユーザの発話に対して大語彙音声認識を行い、前記大語彙音声認識により得られた文字列からなる文章の意味解析を行うことで、前記文章に含まれる第１の単語の属性を特定し、内部に保持しているリストから、特定された前記属性に対応した探索範囲に基づいてローカル音声認識辞書を作成することで、前記第１の単語の置換候補となる第２の単語を探索することを含む。

本技術のプログラムは、コンピュータに、ユーザの発話に対して大語彙音声認識を行い、前記大語彙音声認識により得られた文字列からなる文章の意味解析を行うことで、前記文章に含まれる第１の単語の属性を特定し、内部に保持しているリストから、特定された前記属性に対応した探索範囲に基づいてローカル音声認識辞書を作成することで、前記第１の単語の置換候補となる第２の単語を探索する処理を実行させる。

本技術においては、ユーザの発話に対して大語彙音声認識が行われ、前記大語彙音声認識により得られた文字列からなる文章の意味解析を行うことで、前記文章に含まれる第１の単語の属性が特定され、内部に保持しているリストから、特定された前記属性に対応した探索範囲に基づいてローカル音声認識辞書が作成されることで、前記第１の単語の置換候補となる第２の単語が探索される。

本技術によれば、ユーザが期待する音声認識結果を得ることが可能となる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術の音声認識の概要について説明する図である。本技術の音声認識の概要について説明する図である。本技術の音声認識の概要について説明する図である。本技術の音声認識の概要について説明する図である。本技術を適用した電子機器のハードウェア構成例を示すブロック図である。電子機器の機能構成例を示すブロック図である。音声認識結果修正処理について説明するフローチャートである。音声認識結果の表示例を示す図である。音声認識結果の表示例を示す図である。音声認識結果の表示例を示す図である。音声認識結果の表示例を示す図である。音声認識結果修正処理について説明するフローチャートである。音声データに基づいた置換候補の探索について説明する図である。音声認識結果の表示例を示す図である。音声認識結果の表示例を示す図である。インテントに対応した探索範囲の例を示す図である。探索範囲の具体例について説明する図である。ユーザの周辺状況に対応した探索範囲の例を示す図である。探索範囲の具体例について説明する図である。本技術を適用したサーバの機能構成例を示すブロック図である。コンピュータの構成例を示すブロック図である。

以下、本開示を実施するための形態（以下、実施の形態とする）について説明する。なお、説明は以下の順序で行う。

１．本技術の音声認識の概要
２．第１の実施の形態（ユーザの再発話に基づいて音声認識結果を修正する例）
３．第２の実施の形態（自動的に音声認識結果を修正する例）
４．置換候補の探索範囲の例
５．第３の実施の形態（サーバへの適用）
６．その他

＜１．本技術の音声認識の概要＞
まず、図１乃至図４を参照して、本技術の音声認識の概要について説明する。

図１には、ユーザＵ１と、ユーザＵ１の発話に対して音声認識を行う、本技術を適用した電子機器１０が示されている。

図１の例では、ユーザＵ１が、“DonDonさんに明日ゲームやろうよってメールして”と発話することによって、電子機器１０に対して“DonDonさん”へ電子メールを用いたメッセージの送信を指示している。

電子機器１０は、ユーザＵ１の発話に対して、大語彙音声認識エンジンを利用して音声認識を行う。しかしながら、宛先となる“DonDonさん”は辞書に登録されておらず、図１に示されるように、“都道さん”と誤って認識されてしまう。

そこで、電子機器１０は、音声認識により得られた文字列からなる文章の意味解析を行うことで、“都道さん”という「宛先」、“明日ゲームやろうよ”という「内容」、そして、電子メールを用いたメッセージの送信という「意図（インテント）」を特定する。

電子機器１０は、「宛先」という属性（以下、スロットという）に基づいて、図２に示されるように、内部に保持しているコンタクトリスト（電話帳）Ｌ１から、宛先になり得る宛先リストを辞書として取得するとともに、コマンド型の音声認識エンジンを起動する。

この状態で、図２に示されるように、ユーザＵ１が“DonDonさん”と再発話すると、電子機器１０は、コンタクトリストＬ１（宛先リスト）に含まれている“DonDonさん”を正しく認識し、音声認識により得られた文字列における“都道さん”を置換する。

また、図３の例では、ユーザＵ１が、“DonDonさんに明日ゲームやろうよってAloneで送って”と発話することによって、電子機器１０に対して“DonDonさん”へ“Alone”とうアプリケーション（以下、アプリという）を用いたメッセージの送信を指示している。“Alone”は、メッセージの送信手段となるアプリである。

電子機器１０は、ユーザＵ１の発話に対して、大語彙音声認識エンジンを利用して音声認識を行う。しかしながら、宛先となる“DonDonさん”は辞書に登録されておらず、図３に示されるように、“都道さん”と誤って認識されてしまう。また、メッセージの送信手段となる“Alone”もまた辞書に登録されておらず、図３に示されるように、“アロー”と誤って認識されてしまう。

そこで、電子機器１０は、音声認識により得られた文字列からなる文章の意味解析を行うことで、“都道さん”という「宛先」、“明日ゲームやろうよ”という「内容」、“アロー”という「メッセージの送信手段」、そして、メッセージの送信という「インテント」の各要素を特定する。

電子機器１０は、「宛先」というスロットに基づいて、図４に示されるように、内部に保持しているコンタクトリストＬ１から、宛先になり得る宛先リストを辞書として取得するとともに、コマンド型の音声認識エンジンを起動する。また、電子機器１０は、「メッセージの送信手段」というスロットに基づいて、図４に示されるように、内部に保持しているインストールアプリ一覧Ｌ２から、メッセージの送信手段になり得るアプリ名リストを辞書として取得するとともに、コマンド型の音声認識エンジンを起動する。

この状態で、図４に示されるように、ユーザＵ１が“DonDonさん”と再発話すると、電子機器１０は、コンタクトリストＬ１（宛先リスト）に含まれている“DonDonさん”を正しく認識し、音声認識により得られた文字列における“都道さん”を置換する。さらに、ユーザＵ１が“Alone”と再発話すると、電子機器１０は、コンタクトリストＬ２（アプリ名リスト）に含まれている“Alone”を正しく認識し、音声認識により得られた文字列における“アロー”を置換する。

以上のようにして、電子機器１０は、音声認識結果を正しく修正する。

＜２．第１の実施の形態＞
（電子機器の構成例）
図５は、本技術を適用した第１の実施の形態の電子機器１０のハードウェア構成例を示すブロック図である。電子機器１０は、例えば、ユーザ対話型のエージェント機器として構成される。

ＣＰＵ(Central Processing Unit)３１、ＲＯＭ(Read Only Memory)３２、ＲＡＭ(Random Access Memory)３３は、バス３４により相互に接続される。

バス３４には、マイク３５、センサ３６、スピーカ３７、ディスプレイ３８、入力部３９、記憶部４０、および通信部４１が接続される。

マイク３５は、ユーザの発話音声を検出する。

センサ３６は、カメラ、加速度センサ、ジャイロセンサ、測位センサなどの各種のセンサにより構成される。例えば、センサ３６は、撮影により得られた画像を出力する。また、センサ３６は、加速度、角速度、現在位置などの検出結果を表す情報を出力する。

スピーカ３７は、音声（合成音声）を出力する。

ディスプレイ３８は、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electro Luminescence）ディスプレイなどにより構成される。ディスプレイ３８は、音声認識により得られた文字列を音声認識結果として表示する。

入力部３９は、ディスプレイ３８に重ねて設けられたタッチパネルや、電子機器１０の筐体に設けられた各種のボタンにより構成される。入力部３９は、ユーザによる操作を検出し、操作の内容を表す情報を出力する。

記憶部４０は、不揮発性のメモリなどにより構成される。記憶部４０は、ＣＰＵ３１が実行するプログラムの他に、音声合成用のデータ、上述したコンタクトリストやインストールアプリ一覧などの各種のデータを記憶する。

通信部４１は、ネットワークインタフェースなどにより構成される。通信部４１は、無線や有線による通信を外部の装置との間で行う。

図６は、電子機器１０の機能構成例を示すブロック図である。

図６に示される電子機器１０の機能ブロックのうちの少なくとも一部は、図５のＣＰＵ３１により所定のプログラムが実行されることによって実現される。

電子機器１０は、音声入力部５１、音声認識部５２、大語彙音声認識辞書５３、意味解析部５４、探索部５５、記憶部５６、表示制御部５７、および表示部５８から構成される。

音声入力部５１は、図５のマイク３５に対応し、ユーザの発話音声を入力する。音声入力部５１は、入力されたユーザの発話音声に対応する音声データを、音声認識部５２に供給する。

音声認識部５２は、音声入力部５１からの音声データに対して、大語彙音声認識エンジンを用いることにより大語彙音声認識を行う。

大語彙音声認識辞書５３は、広範囲な発話内容に対応する語彙があらかじめ登録された辞書である。音声認識部５２は、音声入力部５１からの音声データと、大語彙音声認識辞書５３に登録されている語彙（単語）とを照合することで、音声認識を行うことができる。音声認識により得られた文字列は、意味解析部５４に供給される。

意味解析部５４は、音声認識部５２からの文字列からなる文章に対して、自然言語処理、具体的には意味解析を行うことで、文章に含まれる所定のスロット（属性）を特定する。スロットは、上述した「宛先」の他、「場所」や「通話相手」など、特に、文章において一般的でない固有名詞や、属人性の高い単語が用いられる形態素の属性である。

探索部５５は、音声認識により得られた文字列からなる文章において、意味解析部５４の意味解析により特定されたスロットに該当する単語（第１の単語）の置換候補（第２の単語）を探索する。

具体的には、探索部５５は、記憶部５６に記憶されているデータの中で、特定されたスロットに対応した探索範囲に基づいて、ローカル音声認識辞書を作成し、コマンド認識や定型文認識を行うローカル音声認識エンジンを起動する。

記憶部５６は、図５の記憶部４０に対応し、例えば、上述したコンタクトリストやインストールアプリ一覧を記憶する。

したがって、例えば、スロットとして「宛先」が特定された場合、探索部５５は、記憶部５６に記憶されているコンタクトリストに基づいて、ローカル音声認識辞書としての宛先リストを作成し、特定されたスロットに対応するローカル音声認識エンジンを起動する。

そして、探索部５５は、特定されたスロットについてのユーザの再発話に基づいて、ローカル音声認識エンジンを用いることにより、置換候補となる単語を探索し、特定されたスロットに該当する単語を、探索された単語に置換する。

表示制御部５７は、図５のディスプレイ３８に対応する表示部５８の表示を制御する。具体的には、表示制御部５７は、意味解析部５４により意味解析が行われた文章を表示部５８に表示させたり、特定されたスロットに該当する単語が探索部５５により置換された文章を表示部５８に表示させる。

（音声認識結果修正処理の流れ）
次に、図７のフローチャートを参照して、電子機器１０による音声認識結果修正処理の流れについて説明する。図７の処理は、音声入力部５１に、ユーザの発話音声が入力されると開始される。

ステップＳ１において、音声認識部５２は、ユーザの発話音声（音声入力部５１からの音声データ）に対して、大語彙音声認識エンジンを用いることにより大語彙音声認識を行う。

ステップＳ２において、意味解析部５４は、音声認識部５２が行った音声認識により得られた文字列からなる文章の意味解析を行う。

ステップＳ３において、意味解析部５４は、意味解析の結果に基づいて、文章に含まれるスロット（例えば「宛先」）を特定する。

ステップＳ４において、探索部５５は、記憶部５６に記憶されているデータの中で、特定されたスロットに対応した探索範囲に基づいて、ローカル音声認識辞書を作成する。

ステップＳ５において、探索部５５は、ローカル音声認識エンジンを起動する。

ここで、ユーザにより、特定されたスロットに該当する単語が再発話されたものとする。

ステップＳ６において、探索部５５は、特定されたスロットについてのユーザの再発話に基づいて、ローカル音声認識エンジンを用いることにより、置換候補となる単語を探索する。

ステップＳ７において、探索部５５は、特定されたスロットに該当する単語を、探索された単語に置換する。

以上の処理によれば、一般的でない固有名詞や、発話したユーザのみが知る単語などが辞書に登録されていなくとも、ユーザが期待する音声認識結果を得ることが可能となる。その結果、例えば、発話音声によって電子機器１０に対して特定の宛先への電子メールの送信を指示する場合であっても、正しい宛先が入力されるようになる。

ここで、上述した音声認識結果修正処理において、表示制御部５７による表示部５８の音声認識結果の表示例について説明する。

（音声認識結果の表示例１）
図８は、音声認識結果の第１の表示例を示す図である。

１段目に示されるように、ユーザの初期発話として、“DonDonさんに明日ゲームやろうよってメールして”という発話音声が入力された場合、２段目に示されるように、（大語彙）音声認識結果が表示される。この音声認識結果においては、初期発話の文章において宛先となる“DonDonさん”が“都道さん”と誤って認識されている。

音声認識により得られた文字列からなる文章の意味解析が行われ、特定されたスロットである「宛先」に対応したローカル音声認識エンジンが起動されると、３段目に示されるように、音声認識結果の表示が修正可能状態になる。具体的には、音声認識結果の文章に含まれる、特定されたスロット「宛先」に該当する“都道さん”が強調表示される。図８の例では、特定されたスロットに該当する単語（“都道さん”）に下線が付されているが、これに限らず、文字フォント、色、サイズ、背景色が変わるなどしてもよい。

この修正可能状態は、例えば５秒間などの所定の時間継続される。

そして、修正可能状態の間に、ユーザにより“DonDonさん”と再発話されることで、ローカル音声認識により、コンタクトリストに含まれている“DonDonさん”が探索される。その結果、４段目に示されるように、音声認識結果における“都道さん”が“DonDonさん”に置換された文章が表示されるようになる。

このようにして、ユーザは、再発話することにより、容易に音声認識結果を修正することができる。

（音声認識結果の表示例２）
図９は、音声認識結果の第２の表示例を示す図である。

図９における１段目から３段目までの状態は、図８と同様であるので、その説明は省略する。

３段目の修正可能状態の間に、ユーザにより“DonDonさん”と再発話されることで、ローカル音声認識により、コンタクトリストに含まれている“藤堂さん”が探索される。その結果、４段目に示されるように、音声認識結果における“都道さん”が“藤堂さん”に置換された文章が表示される。

しかしながら、ユーザが再発話したのは、“藤堂さん”ではなく“DonDonさん”である。このように、コンタクトリストに似た名前が含まれている場合、１回の再発話では、ユーザの所望する修正結果が得られないことがある。

そこで、４段目の状態で、ユーザにより“DonDonさん”とさらに再発話されることで、ローカル音声認識により、コンタクトリストに含まれている“DonDonさん”が探索される。その結果、５段目に示されるように、音声認識結果における“都道さん”が“DonDonさん”に置換された文章が表示されるようになる。

以上のように、特定されたスロットに対応した探索範囲において、そのスロットに該当する単語の置換候補が複数含まれる場合、ユーザが再発話を繰り返すことで、文章において置換候補が１つずつ切り替えて表示されるようにする。これにより、置換候補が絞り込まれ、確実に、ユーザの所望する修正結果が得られるようになる。

（音声認識結果の表示例３）
図１０は、音声認識結果の第３の表示例を示す図である。

１段目に示されるように、ユーザの初期発話として、“ToToさんに明日ゲームやろうよってToDoで送って”という発話音声が入力された場合、２段目に示されるように、（大語彙）音声認識結果が表示される。この音声認識結果においては、初期発話の文章において宛先となる“DonDonさん”が“東都さん”と、メッセージの送信手段となる“ToDo”が“藤堂”とそれぞれ誤って認識されている。なお、ここで、“ToDo”は、メッセージの送信手段となるアプリである。

音声認識により得られた文字列からなる文章の意味解析が行われ、特定されたスロットである「宛先」および「メッセージの送信手段」それぞれに対応したローカル音声認識エンジンが起動されると、３段目に示されるように、音声認識結果の表示が修正可能状態になる。具体的には、音声認識結果の文章に含まれる、特定されたスロット「宛先」に該当する“東都さん”と、スロット「メッセージの送信手段」に該当する“藤堂”とが強調表示される。図１０の例においても、特定されたスロットに該当する単語に下線が付されているが、これに限らず、文字フォント、色、サイズ、背景色が変わるなどしてもよい。

そして、修正可能状態の間に、ユーザにより“DonDonさん”，“ToDo”と再発話されることで、ローカル音声認識により、コンタクトリストに含まれている“DonDonさん”と、インストールアプリ一覧に含まれている“ToDo”とが、スロット毎に探索される。その結果、４段目に示されるように、音声認識結果における“東都さん”が“DonDonさん”に、“藤堂”が“ToDo”にそれぞれ置換された文章が表示される。

このとき、「宛先」に対応した音声認識エンジンにより、“DonDonさん”に置換される単語の位置が特定されるとともに、「メッセージの送信手段」に対応した音声認識エンジンにより、“ToDo”に置換される単語の位置が特定される。

このように、類似した単語が複数のスロットに存在する場合であっても、各スロットに対応した探索範囲の中から、適切に置換候補が探索される。これにより、ユーザは、どの単語を修正するかを選択するためのフォーカス遷移の操作などをすることなく、音声認識結果を修正することができる。

（音声認識結果の表示例４）
図１１は、音声認識結果の第４の表示例を示す図である。

図１１における１段目および２段目までの状態は、図１０と同様であるので、その説明は省略する。

図１０の例では、２つのスロット「宛先」および「メッセージの送信手段」が特定され、その２段目の修正可能状態では、音声認識結果の文章に含まれる、２つのスロットに該当する単語がそれぞれ強調表示されるものとした。

図１１の例では、２つのスロットが特定された場合の修正可能状態において、３段目および４段目に示されるように、それぞれのスロットに該当する単語が強調表示された状態が、一定時間毎に切り替わる。

具体的には、音声認識結果の文章に含まれるスロット「宛先」に該当する“東都さん”が強調表示される状態と、スロット「メッセージの送信手段」に該当する“藤堂”が強調表示される状態とが切り替わる。

この場合も、それぞれの修正可能状態の間に、ユーザにより“DonDonさん”または“ToDo”と再発話されることで、ローカル音声認識により、コンタクトリストに含まれている“DonDonさん”と、インストールアプリ一覧に含まれている“ToDo”とが、スロット毎に探索される。その結果、５段目に示されるように、音声認識結果における“東都さん”が“DonDonさん”に、“藤堂”が“ToDo”にそれぞれ置換された文章が表示されるようになる。

なお、上述した表示例において、ユーザによって再発話される前に、特定されたスロットに該当する単語の置換候補が表示されるようにしてもよい。この場合、ユーザの再発話によらず、特定されたスロットに該当する単語の置換候補を探索する必要があるが、後述する実施の形態の処理により、これを実現することができる。

また、上述した表示例では、ユーザの発話内容（意味解析が行われた文章）が全て表示されるものとしたが、意味解析により特定された要素の一部が表示されるようにしてもよい。

例えば、ユーザにより、電子メールを用いたメッセージの送信が指示された場合、表示部５８に表示された新規メール作成画面の宛先（Ｔｏ）欄に、「宛先」に該当する文字列（電子メールアドレスの情報を含む）が表示されるようにする。また、新規メール作成画面の本文欄には、「内容」に該当する文字列が表示されるようにする。

＜３．第２の実施の形態＞
以上においては、ユーザの再発話に基づいて、音声認識結果が修正される例について説明したが、ユーザの再発話によらず、自動的に音声認識結果が修正されるようにすることもできる。

（音声認識結果修正処理の流れ）
図１２は、本実施の形態における電子機器１０による音声認識結果修正処理の流れについて説明するフローチャートである。

なお、図１２におけるステップＳ１１乃至Ｓ１５の処理は、図７におけるステップＳ１乃至Ｓ５の処理と同様であるので、その説明は省略する。

ステップＳ１５の後、処理はステップＳ１６に進み、探索部５５は、意味解析が行われた文章に含まれる、特定されたスロットに該当する単語の音声データに基づいて、ローカル音声認識エンジンを用いることにより、置換候補となる単語を探索する。

例えば、図１３の１段目に示されるように、ユーザの初期発話として、“DonDonさんに明日ゲームやろうよってAloneで送って”という発話音声が入力された場合、意味解析により、スロットとして、「宛先」および「メッセージの送信手段」（アプリ名）とが特定される。

探索部５５は、ユーザの初期発話の音声データを取得し、音声データにおいて、意味解析が行われた文章において「宛先」およびアプリ名に対応する箇所を、発話全体の時間やスロットに該当する単語の長さなどに基づいて推定する。

探索部５５は、音声データにおいて「宛先」に該当するデータＤ１１を推定すると、矢印＃１１に示されるように、宛先リストを辞書に持つローカル音声認識エンジンを起動することで、データＤ１１の置換候補となる単語を探索する。同様に、探索部５５は、音声データにおいてアプリ名に該当するデータＤ１２を推定すると、矢印＃１２に示されるように、アプリ名リストを辞書に持つローカル音声認識エンジンを起動することで、データＤ１２の置換候補となる単語を探索する。

このようにして、音声データに基づいて、置換候補となる単語が探索される。

図１２のフローチャートに戻り、ステップＳ１７において、探索部５５は、特定されたスロットに該当する単語を、探索された単語に置換する。

図１４は、上述した音声認識結果修正処理における音声認識結果の表示例を示す図である。

１段目に示されるように、ユーザの初期発話として、“DonDonさんに明日ゲームやろうよってAloneで送って”という発話音声が入力された場合、２段目に示されるように、（大語彙）音声認識結果が得られる。この音声認識結果においては、初期発話の文章において宛先となる“DonDonさん”が“東都さん”と、メッセージの送信手段となる“Alone”が“アロー”とそれぞれ誤って認識されている。なお、ここでは、この音声認識結果は、表示部５８に表示されない。

音声認識により得られた文字列からなる文章の意味解析が行われ、特定されたスロットである「宛先」および「メッセージの送信手段」それぞれに対応したローカル音声認識エンジンが起動されると、探索部５５は、それぞれのスロットに該当する単語（音声データ）の置換候補となる単語を探索する。

その結果、３段目に示されるように、音声認識結果における“都道さん”が“DonDonさん”に、“アロー”が“Alone”にそれぞれ置換された文章が表示されるようになる。

以上の処理によれば、ユーザが再発話することなく、ユーザが期待する音声認識結果を得ることが可能となる。

なお、特定されたスロットに該当する単語が正しく音声認識されていたにもかかわらず、自動的に置換されることにより、誤った音声認識結果が得られてしまう可能性がある。

このような場合、図１５を参照して説明するように、ユーザの再発話に基づいて、表示された文章において置換された単語が修正されるようにしてもよい。

具体的には、図１５の１段目に示されるように、ユーザの初期発話として、“DonDonさんに明日ゲームやろうよってAloneで送って”という発話音声が入力された場合、２段目に示されるように、（大語彙）音声認識結果が得られる。この音声認識結果においては、初期発話の文章において宛先となる“DonDonさん”は正しく認識され、メッセージの送信手段となる“Alone”が“アロー”と誤って認識されている。

音声認識により得られた文字列からなる文章の意味解析が行われ、特定されたスロットである「宛先」および「メッセージの送信手段」に対応したローカル音声認識エンジンが起動されると、探索部５５は、それぞれのスロットに該当する単語（音声データ）の置換候補となる単語を探索する。

その結果、３段目に示されるように、音声認識結果における“DonDonさん”が“藤堂さん”に、“アロー”が“Alone”にそれぞれ置換された文章が表示されるようになる。しかしながら、正しく認識された「宛先」の“DonDonさん”が、誤って“藤堂さん”に置換されている。

この状態で、ユーザにより“DonDonさん”と再発話されることで、ローカル音声認識により、コンタクトリストに含まれている“DonDonさん”が探索される。その結果、４段目に示されるように、音声認識結果における“藤堂さん”が“DonDonさん”に置換された文章が表示されるようになる。

以上のように、自動的に音声認識結果が修正される構成において、その修正結果のユーザによるさらなる修正を可能とすることで、誤った修正がなされた場合であっても、結果として、ユーザが期待する音声認識結果を得ることが可能となる。

なお、特定されるスロット毎に、ユーザによるさらなる修正（探索）の頻度（修正結果の正解率）が学習されるようにしてもよい。この場合、その学習結果に基づいて、スロット毎に、自動的に音声認識結果が修正される処理（図１２）を実行するか、または、ユーザの再発話に基づいて音声認識結果が修正される処理（図７）を実行するかが決定されるようにすることができる。例えば、「宛先」についての自動的な音声認識結果の修正結果の正解率が所定の値より低い場合、「宛先」については、ユーザの再発話に基づいて音声認識結果が修正される処理が実行されるようにする。また、「メッセージの送信手段」についての自動的な音声認識結果の修正結果の正解率が所定の値より高い場合、「メッセージの送信手段」については、自動的に音声認識結果が修正される処理が実行されるようにする。

なお、上述した実施の形態における音声認識結果の表示例において、特定されたスロットに該当する単語についての音声認識結果の信頼度に応じて、その単語が強調表示されるようにしてもよい。例えば、音声認識結果の信頼度が低いほど、修正する必要性が高くなると考えられるので、特定されたスロットに該当する単語についての音声認識結果の信頼度が所定の値より低い場合に、その単語が強調表示されるようにする。

さらに、上述した実施の形態における音声認識結果の表示例において、音声認識結果の修正結果として表示されている文章において、ユーザにより、特定されたスロットに該当する単語が指定された場合に、置換候補となる単語が探索されるようにしてもよい。これにより、ユーザは、誤った認識や修正がなされた単語のみを、正しく修正することができる。

＜４．置換候補の探索範囲の例＞
上述した実施の形態では、特定されたスロットに該当する単語の置換候補の探索範囲は、そのスロット（属性）に対応した探索範囲としていた。

しかしながら、同一のスロットであっても、ユーザの発話内容（意味解析が行われた文章）のインテントによって、その探索範囲は異なる。

図１６は、インテントに対応した探索範囲の例を示す図である。

図１６に示される３つの例においては、いずれも、スロットＡに対応した探索範囲の中に、インテントＡに対応した置換候補と、インテントＢに対応した置換候補とが含まれている。

図１６のＡには、インテントＡに対応した置換候補と、インテントＢに対応した置換候補とが、互いに共通する要素を持たない例が示されている。

図１６のＢには、インテントＡに対応した置換候補と、インテントＢに対応した置換候補とが、その一部に、互いに共通する要素を持つ例が示されている。

図１６のＣには、インテントＡに対応した置換候補が、インテントＢに対応した置換候補の要素を全て含む例が示されている。

すなわち、探索部５５は、スロット、および、意味解析が行われた文章のインテントに対応した探索範囲の中から、そのスロットに該当する単語の置換候補を探索することになる。

図１７は、インテントに対応した探索範囲の具体例について説明する図である。

ユーザの発話内容のインテントが「メール送信」であり、スロットが「宛先」である場合、「宛先」に該当する単語の探索範囲は、電話帳となる。ユーザの発話内容のインテントが「SNS（Social Networking Service）アプリメッセージの送信」であり、スロットが「宛先」である場合、「宛先」に該当する単語の探索範囲は、そのSNSアプリのフレンドリストとなる。

このように、スロットが「宛先」であっても、ユーザの発話内容のインテントによって、その探索範囲は異なる。

ここで、１つのスロットに該当する単語の探索結果に応じて、他のスロットに該当する単語が識別されるようにしてもよい。具体的には、「宛先」となり得る人名は、同一人物を示す場合であっても、「メッセージ送信手段」となるSNSアプリ毎に異なる名称（ハンドルネームなど）で登録されていることがある。この場合、「宛先」に該当する単語の探索結果に応じて、「メッセージ送信手段」となるSNSアプリが識別されるようにしてもよい。

さらに、ユーザの発話内容のインテントが「旅行先を探す」ことであり、スロットが「場所」である場合、「場所」に該当する単語の探索範囲は、海外の国名・都市名リストや国内の都道府県名リストとなる。ユーザの発話内容のインテントが「スーパーマーケットを探す」ことであり、スロットが「場所」である場合、「場所」に該当する単語の探索範囲は、ユーザの自宅周辺の市名、区名、町名となる。

また、ユーザの発話内容のインテントが「ニュースを探す」ことであり、スロットが「場所」である場合、「場所」に該当する単語の探索範囲は、全世界の都市名となる。ユーザの発話内容のインテントが「電車の乗り換えを調べる」ことであり、スロットが「場所」である場合、「場所」に該当する単語の探索範囲は、駅名となる。

このように、スロットが「場所」であっても、ユーザの発話内容のインテントによって、その探索範囲は異なる。

なお、ユーザの発話内容のインテントが「電話する」ことであり、スロットが「（通話）相手」である場合、「相手」に該当する単語の探索範囲は、電話帳の中の電話番号登録者となる。

さらに、同一のスロット、同一のインテントであっても、ユーザの周辺状況（ユーザの周辺環境や条件）によって、その探索範囲はまた異なる。

図１８は、ユーザの周辺状況（以下、単に状況という）に対応した探索範囲の例を示す図である。

図１８に示される３つの例においては、いずれも、スロットＡおよびインテントＡに対応した探索範囲の中に、状況Ａに対応した置換候補と、状況Ｂに対応した置換候補とが含まれている。

図１８のＡには、状況Ａに対応した置換候補と、状況Ｂに対応した置換候補とが、互いに共通する要素を持たない例が示されている。

図１８のＢには、状況Ａに対応した置換候補と、状況Ｂに対応した置換候補とが、その一部に、互いに共通する要素を持つ例が示されている。

図１８のＣには、状況Ａに対応した置換候補が、状況Ｂに対応した置換候補の要素を全て含む例が示されている。

すなわち、探索部５５は、スロット、意味解析が行われた文章のインテント、および、ユーザの周辺状況に対応した探索範囲の中から、そのスロットに該当する単語の置換候補を探索することになる。

図１９は、ユーザの周辺状況に対応した探索範囲の具体例について説明する図である。

ユーザの発話内容のインテントが「メール送信」、スロットが「宛先」であり、ユーザの周辺環境・条件が、自宅方向へ移動中で、かつ、時間帯が１８時から２２時の間である場合、「宛先」に該当する単語の探索範囲は、電話帳の中の家族や友人となる。ユーザの発話内容のインテントが「メール送信」、スロットが「宛先」であり、ユーザの周辺環境・条件が、勤務先室内におり、かつ、時間帯が日中帯である場合、「宛先」に該当する単語の探索範囲は、パーソナルコンピュータ（ＰＣ）の宛先リストのうち、会社関係の宛先となる。

また、図示はしないが、ユーザの発話内容のインテントが「メール送信」、スロットが「宛先」であり、ユーザの周辺環境・条件が、在宅中である場合には、「宛先」に該当する単語の探索範囲は、電話帳の中の家族以外の人物とすることもできる。

このように、インテントが「メール送信」で、かつ、スロットが「宛先」であっても、ユーザの周辺状況によって、その探索範囲は異なる。

さらに、ユーザの発話内容のインテントが「車載ナビゲーションシステムでレストランを探す」こと、スロットが「場所」であり、周辺道路が空いている場合、「場所」に該当する単語の探索範囲は、現在位置から半径１０ｋｍ以内の店名リストとなる。ユーザの発話内容のインテントが「車載ナビゲーションシステムでレストランを探す」こと、スロットが「場所」であり、周辺道路が混雑している場合、「場所」に該当する単語の探索範囲は、現在位置から半径１ｋｍ以内の店名リストとなる。ユーザの発話内容のインテントが「車載ナビゲーションシステムでレストランを探す」こと、スロットが「場所」であり、ナビゲーションシステムを使用しながら高速道路を走行中である場合、「場所」に該当する単語の探索範囲は、目的地までの経路上から距離５００ｍ以内の店名リストとなる。

なお、上述した例では、ユーザの発話内容におけるスロットは、「宛先」や「場所」、「通話相手」などとしたが、これらに限定されない。

例えば、ユーザが“明日は１０：３０頃に集合ねって送信して”と発話した場合、スロットとして、“１０：３０”という「時間」が特定されるようにしてもよい。

また、ユーザが“３０００円返してもらうってメモしておいて”と発話した場合、スロットとして、“３０００”という「数値」が特定されるようにしてもよい。

さらに、ユーザが“マイケルさんにThank youと返信して”と発話した場合、スロットとして、“Thank you”という「英語」（部分的に用いられる外国語）が特定されるようにしてもよい。

＜５．第３の実施の形態＞
本技術は、クラウドコンピューティングへ適用することもできる。

例えば、図２０に示されるように、電子機器１１０は、ユーザＵ１１の発話に対して音声認識を行い、音声認識により得られた文字列からなる文章の意味解析を行った結果を、ネットワーク１３０を介して接続されるサーバ１２０に送信する。

サーバ１２０は、通信部１２１、探索部１２２、および記憶部１２３を備えている。

通信部１２１は、電子機器１１０からネットワーク１３０を介して送信される、意味解析が行われた文章と、意味解析の結果とを受信する。

探索部１２２は、図６の探索部５５と同一の機能を有し、電子機器１１０からの文章において、意味解析により特定されたスロットに該当する単語の置換候補を探索する。探索部１２２により、特定されたスロットに該当する単語が置換された文章は、ネットワーク１３０を介して電子機器１１０に送信される。

記憶部１２３は、図６の記憶部５６と同一の機能を有し、探索部１２２により探索される置換候補となるデータを記憶する。なお、記憶部１２３に記憶されるデータは、電子機器１１０からネットワーク１３０を介して取得されるようにしてもよい。

具体的には、例えば、サーバ１２０は、電子機器１１０が記憶しているコンタクトリストやインストールアプリ一覧などを管理し、記憶部１２３に記憶されているコンタクトリストやインストールアプリ一覧と同期させる。ここで、例えばスロットとして「宛先」が特定されている場合、サーバ１２０の探索部１２２は、記憶部１２３に記憶されているコンタクトリストに基づいて、ローカル音声認識辞書としての宛先リストを作成し、特定されたスロット（「宛先」）に対応するローカル音声認識エンジンを起動する。これにより、「宛先」に該当する単語の置換候補が探索される。なお、ここでは、サーバ１２０において起動する音声認識エンジンであっても、ローカル音声認識エンジンと称している。

このような構成においても、一般的でない固有名詞や、発話したユーザのみが知る単語などが辞書に登録されていなくとも、ユーザが期待する音声認識結果を得ることが可能となる。

なお、図２０に示される構成においては、電子機器１１０が、音声認識により得られた文字列からなる文章の意味解析を行うものとしたが、サーバ１２０に意味解析部５４を設けることで、サーバ１２０がその文章の意味解析を行うようにしてもよい。

＜６．その他＞
（本技術の適用例）
本技術は、ユーザ対話型のエージェント機器やカーナビゲーションシステムなど、発話音声により指示することで動作する装置やシステムに適用することができる。

さらに、本技術は、家電製品に適用することもできる。

例えば、本技術を冷蔵庫に適用した場合、「食材」や「家族の名前」をスロットとして、音声認識結果を修正する処理が行われるようにしてもよい。正しい音声認識結果が得られることで、冷蔵庫内の特定の食材の有無や保存状態を確認したり、家族の中の特定の人だけに冷蔵庫内の食材を提供することが可能となる。

この場合、「食材」に該当する単語の探索範囲は、冷蔵庫内に収納された食材の履歴や、食材を購入した履歴（レシート）などとする。これらの履歴は、ユーザ（家族一人ひとり）毎に設定されるようにしてもよい。

（探索範囲の拡張）
上述した例では、特定されたスロットに該当する単語の置換候補は、あらかじめ用意されたリストなどを探索範囲として探索されるものとした。

しかしながら、電子機器が保持するリストには登録されていないが、ユーザが日常の会話の中でのみ用いる人名や場所もある。具体的には、日常の会話の中では、ある人のことを、電話帳に登録されている名前とは違うニックネームで呼んだり、街中の店舗を、地図情報に含まれている店舗名ではなく店舗のオーナーの名前で呼ぶことがある。

本技術においては、ユーザの発話内容に基づいて、そのようなニックネームやオーナーの名前が、「宛先」や「場所」として特定されるように学習が行われるようにしてもよい。その結果、「宛先」に対応する探索範囲にそのニックネームが含まれたり、「場所」に対応する探索範囲にそのオーナーの名前が含まれるようにすることができる。

さらに、SNSアプリなどにおいてやりとりされたメッセージ（ログ）に含まれる人名が、「宛先」として特定されるように学習が行われるようにしてもよい。人名の特定は、意味解析などの自然言語処理によって実現可能である。これにより、「宛先」に対応する探索範囲にその人名が含まれるようにすることができる。

以上のような構成により、音声認識結果の修正精度を向上させることが可能となる。

なお、以上においては、意味解析が行われた文章のインテントが正しく特定されることを前提に説明してきた。文章のインテントが正しく特定されなかった場合には、過去に発話された発話内容から、そのインテントが推定されるようにしてもよい。また、発話内容・分野・ジャンルといったドメインを拡張するウィザードを動作させ、そのインテントをユーザに追加させるようにしてもよい。

（コンピュータの構成例）
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図２１は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

上述した電子機器１０およびサーバ１２０は、図２１に示す構成を有するコンピュータにより実現される。

ＣＰＵ１００１、ＲＯＭ１００２、ＲＡＭ１００３は、バス１００４により相互に接続されている。

バス１００４には、さらに、入出力インタフェース１００５が接続されている。入出力インタフェース１００５には、キーボード、マウスなどよりなる入力部１００６、ディスプレイ、スピーカなどよりなる出力部１００７が接続される。また、入出力インタフェース１００５には、ハードディスクや不揮発性のメモリなどよりなる記憶部１００８、ネットワークインタフェースなどよりなる通信部１００９、リムーバブルメディア１０１１を駆動するドライブ１０１０が接続される。

以上のように構成されるコンピュータでは、ＣＰＵ１００１が、例えば、記憶部１００８に記憶されているプログラムを入出力インタフェース１００５およびバス１００４を介してＲＡＭ１００３にロードして実行することにより、上述した一連の処理が行われる。

ＣＰＵ１００１が実行するプログラムは、例えばリムーバブルメディア１０１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部１００８にインストールされる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたときなどの必要なタイミングで処理が行われるプログラムであっても良い。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

さらに、本技術は以下のような構成をとることができる。
（１）
音声認識により得られた文字列からなる文章において、意味解析により特定された所定の属性の第１の単語の置換候補となる第２の単語を探索する探索部
を備える情報処理装置。
（２）
前記探索部は、前記属性に対応した探索範囲の中から、前記第２の単語を探索する
（１）に記載の情報処理装置。
（３）
前記探索部は、前記属性、および、意味解析が行われた前記文章のインテントに対応した探索範囲の中から、前記第２の単語を探索する
（１）に記載の情報処理装置。
（４）
前記探索部は、前記属性、意味解析が行われた前記文章のインテント、および、ユーザの周辺状況に対応した探索範囲の中から、前記第２の単語を探索する
（１）に記載の情報処理装置。
（５）
前記探索部は、意味解析が行われた前記文章に含まれる前記第１の単語の音声データに基づいて、前記第２の単語を探索する
（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
前記探索部は、前記第１の単語に対応したユーザの発話に対する音声認識結果に基づいて、前記第２の単語を探索する
（１）乃至（４）のいずれかに記載の情報処理装置。
（７）
前記探索部は、意味解析により複数の前記属性が特定された場合、前記属性毎に、前記第２の単語を探索する
（１）乃至（６）のいずれかに記載の情報処理装置。
（８）
前記探索部は、前記属性毎の探索の頻度に応じて、前記第２の単語を探索する
（１）乃至（７）のいずれかに記載の情報処理装置。
（９）
ユーザの発話に対して音声認識を行う音声認識部と、
前記音声認識部が行った音声認識により得られた文字列からなる前記文章の意味解析を行う意味解析部とをさらに備える
（１）乃至（８）のいずれかに記載の情報処理装置。
（１０）
前記音声認識部は、大語彙音声認識を行い、
前記探索部は、前記属性に対応したローカル音声認識を行うことで、前記第２の単語を探索する
（９）に記載の情報処理装置。
（１１）
意味解析が行われた前記文章の表示を制御する表示制御部をさらに備える
（１）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
前記表示制御部は、前記文章に含まれる前記第１の単語を強調表示する
（１１）に記載の情報処理装置。
（１３）
前記表示制御部は、前記第１の単語についての音声認識結果の信頼度に応じて、前記第１の単語を強調表示する
（１２）に記載の情報処理装置。
（１４）
前記探索部は、表示されている前記文章においてユーザにより前記第１の単語が指定された場合に、前記第２の単語を探索する
（１１）乃至（１３）のいずれかに記載の情報処理装置。
（１５）
前記表示制御部は、前記探索部による前記第２の単語の探索の結果、前記第１の単語を前記第２の単語に置換した前記文章を表示する
（１１）乃至（１４）のいずれかに記載の情報処理装置。
（１６）
前記表示制御部は、前記探索部により２以上の前記第２の単語が探索された場合、ユーザの発話に応じて、前記文章において前記第２の単語を１つずつ切り替えて表示する
（１５）に記載の情報処理装置。
（１７）
情報処理装置が、
音声認識により得られた文字列からなる文章において、意味解析により特定された所定の属性の第１の単語の置換候補となる第２の単語を探索する
情報処理方法。
（１８）
コンピュータに、
音声認識により得られた文字列からなる文章において、意味解析により特定された所定の属性の第１の単語の置換候補となる第２の単語を探索する
処理を実行させるプログラム。

１０電子機器，５１音声入力部，５２音声認識部，５３大語彙音声認識辞書，５４意味解析部，５５探索部，５６記憶部，５７表示制御部，５８表示部，１１０電子機器，１２０サーバ，１２１通信部，１２２探索部，１２３記憶部

Claims

ユーザの発話に対して大語彙音声認識を行う音声認識部と、
前記大語彙音声認識により得られた文字列からなる文章の意味解析を行うことで、前記文章に含まれる第１の単語の属性を特定する意味解析部と、
内部に保持しているリストから、特定された前記属性に対応した探索範囲に基づいてローカル音声認識辞書を作成することで、前記第１の単語の置換候補となる第２の単語を探索する探索部と
を備える情報処理装置。
前記探索部は、前記属性、および、意味解析が行われた前記文章のインテントに対応した探索範囲の中から、前記第２の単語を探索する
請求項１に記載の情報処理装置。
前記探索部は、前記属性、意味解析が行われた前記文章のインテント、および、ユーザの周辺状況に対応した探索範囲の中から、前記第２の単語を探索する
請求項１に記載の情報処理装置。
前記探索部は、意味解析が行われた前記文章に含まれる前記第１の単語の音声データに基づいて、前記第２の単語を探索する
請求項１に記載の情報処理装置。
前記探索部は、前記第１の単語に対応したユーザの発話に対する音声認識結果に基づいて、前記第２の単語を探索する
請求項１に記載の情報処理装置。
前記探索部は、意味解析により複数の前記属性が特定された場合、前記属性毎に、前記第２の単語を探索する
請求項１に記載の情報処理装置。
前記探索部は、前記属性毎の探索の頻度に応じて、前記第２の単語を探索する
請求項１に記載の情報処理装置。
意味解析が行われた前記文章の表示を制御する表示制御部をさらに備える
請求項１に記載の情報処理装置。
前記表示制御部は、前記文章に含まれる前記第１の単語を強調表示する
請求項８に記載の情報処理装置。
前記表示制御部は、前記第１の単語についての音声認識結果の信頼度に応じて、前記第１の単語を強調表示する
請求項９に記載の情報処理装置。
前記探索部は、表示されている前記文章においてユーザにより前記第１の単語が指定された場合に、前記第２の単語を探索する
請求項８に記載の情報処理装置。
前記表示制御部は、前記探索部による前記第２の単語の探索の結果、前記第１の単語を前記第２の単語に置換した前記文章を表示する
請求項８に記載の情報処理装置。
前記表示制御部は、前記探索部により２以上の前記第２の単語が探索された場合、ユーザの発話に応じて、前記文章において前記第２の単語を１つずつ切り替えて表示する
請求項１２に記載の情報処理装置。
情報処理装置が、
ユーザの発話に対して大語彙音声認識を行い、
前記大語彙音声認識により得られた文字列からなる文章の意味解析を行うことで、前記文章に含まれる第１の単語の属性を特定し、
内部に保持しているリストから、特定された前記属性に対応した探索範囲に基づいてローカル音声認識辞書を作成することで、前記第１の単語の置換候補となる第２の単語を探索する
情報処理方法。
コンピュータに、
ユーザの発話に対して大語彙音声認識を行い、
前記大語彙音声認識により得られた文字列からなる文章の意味解析を行うことで、前記文章に含まれる第１の単語の属性を特定し、
内部に保持しているリストから、特定された前記属性に対応した探索範囲に基づいてローカル音声認識辞書を作成することで、前記第１の単語の置換候補となる第２の単語を探索する
処理を実行させるプログラム。