JP7279636B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP7279636B2
JP7279636B2 JP2019536735A JP2019536735A JP7279636B2 JP 7279636 B2 JP7279636 B2 JP 7279636B2 JP 2019536735 A JP2019536735 A JP 2019536735A JP 2019536735 A JP2019536735 A JP 2019536735A JP 7279636 B2 JP7279636 B2 JP 7279636B2
Authority
JP
Japan
Prior art keywords
word
speech recognition
user
information processing
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019536735A
Other languages
English (en)
Other versions
JPWO2019035373A1 (ja
Inventor
祐平 滝
真一 河野
広 岩瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2019035373A1 publication Critical patent/JPWO2019035373A1/ja
Application granted granted Critical
Publication of JP7279636B2 publication Critical patent/JP7279636B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Description

本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、ユーザが期待する音声認識結果を得ることができるようにする情報処理装置、情報処理方法、およびプログラムに関する。
音声認識に関する様々な技術が知られている。その中で、例えば特許文献1には、音声認識結果の正誤を発話者に確認させ、誤りのある箇所を記憶する装置が開示されている。
また近年、大語彙音声認識エンジンを利用して、ユーザの発話音声によって電子機器などに指示を与える技術がある。
特開2002-297189号公報
しかしながら、上述したような音声認識エンジンでは、一般的でない固有名詞や、発話したユーザのみが知る単語などは辞書に登録されていないため、ユーザが期待する音声認識結果が得られないことがあった。
例えば、発話音声によって電子機器に対して特定の宛先への電子メールの送信を指示する場合、宛先となる人名が辞書に登録されていないため、正しい宛先が入力されなかった。
本技術は、このような状況に鑑みてなされたものであり、ユーザが期待する音声認識結果を得ることができるようにするものである。
ユーザの発話に対して大語彙音声認識を行う音声認識部と、前記大語彙音声認識により得られた文字列からなる文章の意味解析を行うことで、前記文章に含まれる第1の単語の属性を特定する意味解析部と、内部に保持しているリストから、特定された前記属性に対応した探索範囲に基づいてローカル音声認識辞書を作成することで、前記第1の単語の置換候補となる第2の単語を探索する探索部とを備える。
本技術の情報処理方法は、情報処理装置が、ユーザの発話に対して大語彙音声認識を行い、前記大語彙音声認識により得られた文字列からなる文章の意味解析を行うことで、前記文章に含まれる第1の単語の属性を特定し、内部に保持しているリストから、特定された前記属性に対応した探索範囲に基づいてローカル音声認識辞書を作成することで、前記第1の単語の置換候補となる第2の単語を探索することを含む。
本技術のプログラムは、コンピュータに、ユーザの発話に対して大語彙音声認識を行い、前記大語彙音声認識により得られた文字列からなる文章の意味解析を行うことで、前記文章に含まれる第1の単語の属性を特定し、内部に保持しているリストから、特定された前記属性に対応した探索範囲に基づいてローカル音声認識辞書を作成することで、前記第1の単語の置換候補となる第2の単語を探索する処理を実行させる。
本技術においては、ユーザの発話に対して大語彙音声認識が行われ、前記大語彙音声認識により得られた文字列からなる文章の意味解析を行うことで、前記文章に含まれる第1の単語の属性が特定され、内部に保持しているリストから、特定された前記属性に対応した探索範囲に基づいてローカル音声認識辞書が作成されることで、前記第1の単語の置換候補となる第2の単語が探索される。
本技術によれば、ユーザが期待する音声認識結果を得ることが可能となる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術の音声認識の概要について説明する図である。 本技術の音声認識の概要について説明する図である。 本技術の音声認識の概要について説明する図である。 本技術の音声認識の概要について説明する図である。 本技術を適用した電子機器のハードウェア構成例を示すブロック図である。 電子機器の機能構成例を示すブロック図である。 音声認識結果修正処理について説明するフローチャートである。 音声認識結果の表示例を示す図である。 音声認識結果の表示例を示す図である。 音声認識結果の表示例を示す図である。 音声認識結果の表示例を示す図である。 音声認識結果修正処理について説明するフローチャートである。 音声データに基づいた置換候補の探索について説明する図である。 音声認識結果の表示例を示す図である。 音声認識結果の表示例を示す図である。 インテントに対応した探索範囲の例を示す図である。 探索範囲の具体例について説明する図である。 ユーザの周辺状況に対応した探索範囲の例を示す図である。 探索範囲の具体例について説明する図である。 本技術を適用したサーバの機能構成例を示すブロック図である。 コンピュータの構成例を示すブロック図である。
以下、本開示を実施するための形態(以下、実施の形態とする)について説明する。なお、説明は以下の順序で行う。
1.本技術の音声認識の概要
2.第1の実施の形態(ユーザの再発話に基づいて音声認識結果を修正する例)
3.第2の実施の形態(自動的に音声認識結果を修正する例)
4.置換候補の探索範囲の例
5.第3の実施の形態(サーバへの適用)
6.その他
<1.本技術の音声認識の概要>
まず、図1乃至図4を参照して、本技術の音声認識の概要について説明する。
図1には、ユーザU1と、ユーザU1の発話に対して音声認識を行う、本技術を適用した電子機器10が示されている。
図1の例では、ユーザU1が、“DonDonさんに明日ゲームやろうよってメールして”と発話することによって、電子機器10に対して“DonDonさん”へ電子メールを用いたメッセージの送信を指示している。
電子機器10は、ユーザU1の発話に対して、大語彙音声認識エンジンを利用して音声認識を行う。しかしながら、宛先となる“DonDonさん”は辞書に登録されておらず、図1に示されるように、“都道さん”と誤って認識されてしまう。
そこで、電子機器10は、音声認識により得られた文字列からなる文章の意味解析を行うことで、“都道さん”という「宛先」、“明日ゲームやろうよ”という「内容」、そして、電子メールを用いたメッセージの送信という「意図(インテント)」を特定する。
電子機器10は、「宛先」という属性(以下、スロットという)に基づいて、図2に示されるように、内部に保持しているコンタクトリスト(電話帳)L1から、宛先になり得る宛先リストを辞書として取得するとともに、コマンド型の音声認識エンジンを起動する。
この状態で、図2に示されるように、ユーザU1が“DonDonさん”と再発話すると、電子機器10は、コンタクトリストL1(宛先リスト)に含まれている“DonDonさん”を正しく認識し、音声認識により得られた文字列における“都道さん”を置換する。
また、図3の例では、ユーザU1が、“DonDonさんに明日ゲームやろうよってAloneで送って”と発話することによって、電子機器10に対して“DonDonさん”へ“Alone”とうアプリケーション(以下、アプリという)を用いたメッセージの送信を指示している。“Alone”は、メッセージの送信手段となるアプリである。
電子機器10は、ユーザU1の発話に対して、大語彙音声認識エンジンを利用して音声認識を行う。しかしながら、宛先となる“DonDonさん”は辞書に登録されておらず、図3に示されるように、“都道さん”と誤って認識されてしまう。また、メッセージの送信手段となる“Alone”もまた辞書に登録されておらず、図3に示されるように、“アロー”と誤って認識されてしまう。
そこで、電子機器10は、音声認識により得られた文字列からなる文章の意味解析を行うことで、“都道さん”という「宛先」、“明日ゲームやろうよ”という「内容」、“アロー”という「メッセージの送信手段」、そして、メッセージの送信という「インテント」の各要素を特定する。
電子機器10は、「宛先」というスロットに基づいて、図4に示されるように、内部に保持しているコンタクトリストL1から、宛先になり得る宛先リストを辞書として取得するとともに、コマンド型の音声認識エンジンを起動する。また、電子機器10は、「メッセージの送信手段」というスロットに基づいて、図4に示されるように、内部に保持しているインストールアプリ一覧L2から、メッセージの送信手段になり得るアプリ名リストを辞書として取得するとともに、コマンド型の音声認識エンジンを起動する。
この状態で、図4に示されるように、ユーザU1が“DonDonさん”と再発話すると、電子機器10は、コンタクトリストL1(宛先リスト)に含まれている“DonDonさん”を正しく認識し、音声認識により得られた文字列における“都道さん”を置換する。さらに、ユーザU1が“Alone”と再発話すると、電子機器10は、コンタクトリストL2(アプリ名リスト)に含まれている“Alone”を正しく認識し、音声認識により得られた文字列における“アロー”を置換する。
以上のようにして、電子機器10は、音声認識結果を正しく修正する。
<2.第1の実施の形態>
(電子機器の構成例)
図5は、本技術を適用した第1の実施の形態の電子機器10のハードウェア構成例を示すブロック図である。電子機器10は、例えば、ユーザ対話型のエージェント機器として構成される。
CPU(Central Processing Unit)31、ROM(Read Only Memory)32、RAM(Random Access Memory)33は、バス34により相互に接続される。
バス34には、マイク35、センサ36、スピーカ37、ディスプレイ38、入力部39、記憶部40、および通信部41が接続される。
マイク35は、ユーザの発話音声を検出する。
センサ36は、カメラ、加速度センサ、ジャイロセンサ、測位センサなどの各種のセンサにより構成される。例えば、センサ36は、撮影により得られた画像を出力する。また、センサ36は、加速度、角速度、現在位置などの検出結果を表す情報を出力する。
スピーカ37は、音声(合成音声)を出力する。
ディスプレイ38は、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイなどにより構成される。ディスプレイ38は、音声認識により得られた文字列を音声認識結果として表示する。
入力部39は、ディスプレイ38に重ねて設けられたタッチパネルや、電子機器10の筐体に設けられた各種のボタンにより構成される。入力部39は、ユーザによる操作を検出し、操作の内容を表す情報を出力する。
記憶部40は、不揮発性のメモリなどにより構成される。記憶部40は、CPU31が実行するプログラムの他に、音声合成用のデータ、上述したコンタクトリストやインストールアプリ一覧などの各種のデータを記憶する。
通信部41は、ネットワークインタフェースなどにより構成される。通信部41は、無線や有線による通信を外部の装置との間で行う。
図6は、電子機器10の機能構成例を示すブロック図である。
図6に示される電子機器10の機能ブロックのうちの少なくとも一部は、図5のCPU31により所定のプログラムが実行されることによって実現される。
電子機器10は、音声入力部51、音声認識部52、大語彙音声認識辞書53、意味解析部54、探索部55、記憶部56、表示制御部57、および表示部58から構成される。
音声入力部51は、図5のマイク35に対応し、ユーザの発話音声を入力する。音声入力部51は、入力されたユーザの発話音声に対応する音声データを、音声認識部52に供給する。
音声認識部52は、音声入力部51からの音声データに対して、大語彙音声認識エンジンを用いることにより大語彙音声認識を行う。
大語彙音声認識辞書53は、広範囲な発話内容に対応する語彙があらかじめ登録された辞書である。音声認識部52は、音声入力部51からの音声データと、大語彙音声認識辞書53に登録されている語彙(単語)とを照合することで、音声認識を行うことができる。音声認識により得られた文字列は、意味解析部54に供給される。
意味解析部54は、音声認識部52からの文字列からなる文章に対して、自然言語処理、具体的には意味解析を行うことで、文章に含まれる所定のスロット(属性)を特定する。スロットは、上述した「宛先」の他、「場所」や「通話相手」など、特に、文章において一般的でない固有名詞や、属人性の高い単語が用いられる形態素の属性である。
探索部55は、音声認識により得られた文字列からなる文章において、意味解析部54の意味解析により特定されたスロットに該当する単語(第1の単語)の置換候補(第2の単語)を探索する。
具体的には、探索部55は、記憶部56に記憶されているデータの中で、特定されたスロットに対応した探索範囲に基づいて、ローカル音声認識辞書を作成し、コマンド認識や定型文認識を行うローカル音声認識エンジンを起動する。
記憶部56は、図5の記憶部40に対応し、例えば、上述したコンタクトリストやインストールアプリ一覧を記憶する。
したがって、例えば、スロットとして「宛先」が特定された場合、探索部55は、記憶部56に記憶されているコンタクトリストに基づいて、ローカル音声認識辞書としての宛先リストを作成し、特定されたスロットに対応するローカル音声認識エンジンを起動する。
そして、探索部55は、特定されたスロットについてのユーザの再発話に基づいて、ローカル音声認識エンジンを用いることにより、置換候補となる単語を探索し、特定されたスロットに該当する単語を、探索された単語に置換する。
表示制御部57は、図5のディスプレイ38に対応する表示部58の表示を制御する。具体的には、表示制御部57は、意味解析部54により意味解析が行われた文章を表示部58に表示させたり、特定されたスロットに該当する単語が探索部55により置換された文章を表示部58に表示させる。
(音声認識結果修正処理の流れ)
次に、図7のフローチャートを参照して、電子機器10による音声認識結果修正処理の流れについて説明する。図7の処理は、音声入力部51に、ユーザの発話音声が入力されると開始される。
ステップS1において、音声認識部52は、ユーザの発話音声(音声入力部51からの音声データ)に対して、大語彙音声認識エンジンを用いることにより大語彙音声認識を行う。
ステップS2において、意味解析部54は、音声認識部52が行った音声認識により得られた文字列からなる文章の意味解析を行う。
ステップS3において、意味解析部54は、意味解析の結果に基づいて、文章に含まれるスロット(例えば「宛先」)を特定する。
ステップS4において、探索部55は、記憶部56に記憶されているデータの中で、特定されたスロットに対応した探索範囲に基づいて、ローカル音声認識辞書を作成する。
ステップS5において、探索部55は、ローカル音声認識エンジンを起動する。
ここで、ユーザにより、特定されたスロットに該当する単語が再発話されたものとする。
ステップS6において、探索部55は、特定されたスロットについてのユーザの再発話に基づいて、ローカル音声認識エンジンを用いることにより、置換候補となる単語を探索する。
ステップS7において、探索部55は、特定されたスロットに該当する単語を、探索された単語に置換する。
以上の処理によれば、一般的でない固有名詞や、発話したユーザのみが知る単語などが辞書に登録されていなくとも、ユーザが期待する音声認識結果を得ることが可能となる。その結果、例えば、発話音声によって電子機器10に対して特定の宛先への電子メールの送信を指示する場合であっても、正しい宛先が入力されるようになる。
ここで、上述した音声認識結果修正処理において、表示制御部57による表示部58の音声認識結果の表示例について説明する。
(音声認識結果の表示例1)
図8は、音声認識結果の第1の表示例を示す図である。
1段目に示されるように、ユーザの初期発話として、“DonDonさんに明日ゲームやろうよってメールして”という発話音声が入力された場合、2段目に示されるように、(大語彙)音声認識結果が表示される。この音声認識結果においては、初期発話の文章において宛先となる“DonDonさん”が“都道さん”と誤って認識されている。
音声認識により得られた文字列からなる文章の意味解析が行われ、特定されたスロットである「宛先」に対応したローカル音声認識エンジンが起動されると、3段目に示されるように、音声認識結果の表示が修正可能状態になる。具体的には、音声認識結果の文章に含まれる、特定されたスロット「宛先」に該当する“都道さん”が強調表示される。図8の例では、特定されたスロットに該当する単語(“都道さん”)に下線が付されているが、これに限らず、文字フォント、色、サイズ、背景色が変わるなどしてもよい。
この修正可能状態は、例えば5秒間などの所定の時間継続される。
そして、修正可能状態の間に、ユーザにより“DonDonさん”と再発話されることで、ローカル音声認識により、コンタクトリストに含まれている“DonDonさん”が探索される。その結果、4段目に示されるように、音声認識結果における“都道さん”が“DonDonさん”に置換された文章が表示されるようになる。
このようにして、ユーザは、再発話することにより、容易に音声認識結果を修正することができる。
(音声認識結果の表示例2)
図9は、音声認識結果の第2の表示例を示す図である。
図9における1段目から3段目までの状態は、図8と同様であるので、その説明は省略する。
3段目の修正可能状態の間に、ユーザにより“DonDonさん”と再発話されることで、ローカル音声認識により、コンタクトリストに含まれている“藤堂さん”が探索される。その結果、4段目に示されるように、音声認識結果における“都道さん”が“藤堂さん”に置換された文章が表示される。
しかしながら、ユーザが再発話したのは、“藤堂さん”ではなく“DonDonさん”である。このように、コンタクトリストに似た名前が含まれている場合、1回の再発話では、ユーザの所望する修正結果が得られないことがある。
そこで、4段目の状態で、ユーザにより“DonDonさん”とさらに再発話されることで、ローカル音声認識により、コンタクトリストに含まれている“DonDonさん”が探索される。その結果、5段目に示されるように、音声認識結果における“都道さん”が“DonDonさん”に置換された文章が表示されるようになる。
以上のように、特定されたスロットに対応した探索範囲において、そのスロットに該当する単語の置換候補が複数含まれる場合、ユーザが再発話を繰り返すことで、文章において置換候補が1つずつ切り替えて表示されるようにする。これにより、置換候補が絞り込まれ、確実に、ユーザの所望する修正結果が得られるようになる。
(音声認識結果の表示例3)
図10は、音声認識結果の第3の表示例を示す図である。
1段目に示されるように、ユーザの初期発話として、“ToToさんに明日ゲームやろうよってToDoで送って”という発話音声が入力された場合、2段目に示されるように、(大語彙)音声認識結果が表示される。この音声認識結果においては、初期発話の文章において宛先となる“DonDonさん”が“東都さん”と、メッセージの送信手段となる“ToDo”が“藤堂”とそれぞれ誤って認識されている。なお、ここで、“ToDo”は、メッセージの送信手段となるアプリである。
音声認識により得られた文字列からなる文章の意味解析が行われ、特定されたスロットである「宛先」および「メッセージの送信手段」それぞれに対応したローカル音声認識エンジンが起動されると、3段目に示されるように、音声認識結果の表示が修正可能状態になる。具体的には、音声認識結果の文章に含まれる、特定されたスロット「宛先」に該当する“東都さん”と、スロット「メッセージの送信手段」に該当する“藤堂”とが強調表示される。図10の例においても、特定されたスロットに該当する単語に下線が付されているが、これに限らず、文字フォント、色、サイズ、背景色が変わるなどしてもよい。
そして、修正可能状態の間に、ユーザにより“DonDonさん”,“ToDo”と再発話されることで、ローカル音声認識により、コンタクトリストに含まれている“DonDonさん”と、インストールアプリ一覧に含まれている“ToDo”とが、スロット毎に探索される。その結果、4段目に示されるように、音声認識結果における“東都さん”が“DonDonさん”に、“藤堂”が“ToDo”にそれぞれ置換された文章が表示される。
このとき、「宛先」に対応した音声認識エンジンにより、“DonDonさん”に置換される単語の位置が特定されるとともに、「メッセージの送信手段」に対応した音声認識エンジンにより、“ToDo”に置換される単語の位置が特定される。
このように、類似した単語が複数のスロットに存在する場合であっても、各スロットに対応した探索範囲の中から、適切に置換候補が探索される。これにより、ユーザは、どの単語を修正するかを選択するためのフォーカス遷移の操作などをすることなく、音声認識結果を修正することができる。
(音声認識結果の表示例4)
図11は、音声認識結果の第4の表示例を示す図である。
図11における1段目および2段目までの状態は、図10と同様であるので、その説明は省略する。
図10の例では、2つのスロット「宛先」および「メッセージの送信手段」が特定され、その2段目の修正可能状態では、音声認識結果の文章に含まれる、2つのスロットに該当する単語がそれぞれ強調表示されるものとした。
図11の例では、2つのスロットが特定された場合の修正可能状態において、3段目および4段目に示されるように、それぞれのスロットに該当する単語が強調表示された状態が、一定時間毎に切り替わる。
具体的には、音声認識結果の文章に含まれるスロット「宛先」に該当する“東都さん”が強調表示される状態と、スロット「メッセージの送信手段」に該当する“藤堂”が強調表示される状態とが切り替わる。
この場合も、それぞれの修正可能状態の間に、ユーザにより“DonDonさん”または“ToDo”と再発話されることで、ローカル音声認識により、コンタクトリストに含まれている“DonDonさん”と、インストールアプリ一覧に含まれている“ToDo”とが、スロット毎に探索される。その結果、5段目に示されるように、音声認識結果における“東都さん”が“DonDonさん”に、“藤堂”が“ToDo”にそれぞれ置換された文章が表示されるようになる。
なお、上述した表示例において、ユーザによって再発話される前に、特定されたスロットに該当する単語の置換候補が表示されるようにしてもよい。この場合、ユーザの再発話によらず、特定されたスロットに該当する単語の置換候補を探索する必要があるが、後述する実施の形態の処理により、これを実現することができる。
また、上述した表示例では、ユーザの発話内容(意味解析が行われた文章)が全て表示されるものとしたが、意味解析により特定された要素の一部が表示されるようにしてもよい。
例えば、ユーザにより、電子メールを用いたメッセージの送信が指示された場合、表示部58に表示された新規メール作成画面の宛先(To)欄に、「宛先」に該当する文字列(電子メールアドレスの情報を含む)が表示されるようにする。また、新規メール作成画面の本文欄には、「内容」に該当する文字列が表示されるようにする。
<3.第2の実施の形態>
以上においては、ユーザの再発話に基づいて、音声認識結果が修正される例について説明したが、ユーザの再発話によらず、自動的に音声認識結果が修正されるようにすることもできる。
(音声認識結果修正処理の流れ)
図12は、本実施の形態における電子機器10による音声認識結果修正処理の流れについて説明するフローチャートである。
なお、図12におけるステップS11乃至S15の処理は、図7におけるステップS1乃至S5の処理と同様であるので、その説明は省略する。
ステップS15の後、処理はステップS16に進み、探索部55は、意味解析が行われた文章に含まれる、特定されたスロットに該当する単語の音声データに基づいて、ローカル音声認識エンジンを用いることにより、置換候補となる単語を探索する。
例えば、図13の1段目に示されるように、ユーザの初期発話として、“DonDonさんに明日ゲームやろうよってAloneで送って”という発話音声が入力された場合、意味解析により、スロットとして、「宛先」および「メッセージの送信手段」(アプリ名)とが特定される。
探索部55は、ユーザの初期発話の音声データを取得し、音声データにおいて、意味解析が行われた文章において「宛先」およびアプリ名に対応する箇所を、発話全体の時間やスロットに該当する単語の長さなどに基づいて推定する。
探索部55は、音声データにおいて「宛先」に該当するデータD11を推定すると、矢印#11に示されるように、宛先リストを辞書に持つローカル音声認識エンジンを起動することで、データD11の置換候補となる単語を探索する。同様に、探索部55は、音声データにおいてアプリ名に該当するデータD12を推定すると、矢印#12に示されるように、アプリ名リストを辞書に持つローカル音声認識エンジンを起動することで、データD12の置換候補となる単語を探索する。
このようにして、音声データに基づいて、置換候補となる単語が探索される。
図12のフローチャートに戻り、ステップS17において、探索部55は、特定されたスロットに該当する単語を、探索された単語に置換する。
図14は、上述した音声認識結果修正処理における音声認識結果の表示例を示す図である。
1段目に示されるように、ユーザの初期発話として、“DonDonさんに明日ゲームやろうよってAloneで送って”という発話音声が入力された場合、2段目に示されるように、(大語彙)音声認識結果が得られる。この音声認識結果においては、初期発話の文章において宛先となる“DonDonさん”が“東都さん”と、メッセージの送信手段となる“Alone”が“アロー”とそれぞれ誤って認識されている。なお、ここでは、この音声認識結果は、表示部58に表示されない。
音声認識により得られた文字列からなる文章の意味解析が行われ、特定されたスロットである「宛先」および「メッセージの送信手段」それぞれに対応したローカル音声認識エンジンが起動されると、探索部55は、それぞれのスロットに該当する単語(音声データ)の置換候補となる単語を探索する。
その結果、3段目に示されるように、音声認識結果における“都道さん”が“DonDonさん”に、“アロー”が“Alone”にそれぞれ置換された文章が表示されるようになる。
以上の処理によれば、ユーザが再発話することなく、ユーザが期待する音声認識結果を得ることが可能となる。
なお、特定されたスロットに該当する単語が正しく音声認識されていたにもかかわらず、自動的に置換されることにより、誤った音声認識結果が得られてしまう可能性がある。
このような場合、図15を参照して説明するように、ユーザの再発話に基づいて、表示された文章において置換された単語が修正されるようにしてもよい。
具体的には、図15の1段目に示されるように、ユーザの初期発話として、“DonDonさんに明日ゲームやろうよってAloneで送って”という発話音声が入力された場合、2段目に示されるように、(大語彙)音声認識結果が得られる。この音声認識結果においては、初期発話の文章において宛先となる“DonDonさん”は正しく認識され、メッセージの送信手段となる“Alone”が“アロー”と誤って認識されている。
音声認識により得られた文字列からなる文章の意味解析が行われ、特定されたスロットである「宛先」および「メッセージの送信手段」に対応したローカル音声認識エンジンが起動されると、探索部55は、それぞれのスロットに該当する単語(音声データ)の置換候補となる単語を探索する。
その結果、3段目に示されるように、音声認識結果における“DonDonさん”が“藤堂さん”に、“アロー”が“Alone”にそれぞれ置換された文章が表示されるようになる。しかしながら、正しく認識された「宛先」の“DonDonさん”が、誤って“藤堂さん”に置換されている。
この状態で、ユーザにより“DonDonさん”と再発話されることで、ローカル音声認識により、コンタクトリストに含まれている“DonDonさん”が探索される。その結果、4段目に示されるように、音声認識結果における“藤堂さん”が“DonDonさん”に置換された文章が表示されるようになる。
以上のように、自動的に音声認識結果が修正される構成において、その修正結果のユーザによるさらなる修正を可能とすることで、誤った修正がなされた場合であっても、結果として、ユーザが期待する音声認識結果を得ることが可能となる。
なお、特定されるスロット毎に、ユーザによるさらなる修正(探索)の頻度(修正結果の正解率)が学習されるようにしてもよい。この場合、その学習結果に基づいて、スロット毎に、自動的に音声認識結果が修正される処理(図12)を実行するか、または、ユーザの再発話に基づいて音声認識結果が修正される処理(図7)を実行するかが決定されるようにすることができる。例えば、「宛先」についての自動的な音声認識結果の修正結果の正解率が所定の値より低い場合、「宛先」については、ユーザの再発話に基づいて音声認識結果が修正される処理が実行されるようにする。また、「メッセージの送信手段」についての自動的な音声認識結果の修正結果の正解率が所定の値より高い場合、「メッセージの送信手段」については、自動的に音声認識結果が修正される処理が実行されるようにする。
なお、上述した実施の形態における音声認識結果の表示例において、特定されたスロットに該当する単語についての音声認識結果の信頼度に応じて、その単語が強調表示されるようにしてもよい。例えば、音声認識結果の信頼度が低いほど、修正する必要性が高くなると考えられるので、特定されたスロットに該当する単語についての音声認識結果の信頼度が所定の値より低い場合に、その単語が強調表示されるようにする。
さらに、上述した実施の形態における音声認識結果の表示例において、音声認識結果の修正結果として表示されている文章において、ユーザにより、特定されたスロットに該当する単語が指定された場合に、置換候補となる単語が探索されるようにしてもよい。これにより、ユーザは、誤った認識や修正がなされた単語のみを、正しく修正することができる。
<4.置換候補の探索範囲の例>
上述した実施の形態では、特定されたスロットに該当する単語の置換候補の探索範囲は、そのスロット(属性)に対応した探索範囲としていた。
しかしながら、同一のスロットであっても、ユーザの発話内容(意味解析が行われた文章)のインテントによって、その探索範囲は異なる。
図16は、インテントに対応した探索範囲の例を示す図である。
図16に示される3つの例においては、いずれも、スロットAに対応した探索範囲の中に、インテントAに対応した置換候補と、インテントBに対応した置換候補とが含まれている。
図16のAには、インテントAに対応した置換候補と、インテントBに対応した置換候補とが、互いに共通する要素を持たない例が示されている。
図16のBには、インテントAに対応した置換候補と、インテントBに対応した置換候補とが、その一部に、互いに共通する要素を持つ例が示されている。
図16のCには、インテントAに対応した置換候補が、インテントBに対応した置換候補の要素を全て含む例が示されている。
すなわち、探索部55は、スロット、および、意味解析が行われた文章のインテントに対応した探索範囲の中から、そのスロットに該当する単語の置換候補を探索することになる。
図17は、インテントに対応した探索範囲の具体例について説明する図である。
ユーザの発話内容のインテントが「メール送信」であり、スロットが「宛先」である場合、「宛先」に該当する単語の探索範囲は、電話帳となる。ユーザの発話内容のインテントが「SNS(Social Networking Service)アプリメッセージの送信」であり、スロットが「宛先」である場合、「宛先」に該当する単語の探索範囲は、そのSNSアプリのフレンドリストとなる。
このように、スロットが「宛先」であっても、ユーザの発話内容のインテントによって、その探索範囲は異なる。
ここで、1つのスロットに該当する単語の探索結果に応じて、他のスロットに該当する単語が識別されるようにしてもよい。具体的には、「宛先」となり得る人名は、同一人物を示す場合であっても、「メッセージ送信手段」となるSNSアプリ毎に異なる名称(ハンドルネームなど)で登録されていることがある。この場合、「宛先」に該当する単語の探索結果に応じて、「メッセージ送信手段」となるSNSアプリが識別されるようにしてもよい。
さらに、ユーザの発話内容のインテントが「旅行先を探す」ことであり、スロットが「場所」である場合、「場所」に該当する単語の探索範囲は、海外の国名・都市名リストや国内の都道府県名リストとなる。ユーザの発話内容のインテントが「スーパーマーケットを探す」ことであり、スロットが「場所」である場合、「場所」に該当する単語の探索範囲は、ユーザの自宅周辺の市名、区名、町名となる。
また、ユーザの発話内容のインテントが「ニュースを探す」ことであり、スロットが「場所」である場合、「場所」に該当する単語の探索範囲は、全世界の都市名となる。ユーザの発話内容のインテントが「電車の乗り換えを調べる」ことであり、スロットが「場所」である場合、「場所」に該当する単語の探索範囲は、駅名となる。
このように、スロットが「場所」であっても、ユーザの発話内容のインテントによって、その探索範囲は異なる。
なお、ユーザの発話内容のインテントが「電話する」ことであり、スロットが「(通話)相手」である場合、「相手」に該当する単語の探索範囲は、電話帳の中の電話番号登録者となる。
さらに、同一のスロット、同一のインテントであっても、ユーザの周辺状況(ユーザの周辺環境や条件)によって、その探索範囲はまた異なる。
図18は、ユーザの周辺状況(以下、単に状況という)に対応した探索範囲の例を示す図である。
図18に示される3つの例においては、いずれも、スロットAおよびインテントAに対応した探索範囲の中に、状況Aに対応した置換候補と、状況Bに対応した置換候補とが含まれている。
図18のAには、状況Aに対応した置換候補と、状況Bに対応した置換候補とが、互いに共通する要素を持たない例が示されている。
図18のBには、状況Aに対応した置換候補と、状況Bに対応した置換候補とが、その一部に、互いに共通する要素を持つ例が示されている。
図18のCには、状況Aに対応した置換候補が、状況Bに対応した置換候補の要素を全て含む例が示されている。
すなわち、探索部55は、スロット、意味解析が行われた文章のインテント、および、ユーザの周辺状況に対応した探索範囲の中から、そのスロットに該当する単語の置換候補を探索することになる。
図19は、ユーザの周辺状況に対応した探索範囲の具体例について説明する図である。
ユーザの発話内容のインテントが「メール送信」、スロットが「宛先」であり、ユーザの周辺環境・条件が、自宅方向へ移動中で、かつ、時間帯が18時から22時の間である場合、「宛先」に該当する単語の探索範囲は、電話帳の中の家族や友人となる。ユーザの発話内容のインテントが「メール送信」、スロットが「宛先」であり、ユーザの周辺環境・条件が、勤務先室内におり、かつ、時間帯が日中帯である場合、「宛先」に該当する単語の探索範囲は、パーソナルコンピュータ(PC)の宛先リストのうち、会社関係の宛先となる。
また、図示はしないが、ユーザの発話内容のインテントが「メール送信」、スロットが「宛先」であり、ユーザの周辺環境・条件が、在宅中である場合には、「宛先」に該当する単語の探索範囲は、電話帳の中の家族以外の人物とすることもできる。
このように、インテントが「メール送信」で、かつ、スロットが「宛先」であっても、ユーザの周辺状況によって、その探索範囲は異なる。
さらに、ユーザの発話内容のインテントが「車載ナビゲーションシステムでレストランを探す」こと、スロットが「場所」であり、周辺道路が空いている場合、「場所」に該当する単語の探索範囲は、現在位置から半径10km以内の店名リストとなる。ユーザの発話内容のインテントが「車載ナビゲーションシステムでレストランを探す」こと、スロットが「場所」であり、周辺道路が混雑している場合、「場所」に該当する単語の探索範囲は、現在位置から半径1km以内の店名リストとなる。ユーザの発話内容のインテントが「車載ナビゲーションシステムでレストランを探す」こと、スロットが「場所」であり、ナビゲーションシステムを使用しながら高速道路を走行中である場合、「場所」に該当する単語の探索範囲は、目的地までの経路上から距離500m以内の店名リストとなる。
このように、インテントが「メール送信」で、かつ、スロットが「宛先」であっても、ユーザの周辺状況によって、その探索範囲は異なる。
なお、上述した例では、ユーザの発話内容におけるスロットは、「宛先」や「場所」、「通話相手」などとしたが、これらに限定されない。
例えば、ユーザが“明日は10:30頃に集合ねって送信して”と発話した場合、スロットとして、“10:30”という「時間」が特定されるようにしてもよい。
また、ユーザが“3000円返してもらうってメモしておいて”と発話した場合、スロットとして、“3000”という「数値」が特定されるようにしてもよい。
さらに、ユーザが“マイケルさんにThank youと返信して”と発話した場合、スロットとして、“Thank you”という「英語」(部分的に用いられる外国語)が特定されるようにしてもよい。
<5.第3の実施の形態>
本技術は、クラウドコンピューティングへ適用することもできる。
例えば、図20に示されるように、電子機器110は、ユーザU11の発話に対して音声認識を行い、音声認識により得られた文字列からなる文章の意味解析を行った結果を、ネットワーク130を介して接続されるサーバ120に送信する。
サーバ120は、通信部121、探索部122、および記憶部123を備えている。
通信部121は、電子機器110からネットワーク130を介して送信される、意味解析が行われた文章と、意味解析の結果とを受信する。
探索部122は、図6の探索部55と同一の機能を有し、電子機器110からの文章において、意味解析により特定されたスロットに該当する単語の置換候補を探索する。探索部122により、特定されたスロットに該当する単語が置換された文章は、ネットワーク130を介して電子機器110に送信される。
記憶部123は、図6の記憶部56と同一の機能を有し、探索部122により探索される置換候補となるデータを記憶する。なお、記憶部123に記憶されるデータは、電子機器110からネットワーク130を介して取得されるようにしてもよい。
具体的には、例えば、サーバ120は、電子機器110が記憶しているコンタクトリストやインストールアプリ一覧などを管理し、記憶部123に記憶されているコンタクトリストやインストールアプリ一覧と同期させる。ここで、例えばスロットとして「宛先」が特定されている場合、サーバ120の探索部122は、記憶部123に記憶されているコンタクトリストに基づいて、ローカル音声認識辞書としての宛先リストを作成し、特定されたスロット(「宛先」)に対応するローカル音声認識エンジンを起動する。これにより、「宛先」に該当する単語の置換候補が探索される。なお、ここでは、サーバ120において起動する音声認識エンジンであっても、ローカル音声認識エンジンと称している。
このような構成においても、一般的でない固有名詞や、発話したユーザのみが知る単語などが辞書に登録されていなくとも、ユーザが期待する音声認識結果を得ることが可能となる。
なお、図20に示される構成においては、電子機器110が、音声認識により得られた文字列からなる文章の意味解析を行うものとしたが、サーバ120に意味解析部54を設けることで、サーバ120がその文章の意味解析を行うようにしてもよい。
<6.その他>
(本技術の適用例)
本技術は、ユーザ対話型のエージェント機器やカーナビゲーションシステムなど、発話音声により指示することで動作する装置やシステムに適用することができる。
さらに、本技術は、家電製品に適用することもできる。
例えば、本技術を冷蔵庫に適用した場合、「食材」や「家族の名前」をスロットとして、音声認識結果を修正する処理が行われるようにしてもよい。正しい音声認識結果が得られることで、冷蔵庫内の特定の食材の有無や保存状態を確認したり、家族の中の特定の人だけに冷蔵庫内の食材を提供することが可能となる。
この場合、「食材」に該当する単語の探索範囲は、冷蔵庫内に収納された食材の履歴や、食材を購入した履歴(レシート)などとする。これらの履歴は、ユーザ(家族一人ひとり)毎に設定されるようにしてもよい。
(探索範囲の拡張)
上述した例では、特定されたスロットに該当する単語の置換候補は、あらかじめ用意されたリストなどを探索範囲として探索されるものとした。
しかしながら、電子機器が保持するリストには登録されていないが、ユーザが日常の会話の中でのみ用いる人名や場所もある。具体的には、日常の会話の中では、ある人のことを、電話帳に登録されている名前とは違うニックネームで呼んだり、街中の店舗を、地図情報に含まれている店舗名ではなく店舗のオーナーの名前で呼ぶことがある。
本技術においては、ユーザの発話内容に基づいて、そのようなニックネームやオーナーの名前が、「宛先」や「場所」として特定されるように学習が行われるようにしてもよい。その結果、「宛先」に対応する探索範囲にそのニックネームが含まれたり、「場所」に対応する探索範囲にそのオーナーの名前が含まれるようにすることができる。
さらに、SNSアプリなどにおいてやりとりされたメッセージ(ログ)に含まれる人名が、「宛先」として特定されるように学習が行われるようにしてもよい。人名の特定は、意味解析などの自然言語処理によって実現可能である。これにより、「宛先」に対応する探索範囲にその人名が含まれるようにすることができる。
以上のような構成により、音声認識結果の修正精度を向上させることが可能となる。
なお、以上においては、意味解析が行われた文章のインテントが正しく特定されることを前提に説明してきた。文章のインテントが正しく特定されなかった場合には、過去に発話された発話内容から、そのインテントが推定されるようにしてもよい。また、発話内容・分野・ジャンルといったドメインを拡張するウィザードを動作させ、そのインテントをユーザに追加させるようにしてもよい。
(コンピュータの構成例)
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図21は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
上述した電子機器10およびサーバ120は、図21に示す構成を有するコンピュータにより実現される。
CPU1001、ROM1002、RAM1003は、バス1004により相互に接続されている。
バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、キーボード、マウスなどよりなる入力部1006、ディスプレイ、スピーカなどよりなる出力部1007が接続される。また、入出力インタフェース1005には、ハードディスクや不揮発性のメモリなどよりなる記憶部1008、ネットワークインタフェースなどよりなる通信部1009、リムーバブルメディア1011を駆動するドライブ1010が接続される。
以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを入出力インタフェース1005およびバス1004を介してRAM1003にロードして実行することにより、上述した一連の処理が行われる。
CPU1001が実行するプログラムは、例えばリムーバブルメディア1011に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部1008にインストールされる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたときなどの必要なタイミングで処理が行われるプログラムであっても良い。
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
さらに、本技術は以下のような構成をとることができる。
(1)
音声認識により得られた文字列からなる文章において、意味解析により特定された所定の属性の第1の単語の置換候補となる第2の単語を探索する探索部
を備える情報処理装置。
(2)
前記探索部は、前記属性に対応した探索範囲の中から、前記第2の単語を探索する
(1)に記載の情報処理装置。
(3)
前記探索部は、前記属性、および、意味解析が行われた前記文章のインテントに対応した探索範囲の中から、前記第2の単語を探索する
(1)に記載の情報処理装置。
(4)
前記探索部は、前記属性、意味解析が行われた前記文章のインテント、および、ユーザの周辺状況に対応した探索範囲の中から、前記第2の単語を探索する
(1)に記載の情報処理装置。
(5)
前記探索部は、意味解析が行われた前記文章に含まれる前記第1の単語の音声データに基づいて、前記第2の単語を探索する
(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記探索部は、前記第1の単語に対応したユーザの発話に対する音声認識結果に基づいて、前記第2の単語を探索する
(1)乃至(4)のいずれかに記載の情報処理装置。
(7)
前記探索部は、意味解析により複数の前記属性が特定された場合、前記属性毎に、前記第2の単語を探索する
(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記探索部は、前記属性毎の探索の頻度に応じて、前記第2の単語を探索する
(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
ユーザの発話に対して音声認識を行う音声認識部と、
前記音声認識部が行った音声認識により得られた文字列からなる前記文章の意味解析を行う意味解析部とをさらに備える
(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
前記音声認識部は、大語彙音声認識を行い、
前記探索部は、前記属性に対応したローカル音声認識を行うことで、前記第2の単語を探索する
(9)に記載の情報処理装置。
(11)
意味解析が行われた前記文章の表示を制御する表示制御部をさらに備える
(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
前記表示制御部は、前記文章に含まれる前記第1の単語を強調表示する
(11)に記載の情報処理装置。
(13)
前記表示制御部は、前記第1の単語についての音声認識結果の信頼度に応じて、前記第1の単語を強調表示する
(12)に記載の情報処理装置。
(14)
前記探索部は、表示されている前記文章においてユーザにより前記第1の単語が指定された場合に、前記第2の単語を探索する
(11)乃至(13)のいずれかに記載の情報処理装置。
(15)
前記表示制御部は、前記探索部による前記第2の単語の探索の結果、前記第1の単語を前記第2の単語に置換した前記文章を表示する
(11)乃至(14)のいずれかに記載の情報処理装置。
(16)
前記表示制御部は、前記探索部により2以上の前記第2の単語が探索された場合、ユーザの発話に応じて、前記文章において前記第2の単語を1つずつ切り替えて表示する
(15)に記載の情報処理装置。
(17)
情報処理装置が、
音声認識により得られた文字列からなる文章において、意味解析により特定された所定の属性の第1の単語の置換候補となる第2の単語を探索する
情報処理方法。
(18)
コンピュータに、
音声認識により得られた文字列からなる文章において、意味解析により特定された所定の属性の第1の単語の置換候補となる第2の単語を探索する
処理を実行させるプログラム。
10 電子機器, 51 音声入力部, 52 音声認識部, 53 大語彙音声認識辞書, 54 意味解析部, 55 探索部, 56 記憶部, 57 表示制御部, 58 表示部, 110 電子機器, 120 サーバ, 121 通信部, 122 探索部, 123 記憶部

Claims (15)

  1. ユーザの発話に対して大語彙音声認識を行う音声認識部と、
    前記大語彙音声認識により得られた文字列からなる文章の意味解析を行うことで、前記文章に含まれる第1の単語の属性を特定する意味解析部と、
    内部に保持しているリストから、特定された前記属性に対応した探索範囲に基づいてローカル音声認識辞書を作成することで、前記第1の単語の置換候補となる第2の単語を探索する探索部と
    を備える情報処理装置。
  2. 前記探索部は、前記属性、および、意味解析が行われた前記文章のインテントに対応した探索範囲の中から、前記第2の単語を探索する
    請求項1に記載の情報処理装置。
  3. 前記探索部は、前記属性、意味解析が行われた前記文章のインテント、および、ユーザの周辺状況に対応した探索範囲の中から、前記第2の単語を探索する
    請求項1に記載の情報処理装置。
  4. 前記探索部は、意味解析が行われた前記文章に含まれる前記第1の単語の音声データに基づいて、前記第2の単語を探索する
    請求項1に記載の情報処理装置。
  5. 前記探索部は、前記第1の単語に対応したユーザの発話に対する音声認識結果に基づいて、前記第2の単語を探索する
    請求項1に記載の情報処理装置。
  6. 前記探索部は、意味解析により複数の前記属性が特定された場合、前記属性毎に、前記第2の単語を探索する
    請求項1に記載の情報処理装置。
  7. 前記探索部は、前記属性毎の探索の頻度に応じて、前記第2の単語を探索する
    請求項1に記載の情報処理装置。
  8. 意味解析が行われた前記文章の表示を制御する表示制御部をさらに備える
    請求項1に記載の情報処理装置。
  9. 前記表示制御部は、前記文章に含まれる前記第1の単語を強調表示する
    請求項8に記載の情報処理装置。
  10. 前記表示制御部は、前記第1の単語についての音声認識結果の信頼度に応じて、前記第1の単語を強調表示する
    請求項9に記載の情報処理装置。
  11. 前記探索部は、表示されている前記文章においてユーザにより前記第1の単語が指定された場合に、前記第2の単語を探索する
    請求項8に記載の情報処理装置。
  12. 前記表示制御部は、前記探索部による前記第2の単語の探索の結果、前記第1の単語を前記第2の単語に置換した前記文章を表示する
    請求項8に記載の情報処理装置。
  13. 前記表示制御部は、前記探索部により2以上の前記第2の単語が探索された場合、ユーザの発話に応じて、前記文章において前記第2の単語を1つずつ切り替えて表示する
    請求項12に記載の情報処理装置。
  14. 情報処理装置が、
    ユーザの発話に対して大語彙音声認識を行い、
    前記大語彙音声認識により得られた文字列からなる文章の意味解析を行うことで、前記文章に含まれる第1の単語の属性を特定し、
    内部に保持しているリストから、特定された前記属性に対応した探索範囲に基づいてローカル音声認識辞書を作成することで、前記第1の単語の置換候補となる第2の単語を探索する
    情報処理方法。
  15. コンピュータに、
    ユーザの発話に対して大語彙音声認識を行い、
    前記大語彙音声認識により得られた文字列からなる文章の意味解析を行うことで、前記文章に含まれる第1の単語の属性を特定し、
    内部に保持しているリストから、特定された前記属性に対応した探索範囲に基づいてローカル音声認識辞書を作成することで、前記第1の単語の置換候補となる第2の単語を探索する
    処理を実行させるプログラム。
JP2019536735A 2017-08-17 2018-08-03 情報処理装置、情報処理方法、およびプログラム Active JP7279636B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017157540 2017-08-17
JP2017157540 2017-08-17
PCT/JP2018/029180 WO2019035373A1 (ja) 2017-08-17 2018-08-03 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2019035373A1 JPWO2019035373A1 (ja) 2020-10-08
JP7279636B2 true JP7279636B2 (ja) 2023-05-23

Family

ID=65362282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019536735A Active JP7279636B2 (ja) 2017-08-17 2018-08-03 情報処理装置、情報処理方法、およびプログラム

Country Status (4)

Country Link
US (1) US20200243074A1 (ja)
EP (1) EP3671730A4 (ja)
JP (1) JP7279636B2 (ja)
WO (1) WO2019035373A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160002B (zh) * 2019-12-27 2022-03-01 北京百度网讯科技有限公司 用于输出口语理解中解析异常信息的方法和装置
CN113312070B (zh) * 2021-06-03 2023-02-24 海信集团控股股份有限公司 车载应用的应用名称更新方法及车辆
WO2022261808A1 (en) * 2021-06-15 2022-12-22 Microsoft Technology Licensing, Llc Contextual spelling correction (csc) for automatic speech recognition (asr)
WO2023210340A1 (ja) * 2022-04-26 2023-11-02 ソニーグループ株式会社 学習装置および学習方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002140094A (ja) 2000-11-01 2002-05-17 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2006184371A (ja) 2004-12-27 2006-07-13 Nissan Motor Co Ltd 音声認識装置および音声認識方法
JP2011118774A (ja) 2009-12-04 2011-06-16 Sony Corp 検索装置、検索方法、及び、プログラム
JP2016102866A (ja) 2014-11-27 2016-06-02 株式会社アイ・ビジネスセンター 誤認識修正装置およびプログラム
WO2016136207A1 (ja) 2015-02-27 2016-09-01 パナソニックIpマネジメント株式会社 音声対話装置、音声対話システム、音声対話装置の制御方法、および、プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
JP3614116B2 (ja) 2001-03-30 2005-01-26 オムロン株式会社 トランスクリプション装置、トランスクリプション方法、トランスクリプションプログラム、およびそのプログラムを記録した記録媒体
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4987623B2 (ja) * 2007-08-20 2012-07-25 株式会社東芝 ユーザと音声により対話する装置および方法
CN102682763B (zh) * 2011-03-10 2014-07-16 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
US9818401B2 (en) * 2013-05-30 2017-11-14 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002140094A (ja) 2000-11-01 2002-05-17 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2006184371A (ja) 2004-12-27 2006-07-13 Nissan Motor Co Ltd 音声認識装置および音声認識方法
JP2011118774A (ja) 2009-12-04 2011-06-16 Sony Corp 検索装置、検索方法、及び、プログラム
JP2016102866A (ja) 2014-11-27 2016-06-02 株式会社アイ・ビジネスセンター 誤認識修正装置およびプログラム
WO2016136207A1 (ja) 2015-02-27 2016-09-01 パナソニックIpマネジメント株式会社 音声対話装置、音声対話システム、音声対話装置の制御方法、および、プログラム

Also Published As

Publication number Publication date
US20200243074A1 (en) 2020-07-30
JPWO2019035373A1 (ja) 2020-10-08
EP3671730A4 (en) 2020-07-15
WO2019035373A1 (ja) 2019-02-21
EP3671730A1 (en) 2020-06-24

Similar Documents

Publication Publication Date Title
US10719507B2 (en) System and method for natural language processing
JP7279636B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US10733983B2 (en) Parameter collection and automatic dialog generation in dialog systems
US20190370398A1 (en) Method and apparatus for searching historical data
KR102596446B1 (ko) 모바일 디바이스들에서의 모달리티 학습
US9009041B2 (en) Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data
CN107039038B (zh) 学习个性化实体发音
US8868409B1 (en) Evaluating transcriptions with a semantic parser
CN107112013B (zh) 用于创建可定制对话系统引擎的平台
US8209183B1 (en) Systems and methods for correction of text from different input types, sources, and contexts
US9286892B2 (en) Language modeling in speech recognition
US9502032B2 (en) Dynamically biasing language models
EP3032532A1 (en) Disambiguating heteronyms in speech synthesis
AU2016213815A1 (en) Systems and methods for integrating third party services with a digital assistant
US20200410992A1 (en) Device for recognizing speech input from user and operating method thereof
JP2008097082A (ja) 音声対話装置
US11514916B2 (en) Server that supports speech recognition of device, and operation method of the server
JP2009237750A (ja) 情報検索支援装置及び情報検索支援方法
WO2020153141A1 (ja) 対話装置及び対話方法
US11756553B2 (en) Training data enhancement
US20190073994A1 (en) Self-correcting computer based name entity pronunciations for speech recognition and synthesis
JP2003162293A (ja) 音声認識装置及び方法
CN116194925A (zh) 从非字符子标记信号中自动检测语言
KR20190134929A (ko) 대화 이해 ai 시스템에 의하여, 키워드 기반 북마크 검색 서비스 제공을 위하여 북마크 정보를 저장하는 방법 및 컴퓨터 판독가능 기록 매체
KR20110128587A (ko) 위치 정보에 기초한 음성 인식 시스템 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230424

R151 Written notification of patent or utility model registration

Ref document number: 7279636

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151