JP6922920B2 - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP6922920B2
JP6922920B2 JP2018535610A JP2018535610A JP6922920B2 JP 6922920 B2 JP6922920 B2 JP 6922920B2 JP 2018535610 A JP2018535610 A JP 2018535610A JP 2018535610 A JP2018535610 A JP 2018535610A JP 6922920 B2 JP6922920 B2 JP 6922920B2
Authority
JP
Japan
Prior art keywords
recognition
information processing
recognition result
processing device
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018535610A
Other languages
English (en)
Other versions
JPWO2018037956A1 (ja
Inventor
祐平 滝
祐平 滝
真一 河野
真一 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2018037956A1 publication Critical patent/JPWO2018037956A1/ja
Application granted granted Critical
Publication of JP6922920B2 publication Critical patent/JP6922920B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Description

本技術は、情報処理装置及び情報処理方法に関し、特に、所望の音声認識結果を容易に得ることができるようにした情報処理装置及び情報処理方法に関する。
従来、1回目及び2回目の音声認識に対する認識結果の候補群の中から、1回目の音声認識においてスコアが最大の候補を除去し、除去した後の1回目の候補群と2回目の候補群のうちスコアの分散が大きい方の候補群の中からスコアが最大の候補を選択して、ユーザに提示することが開示されている(例えば、特許文献1参照)。
特開2016−62069号公報
しかしながら、特許文献1に記載の発明では、1回目と2回目で同じ文章を音声入力する必要があり、文章が長くなるほどユーザの負担が増大する。
そこで、本技術は、所望の音声認識結果を容易に得ることができるようにするものである。
本技術の一側面の情報処理装置は、音声認識の試行回数を含むコンテキストに基づいて、音声認識の認識結果を提示するときの区切りを制御する提示制御部を備える。
前記認識結果の区切りにより前記認識結果を修正可能な単位が定めることができる。
音声認識部をさらに設け、前記提示制御部には、前記音声認識部による前記認識結果の区切りを制御させることができる。
前記提示制御部には、前記認識結果の区切りを制御するための制御情報を生成させ、前記認識結果及び前記制御情報を出力させることができる。
入力音声を他の情報処理装置から受信し、前記認識結果及び前記制御情報を前記他の情報処理装置に送信する通信部をさらに設け、前記音声認識部には、前記入力音声の音声認識を行わせ、前記提示制御部には、前記制御情報により、前記他の情報処理装置において前記認識結果を提示するときの区切りを制御させることができる。
前記通信部には、前記コンテキストを示すデータを前記他の情報処理装置から受信させ、前記提示制御部には、前記コンテキストを示すデータに基づいて、前記他の情報処理装置において前記認識結果を提示するときの区切りを制御させることができる。
通信部をさらに設け、前記通信部には、入力音声、及び、前記認識結果の区切りを制御するための制御情報を他の情報処理装置から受信させ、前記音声認識部には、前記入力音声の音声認識を行わせ、前記提示制御部には、前記制御情報に基づいて、前記音声認識部による前記認識結果を区切らせ、前記通信部には、前記提示制御部により区切られた前記認識結果を前記他の情報処理装置に送信させることができる。
入力音声を他の情報処理装置に送信し、前記入力音声を音声認識することにより得られる前記認識結果を前記他の情報処理装置から受信する通信部をさらに設け、前記提示制御部には、前記他の情報処理装置から受信した前記認識結果を提示するときの区切りを制御させることができる。
前記通信部には、前記認識結果の区切りを制御するための制御情報を前記他の情報処理装置から受信させ、前記提示制御部には、前記制御情報に基づいて、前記他の情報処理装置から受信した前記認識結果を提示するときの区切りを制御させることができる。
前記通信部には、前記認識結果の区切りを制御するための制御情報を前記他の情報処理装置に送信させ、前記制御情報に基づいて区切られた前記認識結果を前記他の情報処理装置から受信させ、前記提示制御部には、前記他の情報処理装置により区切られた前記認識結果の提示を制御させうることができる。
前記提示制御部には、前記試行回数が増加するにつれて、前記認識結果の区切りを長くさせることができる。
前記提示制御部には、前記試行回数が増加するにつれて、前記認識結果の区切りを短くさせることができる。
前記コンテキストには、音声を入力するときのノイズ環境、及び、音声認識の用途のうち少なくとも1つを含ませることができる。
音声認識に関するコンテキストに基づいて、音声認識の認識結果を提示するときの区切りを制御させることができる。
本技術の一側面の情報処理方法は、音声認識の試行回数を含むコンテキストに基づいて、音声認識の認識結果を提示するときの区切りを制御する提示制御ステップを含む。
本技術の一側面においては、音声認識の試行回数を含むコンテキストに基づいて、音声認識の認識結果を提示するときの区切りが制御される。
本技術の一側面によれば、音声認識の認識結果を区切って提示することができる。特に、本技術の一側面によれば、所望の音声認識結果を容易に得ることができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術を適用した情報処理システムの一実施の形態を示すブロック図である。 クライアントの処理の第1の実施の形態を説明するためのフローチャートである。 区切りモードの例を示す図である。 サーバの処理の第1の実施の形態を説明するためのフローチャートである。 クライアントとサーバとの間で送受信されるデータの第1の例を示す図である。 クライアントとサーバとの間で送受信されるデータの第2の例を示す図である。 クライアントの処理の第2の実施の形態を説明するためのフローチャートである。 サーバの処理の第2の実施の形態を説明するためのフローチャートである。 クライアントとサーバとの間で送受信されるデータの第3の例を示す図である。 クライアントとサーバとの間で送受信されるデータの第4の例を示す図である。 認識文章の提示方法の変形例を示す図である。 コンピュータの構成例を示すブロック図である。
以下、発明を実施するための形態(以下、「実施形態」と記述する)について図面を用いて詳細に説明する。なお、説明は以下の順序で行う。
1.実施の形態
2.変形例
3.応用例
<<1.実施の形態>>
<1−1.情報処理システムの構成例>
まず、図1を参照して、本技術を適用した情報処理システム10の構成例について説明する。
情報処理システム10は、ユーザが入力した入力音声の音声認識を行い、認識結果を提示するシステムである。情報処理システム10は、クライアント11、サーバ12、及び、ネットワーク13により構成される。クライアント11とサーバ12は、ネットワーク13を介して相互に接続されている。
なお、図中、クライアント11が1つのみ示されているが、実際には複数のクライアント11がネットワーク13に接続され、複数のユーザがクライアント11を介して情報処理システム10を利用することが可能である。
クライアント11は、ユーザが入力した入力音声をサーバ12に送信し、その入力音声に対する音声認識結果をサーバ12から受信し、提示する。
例えば、クライアント11は、スマートフォン、タブレット、携帯電話機、ノート型のパーソナルコンピュータ等の携帯情報端末、ウエアラブルデバイス、デスクトップ型のパーソナルコンピュータ、ゲーム機、動画再生装置、音楽再生装置等により構成される。また、ウエアラブルデバイスには、例えば、眼鏡型、腕時計型、ブレスレット型、ネックレス型、ネックバンド型、イヤフォン型、ヘッドセット型、ヘッドマウント型等の各種の方式を採用することができる。
クライアント11は、音声入力部21、操作部22、表示部23、提示部24、センサ部25、通信部26、制御部27、及び、記憶部28を備える。制御部27は、音声認識制御部41、提示制御部42、及び、コンテキスト検出部43を備える。音声入力部21、操作部22、表示部23、提示部24、センサ部25、通信部26、制御部27、及び、記憶部28は、バス29を介して相互に接続されている。
音声入力部21は、例えばマイクロフォンにより構成される。マイクロフォンの数は、任意に設定することができる。音声入力部21は、ユーザが発する音声等を収集し、収集した音声を示す音声データを制御部27に供給したり、記憶部28に記憶させたりする。
操作部22は、各種の操作部材により構成され、クライアント11の操作に用いられる。例えば、操作部22は、コントローラ、リモートコントローラ、タッチパネル、ハードウエアボタン等により構成される。
表示部23は、例えばディスプレイにより構成される。表示部23は、提示制御部42の制御の下に、音声認識結果を示す画面、GUI(Graphical User Interface)、各種のアプリケーションプログラムやサービスの画面等の画像を表示する。
提示部24は、例えば、スピーカ、振動デバイス、他の連携デバイス等により構成される。提示部24は、提示制御部42の制御の下に、音声認識結果等の提示を行う。
センサ部25は、カメラ、距離センサ、GPS(Global Positioning System)受信機、加速度センサ、ジャイロセンサ等の各種のセンサを備える。センサ部25は、各センサの検出結果を示すセンサデータを制御部27に供給したり、記憶部28に記憶させたりする。
通信部26は、各種の通信デバイスにより構成される。通信部26の通信方式は特に限定されるものではなく、無線通信又は有線通信のいずれでもよい。また、通信部26が、複数の通信方式に対応していてもよい。通信部26は、ネットワーク13を介してサーバ12と通信を行い、各種のデータの送受信を行う。通信部26は、サーバ12から受信したデータを制御部27に供給したり、記憶部28に記憶させたりする。
制御部27は、例えば、各種のプロセッサ等により構成される。
音声認識制御部41は、サーバ12の音声認識部71の処理に必要なデータを取得し、通信部26及びネットワーク13を介して、サーバ12に送信する。また、音声認識制御部41は、通信部26及びネットワーク13を介して、音声認識の認識結果等をサーバ12から受信する。
提示制御部42は、表示部23及び提示部24による各種の情報等の提示を制御する。
コンテキスト検出部43は、音声入力部21からの音声データ及びセンサ部25からのセンサデータ、並びに、制御部27により実行されるプログラム等に基づいて、音声認識の実行に関するコンテキスト(以下、実行コンテキストとも称する)を検出する。例えば、コンテキスト検出部43は、クライアント11の周囲のノイズ環境、音声認識の用途等を検出する。
記憶部28は、クライアント11の処理に必要なプログラム、データ等を記憶する。
サーバ12は、クライアント11から受信した入力音声の音声認識を行い、認識結果を、ネットワーク13を介してクライアント11に送信する。サーバ12は、通信部61、制御部62、及び、記憶部63を備える。制御部62は、音声認識部71及び提示制御部72を備える。通信部61、制御部62、及び、記憶部63は、バス64を介して相互に接続されている。
通信部61は、各種の通信デバイスにより構成される。通信部61の通信方式は特に限定されるものではなく、無線通信又は有線通信のいずれでもよい。また、通信部61が、複数の通信方式に対応していてもよい。通信部61は、ネットワーク13を介してクライアント11と通信を行い、各種のデータの送受信を行う。通信部61は、クライアント11から受信したデータを制御部62に供給したり、記憶部63に記憶させたりする。
制御部62は、例えば、各種のプロセッサ等により構成される。
音声認識部71は、クライアント11から取得した入力音声の音声認識を行う。
提示制御部72は、クライアント11における音声認識結果の提示を制御する。例えば、提示制御部72は、音声認識部71による認識結果をクライアント11において提示するときの区切りを制御する。
記憶部63は、サーバ12の処理に必要なプログラム、データ等を記憶する。
なお、以下、クライアント11(通信部26)とサーバ12(通信部61)がネットワーク13を介して通信を行う場合の”ネットワーク13を介して”の記載は省略する。以下、クライアント11の各部がバス29を介してデータの授受を行う場合の”バス29を介して”の記載は省略する。以下、サーバ12の各部がバス64を介してデータの授受を行う場合の”バス64を介して”の記載は省略する。
<1−2.情報処理システム10の処理の第1の実施の形態>
次に、図2乃至図6を参照して、情報処理システム10の処理の第1の実施の形態について説明する。
(クライアント11の処理)
まず、図2のフローチャートを参照して、クライアント11の処理について説明する。なお、この処理は、例えば、ユーザが操作部22を介して音声認識の実行の指令を入力したとき開始される。
ステップS1において、コンテキスト検出部43は、音声認識の実行に関するコンテキスト(実行コンテキスト)を検出する。
例えば、コンテキスト検出部43は、音声入力部21からの音声データ、及び、センサ部25からのセンサデータに基づいて、クライアント11の周囲のノイズ環境、すなわち、ユーザが音声を入力するときのノイズ環境を検出する。例えば、コンテキスト検出部43は、クライアント11の周囲のノイズレベル、及び、クライアント11の現在位置等に基づいて、ノイズ環境を良好、普通、劣悪の3段階のレベルに分類する。例えば、ノイズ環境は、ノイズレベルが所定の第1の閾値未満の場合、良好であると判定され、ノイズレベルが第1の閾値以上かつ所定の第2の閾値未満の場合、普通であると判定され、ノイズレベルが第2の閾値以上の場合、劣悪であると判定される。また、例えば、ノイズ環境は、クライアント11の現在位置がノイズ量が少ないと想定される場所(例えば、自宅等)である場合、良好であると判定され、クライアント11の現在位置がノイズ量が普通であると想定される場所(例えば、車内等)である場合、普通であると判定され、クライアント11の現在位置がノイズ量が多いと想定される場所(例えば、駅等)である場合、劣悪であると判定される。
また、コンテキスト検出部43は、音声認識を使用するプログラム及びサービス等に基づいて、音声認識の用途を検出する。例えば、音声認識の用途は、パスワードやユーザIDの入力、検索エンジンへのキーワードの入力、チャットの文章の入力、メールの文章の入力等に分類される。
ステップS2において、提示制御部42は、区切りモードの初期値を設定する。
ここで、区切りモードとは、音声認識の認識結果として得られた文章(以下、認識文章と称する)を提示するときに、認識文章を区切る位置を設定するためのモードである。認識文章を区切る位置により、認識文章を修正可能な単位(以下、修正単位と称する)が定められる。すなわち、認識文章を区切ることにより、認識文章が複数の修正単位に分割される。ユーザは、修正単位毎に認識文章を修正することが可能である。
なお、認識文章は、必ずしも1つの完成された文章である必要はなく、例えば、完成された文章を構成しない1以上の単語の並びであってもよい。或いは、認識文章に、2以上の文章が含まれてもよい。
図3は、区切りモードの例を示している。この例では、1文字モード、単語分割モード、冠詞・所有格接続モード、及び、節・句接続モードの4種類の区切りモードが示されている。手入力モードは、区切りモードとは異なるモードであり、詳細は後述する。なお、この例では、ユーザが"I see a person with a red shirt"という音声を入力した場合に、"I sue a person with a red shirt"が認識結果として得られたときの例を示している。
1文字モードでは、認識文章の各文字が接続されることなく、1文字ずつ独立して提示される。従って、認識文章の各文字が修正単位となり、ユーザは、認識文章を文字単位で修正することが可能である。なお、1文字モードでは、他の区切りモードとは異なる音声認識エンジンが用いられる。
単語分割モードでは、認識文章が単語毎に区切られて提示される。従って、認識文章の各単語が修正単位となり、ユーザは、認識文章を単語単位で修正することが可能である。
冠詞・所有格接続モードでは、基本的に単語分割モードと同様に、認識文章が単語毎に区切られて提示される。ただし、冠詞("a"、"the"等)、又は、所有格(例えば、"my"、"your"等)と次の単語とが接続されて提示される。例えば、図4の例では、"a"と"person"、及び、"a"と"red"が接続されて提示されている。従って、単語の前に冠詞又は所有格がある場合、冠詞又は所有格と当該単語を接続した範囲が修正単位となり、単語の前に冠詞及び所有格がない場合、当該単語が単独で修正単位となる。
節・句接続モードでは、認識文章が節又は句ごとに区切られて提示される。例えば、図4の例では、"I sue a person"という節と"with a red shirt"という名詞句に区切られて認識文章が提示されている。従って、認識文章の各句又は各節が修正単位となり、ユーザは、認識文章を句又は節単位で修正することが可能である。
なお、各区切りモードにおいて斜線で示される修正単位は、カーソルが置かれている修正単位を示す。
また、各区切りモードでは、認識文章を修正する場合に、音声認識の認識結果を挿入モードにより挿入したり、上書きモードにより上書きしたりすることが可能である。
例えば、認識文章の先頭、隣接する修正単位の間、又は、認識文章に末尾にカーソル(不図示)を置いて音声を入力することにより、入力音声の認識結果が、カーソル位置に挿入される。例えば、図3の単語分割モードにおいて、"sue"と"a"の間にカーソルがある場合、入力音声の認識結果が"sue"と"a"の間に挿入される。
また、例えば、認識文章の修正単位のいずれかの上にカーソルを置いて音声を入力することにより、入力音声の認識結果が、カーソルの位置に上書きされる。例えば、図3の節・句接続モードのように、カーソルが"I sue a person"の上にある場合、入力音声の認識結果が、"I sue a person"の上に上書きされる。
さらに、各区切りモードでは、認識文章の文字又は語句を、修正単位毎に削除することが可能である。
また、区切りモードは、下位から順に、1文字モード、単語分割モード、冠詞・所有格接続モード、節・句接続モードの順となる。すなわち、下位の区切りモードほど、修正単位が短くなり、上位の区切りモードほど、修正単位が長くなる。
さらに、区切りモードは、基本的に下位から上位の順に遷移する。ただし、1文字モードは独立したモードであり、1文字モードの次の区切りモードは存在しない。従って、後述するように、基本的に、単語分割モード、冠詞・所有格接続モード、節・句接続モードの順に区切りモードが遷移し、節・句接続モードの次は、手入力モードに遷移する。一方、1文字モードの次は、他の区切りモードに遷移することなく、手入力モードに遷移する。
なお、修正単位が長くなり、修正単位に含まれる単語の数が多くなるほど、各単語の相関関係に基づいて音声認識を行うことができるため、一般的に認識精度が向上する。従って、上位の区切りモードほど、認識結果を修正する場合に、音声認識の精度が向上し、適切に修正できる可能性が高くなる。
提示制御部42は、実行コンテキストに基づいて、区切りモードの初期値を設定する。
例えば、提示制御部42は、音声認識の用途に基づいて、区切りモードの初期値を設定する。例えば、音声認識がユーザネームやID等の入力に用いられる場合、すなわち、意味のある文章や語句が入力される可能性が低い場合、区切りモードの初期値は1文字モードに設定される。或いは、音声認識が検索サイトの検索キーワードの入力に用いられる場合、すなわち、短い語句が入力される可能性が高い場合、区切りモードの初期値は単語区切りモードに設定される。或いは、音声認識がメールの文章の入力に用いられる場合、すなわち、入力音声が文章単位で入力され、スピードより正確性が重視される場合、区切りモードの初期値は冠詞・所有格接続モードに設定される。或いは、音声認識がチャットの文章の入力に用いられる場合、すなわち、入力音声が文章単位で入力され、正確性よりスピードが重視される場合、区切りモードの初期値は節・句接続モードに設定される。
また、例えば、提示制御部42は、周囲のノイズ環境に基づいて、区切りモードの初期値を設定する。例えば、周囲のノイズ環境が良好である場合、区切りモードの初期値は単語区切りモードに設定される。或いは、周囲のノイズ環境が普通である場合、区切りモードの初期値は冠詞・所有格接続モードに設定される。或いは、周囲のノイズ環境が劣悪である場合、区切りモードの初期値は節・句接続モードに設定される。
なお、提示制御部42は、他の種類のコンテキストを用いたり、複数のコンテキストを組み合わせたりして、区切りモードの初期値を設定するようにしてもよい。また、例えば、提示制御部42は、コンテキストに関わらず、区切りモードの初期値を固定するようにしてもよい。
ステップS3において、音声認識制御部41は、音声認識の実行を依頼する。具体的には、音声認識制御部41は、音声認識の開始を指令するコマンドである音声認識開始命令を生成する。また、音声認識制御部41は、必要に応じて付加情報データを音声認識開始命令に付加する。付加情報データの詳細は後述するが、例えば、音声認識に関するコンテキスト(例えば、試行回数等)が含まれる。音声認識制御部41は、通信部26を介して、音声認識開始命令をサーバ12に送信する。
サーバ12は、後述する図4のステップS51において、音声認識開始命令を受信する。
ステップS4において、クライアント11は、音声入力を受け付ける。例えば、提示制御部42は、表示部23又は提示部24を制御して、ユーザに音声の入力を促す。そして、音声認識制御部41は、ユーザにより音声入力部21に入力された入力音声を示す音声データを取得し、通信部26を介してサーバ12に送信する。
サーバ12は、後述する図4のステップS52において、音声データを受信し、音声データに基づいて音声認識を行い、ステップS53において、認識結果を示す認識結果データをクライアント11に送信する。
ステップS5において、音声認識制御部41は、認識結果を受信する。すなわち、音声認識制御部41は、通信部26を介して、サーバ12から送信された認識結果データを受信する。
ステップS6において、表示部23は、提示制御部42の制御の下に、設定した区切りモードで認識結果を提示する。すなわち、図3を参照して上述したように、1文字モード、単語分割モード、冠詞・所有格接続モード、又は、節・句接続モードのいずれかの区切りモードで、認識文章が提示される。なお、最初のステップS6の処理では、ステップS2の処理で設定された区切りモードで認識文章が提示される。一方、2回目以降のステップS6の処理では、後述するステップS10の処理で設定された区切りモードで認識文章が提示される。
なお、区切りモードが変更される場合には、ユーザに違和感を与えないように、例えば、アニメーション等により滑らかに表示が変更される。
ステップS7において、音声認識制御部41は、音認識結果の修正が必要であるか否かを判定する。例えば、音声認識制御部41は、ユーザが、操作部22を介して、提示された認識文章を修正するための操作を行った場合、認識結果の修正が必要であると判定し、処理はステップS8に進む。
ステップS8において、提示制御部42は、手入力モードに変更するか否かを判定する。例えば、提示制御部42は、音声認識の試行回数が規定値に達しておらず、かつ、認識文章が2以上に区切られて提示されている場合、手入力モードに変更しないと判定し、処理はステップS9に進む。
ステップS9において、提示制御部42は、必要に応じて区切りモードを変更する。具体的には、提示制御部42は、現在の区切りモードにおいて音声認識をすでに所定の回数試行している場合、区切りモードを現在のモードの次のモードに変更する。一方、提示制御部42は、現在の区切りモードにおいて音声認識をまだ所定の回数試行していない場合、区切りモードを変更しない。
例えば、各区切りモードで2回ずつ音声認識を試行する場合、現在の区切りモードにおいて音声認識をすでに2回試行しているとき、区切りモードは次のモードに設定される。一方、現在の区切りモードにおいて音声認識を1回のみ試行しているとき、区切りモードは変更されない。なお、各区切りモードで1回ずつ音声認識を試行する場合、自動的に区切りモードは次のモードに設定される。
ステップS10において、ステップS3の処理と同様に、音声認識の実行が依頼される。
ステップS11において、ステップS4の処理と同様に、音声入力が受け付けられる。
なお、上述したように、区切りモード毎に修正単位が異なるため、ユーザが認識結果を修正するために音声を入力する範囲が異なる。例えば、上述した図3の例において、"sue"の修正を行う場合、単語分割モード又は監視・所有格接続モードのとき、ユーザは、"sue"の代わりに置き換える語句の音声を入力する。一方、節・句接続モードのとき、ユーザは、"I sue a person"の代わりに置き換える語句の音声を入力する。
このように、下位のモードでは、ユーザが音声を再入力する範囲が短くて済み、ユーザの負担が軽減される。
一方、上位のモードでは、ユーザが音声を再入力する範囲が長くなる分、音声認識の精度が向上し、所望の認識結果が得られる可能性が高くなる。また、上位のモードでも、ユーザが全ての文章の音声を再入力する必要がないため、ユーザの負担は軽減される。
ステップS12において、ステップS5の処理と同様に、認識結果が受信される。
その後、処理はステップS6に戻り、ステップS7において、認識結果の修正が必要でないと判定されるか、ステップS8において、手入力モードに変更すると判定されるまで、ステップS6乃至S12の処理が繰り返し実行される。
一方、ステップS8において、例えば、提示制御部42は、音声認識の試行回数が規定値に達している場合、すなわち、これ以上音声認識を試行しても所望の認識結果が得られる可能性が低い場合、手入力モードに変更すると判定する。また、例えば、提示制御部42は、認識文章が区切られずに提示されている場合、すなわち、全ての文章の音声を再入力する必要があり、最初の認識結果と同様の結果が得られる可能性が高い場合、手入力モードに変更すると判定する。そして、手入力モードに変更すると判定された場合、処理はステップS13に進む。
ステップS13において、提示制御部42は、手入力モードに設定する。具体的には、提示制御部42は、表示部23を制御して、図3の手入力モードの例に示されるような文字入力バー101を表示させる。
ステップS14において、音声認識制御部41は、手入力による認識結果の修正を受け付ける。具体的には、ユーザは、文字入力バー101を用いて文字を入力し、認識文章の修正を行う。文字入力バー101は、文字を左右方向にスクロールすることにより、カーソル102内の文字を切り替えることができる。また、文字入力バー101は、認識文章の所望の位置に移動させることができる。そして、文字入力バー101のポインタ103が認識文章の文字のうちの1つを指している場合に、カーソル102内の文字の入力が確定されたとき、確定した文字により、ポインタ103が指している文字が上書きされる。一方、ポインタ103が認識文章の先頭、文字間、又は、末尾を指している場合に、カーソル102内の文字の入力が確定されたとき、ポインタ103の位置に確定した文字が挿入される。
そして、音声認識制御部41は、ユーザの入力に従って、認識文章を修正する。また、表示部23は、提示制御部42の制御の下に、修正された認識文章を提示する。
その後、処理はステップS15に進む。
一方、ステップS7において、例えば、音声認識制御部41は、ユーザが操作部22を介して、認識文章を確定する操作を行った場合、又は、次の文章の音声認識を行うための操作を行った場合、認識結果の修正が必要でないと判定し、処理はステップS15に進む。
ステップS15において、音声認識制御部41は、認識結果を確定する。そして、例えば、音声認識制御部41は、確定した認識結果を記憶部28に記憶させたり、通信部26を介して他の装置に送信したりする。
ステップS16において、音声認識制御部41は、音声認識を継続するか否かを判定する。例えば、音声認識制御部41は、ユーザが操作部22を介して、次の文章の音声認識を行うための操作を行った場合、音声認識を継続すると判定し、処理はステップS2に戻る。
その後、ステップS16において、音声認識を終了すると判定されるまで、ステップS2乃至S16の処理が繰り返し実行される。
一方、ステップS16において、音声認識制御部41は、ユーザが操作部22を介して、音声認識を終了するための操作を行った場合、音声認識を終了すると判定し、クライアント11の処理は終了する。
(サーバ12の処理)
次に、図4のフローチャートを参照して、図2のクライアント11の処理に対応して、サーバ12により実行される処理について説明する。
ステップS51において、音声認識部71は、音声認識の実行が依頼されたか否かを判定する。音声認識部71は、音声認識の実行が依頼されたと判定されるまで、ステップS51の処理を所定のタイミングで繰り返し実行する。そして、音声認識部71は、図2のステップS3又はステップS10においてクライアント11から送信された音声認識開始命令を、通信部61を介して受信した場合、音声認識の実行が依頼されたと判定し、処理はステップS52に進む。
ステップS52において、音声認識部71は、音声認識を行う。具体的には、音声認識部71は、図2のステップS4又はステップS11においてクライアント11から送信された音声データを、通信部61を介して受信する。音声認識部71は、受信した音声データにより示される入力音声の音声認識を行う。また、音声認識部71は、認識結果に対する信頼度を算出する。
ステップS53において、提示制御部72は、認識結果を送信する。具体的には、提示制御部72は、認識結果を示す認識文章を含む認識結果データを生成する。なお、認識結果データには、例えば、認識結果に対する信頼度等を含めることも可能である。提示制御部72は、通信部61を介して、認識結果データをクライアント11に送信する。
その後、処理はステップS51に戻り、ステップS51以降の処理が実行される。
図5及び図6は、図2及び図4の処理において、クライアント11とサーバ12との間で送受信されるデータの例を示している。
図5の例では、クライアント11からサーバ12に、付加情報データを含まない音声認識開始命令が送信される。
これに対して、サーバ12からクライアント11に認識結果データが送信される。認識結果データは、例えばJSON(JavaScript(登録商標) Object Notation)に準拠しており、resut及びconfidence_levelを含む。resultは認識結果を示す。confidence_levelは認識結果の信頼度を示す。この例では、resultに設定される認識結果(認識文章)は、区切られていない。従って、クライアント11が、区切りモードに従って、認識結果を区切って提示する。
図6の例では、クライアント11からサーバ12に、付加情報データを含む音声認識開始命令が送信される。付加情報データは、例えばJSONに準拠しており、separation_level、current_text、target_phrase、及び、edit_modeを含む。separation_levelは、クライアント11が設定した区切りモードを示し、認識文章を提示するときの区切りを制御するための区切り制御情報である。current_textは、ユーザにより設定された修正範囲の現在の認識結果を示す。なお、修正範囲は、修正単位毎に設定される。target_phraseは、current_textにおいて、音声を入力することにより修正する対象となる語句を示す。この例では、修正する対象となる語句が"sue"である場合の例が示されている。edit_modeは、修正モードを示す。例えば、edit_modeは、上書きモードの場合、"OVERWRITE"に設定され、挿入モードの場合、"INSERT"に設定される。
これに対して、サーバ12からクライアント11に認識結果データが送信される。認識結果データは、図5の例と同様に、resut及びconfidence_levelを含む。ここで、サーバ12は、認識結果として"see"が得られた場合、付加情報データのcurrent_textである"I sue a person"のtarget_phraseである"sue"を"see"で置き換えることにより、クライアント11に送信する認識結果を生成する。また、サーバ12(提示制御部72)は、クライアント11から指定されたseparation_level(区切りモード)に従って、認識結果を"I see"と"a person"に区切って、認識結果データのresultに設定する。
これにより、クライアント11は、認識結果データのresultに示される区切りのまま認識結果を提示することにより、クライアント11が設定した区切りモードで認識結果を提示することができる。
このように、音声認識に関するコンテキスト(例えば、試行回数、実行コンテキスト等)に基づいて、認識結果(認識文章)を提示するときの区切りの位置が変化し、修正単位が変化する。これにより、ユーザが認識結果を修正するために音声を入力する範囲を適切に狭めることができ、ユーザの負担が軽減される。また、音声の入力範囲を狭めることにより、例えば、文章全体を入力する場合と比べて、ユーザが丁寧に音声を入力するようになり、認識精度が向上することが期待できる。
さらに、試行回数が増えるにつれて、修正単位を長くすることにより、認識精度が向上し、ユーザは迅速に所望の認識結果を得ることが可能になる。
<1−3.情報処理システム10の処理の第2の実施の形態>
次に、図7乃至図10を参照して、情報処理システム10の処理の第2の実施の形態について説明する。なお、第1の実施の形態では、クライアント11が区切りモードを設定したが、第2の実施の形態では、サーバ12が区切りモードを設定する。
(クライアント11の処理)
まず、図7のフローチャートを参照して、クライアント11の処理について説明する。なお、この処理は、例えば、ユーザが操作部22を介して音声認識の実行の指令を入力したとき開始される。
ステップS101において、図2のステップS1の処理と同様に、音声認識の実行に関するコンテキスト(実行コンテキスト)が検出される。
ステップS102において、音声認識制御部41は、音声認識の実行を依頼する。具体的には、音声認識制御部41は、音声認識開始命令を生成する。また、音声認識制御部41は、必要に応じて付加情報データを音声認識開始命令に付加する。付加情報データの詳細は後述するが、例えば、音声認識に関するコンテキスト(例えば、試行回数、実行コンテキスト等)が含まれる。音声認識制御部41は、通信部26を介して、音声認識開始命令をサーバ12に送信する。
サーバ12は、後述する図8のステップS151において、音声認識開始命令を受信する。
ステップS103において、図2のステップS4の処理と同様に、音声入力が受け付けられる。
サーバ12は、後述する図8のステップS152において、音声データを受信し、音声データに基づいて音声認識を行い、ステップS158において、認識結果を示す認識結果データをクライアント11に送信する。なお、認識結果データには、区切りモードを示し、認識文章を提示するときの区切りを制御するための区切り制御情報が含まれる。
ステップS104において、図2のステップS5の処理と同様に、認識結果が受信される。
ステップS105において、表示部23は、提示制御部42の制御の下に、指定された区切りモードで認識結果を提示する。すなわち、提示制御部42は、サーバ12から受信した認識結果データに含まれる区切り制御情報に基づいて、区切りモードを設定し、設定した区切りモードで認識文章を提示するように、表示部23を制御する。
ステップS106において、図2のステップS7の処理と同様に、認識結果の修正が必要であるか否かが判定される。認識結果の修正が必要であると判定された場合、処理はステップS107に進む。
ステップS107において、ステップS102の処理と同様に、音声認識の実行が依頼される。
ステップS108において、図2のステップS11の処理と同様に、音声入力が受け付けられる。
ステップS109において、図2のステップS12の処理と同様に、認識結果が受信される。
ステップS110において、提示制御部42は、サーバ12から受信した認識結果データに含まれる区切り制御情報に基づいて、手入力モードが指定されているか否かを判定する。手入力モードが指定されていないと判定された場合、処理はステップS105に戻る。
その後、ステップS106において、認識結果の修正が必要でないと判定されるか、ステップS110において、手入力モードが指定されていると判定されるまで、ステップS105乃至S110の処理が繰り返し実行される。
一方、ステップS110において、手入力モードが指定されていると判定された場合、処理はステップS111に進む。
ステップS111において、表示部23は、提示制御部42の制御の下に、手入力モードで認識結果を提示する。すなわち、上述した図3に示されるように、文字入力バー101とともに認識文章が提示される。
ステップS112において、図2のステップS7の処理と同様に、認識結果の修正が必要であるか否かが判定される。認識結果の修正が必要であると判定された場合、処理はステップS113に進む。
ステップS113において、図2のステップS14の処理と同様に、手入力による認識結果の修正が受け付けられる。
その後、処理はステップS114に進む。
一方、ステップS106又はステップS112において、認識結果の修正が必要でないと判定された場合、処理はステップS114に進む。
ステップS114において、図2のステップS15の処理と同様に、認識結果が確定される。
ステップ115において、図2のステップS116において、音声認識を継続するか否かが判定する。音声認識を継続すると判定された場合、処理はステップS102に戻る。
その後、ステップS115において、音声認識を終了すると判定されるまで、ステップS102乃至S115の処理が繰り返し実行される。
一方、ステップS115において、音声認識を終了すると判定された場合、クライアント11の処理は終了する。
(サーバ12の処理)
次に、図8のフローチャートを参照して、図7のクライアント11の処理に対応して、サーバ12により実行される処理について説明する。
ステップS151において、図4のステップS51の処理と同様に、音声認識の実行が依頼されたか否かが判定される。ステップS151の判定処理は、音声認識の実行が依頼されたと判定されるまで所定のタイミングで繰り返し実行され、音声認識の実行が依頼されたと判定された場合、処理はステップS152に進む。
ステップS152において、図4のステップS52の処理と同様に、音声認識が行われる。
ステップS153において、提示制御部72は、音声認識開始命令の付加情報データに基づいて、1回目の試行であるか否かを判定する。1回目の試行であると判定された場合、処理はステップS154に進む。
ステップS154において、提示制御部72は、区切りモードの初期値を設定する。例えば、提示制御部72は、音声認識開始命令の付加情報データに含まれる実行コンテキストの検出結果に基づいて、図2のステップS2のクライアント11による方法と同様の方法により、区切りモードの初期値を設定する。
その後、処理はステップS158に進む。
一方、ステップS153において、2回目以降の試行であると判定された場合、処理はステップS155に進む。
ステップS155において、提示制御部72は、手入力モードに変更するか否かを判定する。なお、ステップS155の判定条件は、図2のステップS8の判定条件と同様である。そして、手入力モードに変更しないと判定された場合、処理はステップS156に進む。
ステップS156において、提示制御部72は、必要に応じて区切りモードを変更する。具体的には、提示制御部72は、現在の区切りモードにおいて音声認識をすでに所定の回数試行している場合、区切りモードを現在のモードの次のモードに変更する。一方、提示制御部72は、現在の区切りモードにおいて音声認識をまだ所定の回数試行していない場合、区切りモードを現在のモードの次のモードに変更する。
その後、処理はステップS158に進む。
一方、ステップS155において、手入力モードに変更すると判定された場合、処理はステップS157に進む。
ステップS157において、提示制御部72は、手入力モードに設定する。
その後、処理はステップS158に進む。
ステップS158において、提示制御部72は、認識結果を送信する。具体的には、提示制御部72は、認識結果及び区切り制御情報を含む認識結果データを生成する。なお、認識結果データには、例えば、認識結果に対する信頼度等を含めることも可能である。提示制御部72は、通信部61を介して、認識結果データをクライアント11に送信する。
その後、処理はステップS151に戻り、ステップS151以降の処理が実行される。
図9及び図10は、図7及び図8の処理において、クライアント11とサーバ12との間で送受信されるデータの例を示している。
図9の例では、クライアント11からサーバ12に、付加情報データを含む音声認識開始命令が送信される。付加情報データは、例えばJSONに準拠しており、trial_num、session_idを含む。session_idは、音声認識のセッションを識別するためのIDである。同じ文章に対する音声認識のセッション内では、同じsession_idが設定され、別の文章に対する音声認識のセッション間では、異なるsession_idが設定される。trial_numは、同一セッション内の音声認識の試行回数を示す。この例では、trial_num=3となっており、同一セッション内で今回が3回目の音声認識の試行であり、過去2回の試行では、所望の認識結果が得られなかったことを示している。
なお、図示されていないが、例えば、クライアント11による実行コンテキストの検出結果が付加情報データに含まれる。
これに対して、サーバ12からクライアント11に認識結果データが送信される。認識結果データは、例えばJSONに準拠しており、resut及びseparation_modeを含む。resultは認識結果を示す。この例では、resultに設定される認識結果(認識文章)は、区切られていない。separation_modeは、区切りモードを示す区切り制御情報である。このseparation_modeに基づいて、クライアント11において認識結果を提示するときの区切りが制御される。すなわち、クライアント11は、separation_modeに設定された区切りモードに従って、resultに設定された認識結果を区切って提示する。
図10の例では、クライアント11からサーバ12に、図9の例と同様の付加情報データを含む音声認識開始命令が送信される。なお、図示されていないが、例えば、クライアント11による実行コンテキストの検出結果が付加情報データに含まれる。
これに対して、サーバ12からクライアント11に認識結果データが送信される。認識結果データは、例えばJSONに準拠しており、resutを含む。resultは認識結果を示す。この例では、resultに設定される認識結果(認識文章)が、区切りモードに従って区切られている。これにより、クライアント11は、認識結果データのresultに示される区切りのまま認識結果を提示することにより、サーバ12が設定した区切りモードで認識結果が提示されるようになる。従って、この例では、resultに設定されている認識結果の区切りが、区切り制御情報となる。
このように、サーバ12が、クライアント11の区切りモードを制御することも可能である。
なお、例えば、同一ユーザが複数のデバイスを使用する可能性が高い場合、ユーザ間で音声の入力方法や内容の差異が小さく(例えば、ウエブ検索ブラウザの音声入力等)、区切りモードの制御方法の他のユーザへの展開が可能である場合等に、サーバ12側で各クライアント11の区切りモードを制御するのが好適である。
一方、例えば、ユーザ間で音声の入力方法や内容の差異が大きい場合には、クライアント11側で区切りモードを制御するのが好適である。例えば、クライアント11がゲームコンソールである場合、ユーザ間で音声の入力方法や内容の差異が大きく、かつ、区切りモードを制御するためのメモリ領域を確保できる可能性が高いため、クライアント11側で区切りモードを制御することが想定される。
<<2.変形例>>
以下、上述した本技術の実施の形態の変形例について説明する。
<2−1.システムの構成例に関する変形例>
図1の情報処理システム10の構成例は、その一例であり、必要に応じて変更することが可能である。
例えば、クライアント11の機能の一部をサーバ12に設けたり、サーバ12の機能の一部をクライアント11に設けたりすることが可能である。
また、例えば、クライアント11とサーバ12を一体化し、1台の装置で上記の処理を行うことも可能である。
さらに、例えば、区切りモードの制御を、クライアント11とサーバ12で分担して行ってもよい。
また、例えば、クライアント11からコンテキストに関するデータ(例えば、音声データ、センサデータ)をサーバ12に送信し、サーバ12が音声認識に関するコンテキストを検出するようにしてもよい。
<2−2.認識結果の提示方法に関する変形例>
例えば、本技術は、認識文章を区切らずに提示する場合にも適用することができる。
例えば、図11に示されるように、"I see a person with a red shirt"という入力音声に対して、サーバ12により"I sue a person with a red shirt"という認識文章が得られた場合、まずクライアント11において、その認識文章がそのまま提示される。
次に、ユーザは、提示された認識文章の"sue"を削除して、"see"という音声を再入力する。これに対して、"sue"という認識結果が得られた場合、削除した"sue"の位置に、新たに認識結果として得られた"sue"が挿入されて提示される。このとき、"I sue"の位置にカーソル131が表示されるとともに、メッセージ132が表示される。カーソル131は、音声の再入力を推奨する範囲を示し、メッセージ132は、"sue"の前の語句(例えば、"I")も一緒に入力した方が、認識精度が向上する旨を示している。
そこで、ユーザは、提示された認識文章の"I sue"を削除して、"I see"という音声を再入力する。これに対して、"I sue"のいう認識結果が得られた場合、削除した"I sue"の位置に、新たに認識結果として得られた"I sue"が挿入されて提示される。このとき、"I sue a person"の位置にカーソル133が表示されるとともに、メッセージ134が表示される。カーソル133は、音声の再入力を推奨する範囲を示し、メッセージ134は、"sue"の前後の単語(例えば、"I"及び"a person")も一緒に入力した方が、認識精度が向上する旨を示している。
そこで、ユーザは、提示された認識文章の"I sue a person"を削除して、"I see a person"という音声を再入力する。これに対して、"I sue a person"のいう認識結果が得られた場合、削除した"I sue a person"の位置に、新たに認識結果として得られた"I sue a person"が挿入されて提示される。このとき、"I sue a person"の位置にカーソル135が表示される。カーソル135は、音声の再入力を推奨する範囲を示す。また、同じ間違いが一定回数以上続いた場合、メッセージ136が表示される。メッセージ136は、正しい認識結果を得るためには、カーソル135で示した部分を別の表現で言い換えて入力することを推奨する旨が示されている。
このように、認識文章を区切らずに提示する場合においても、音声の再入力を推奨する範囲を変更して提示することにより、上述した提示方法と同様の効果を得ることができる。
なお、この提示方法は、例えば、第語彙用と1文字用の音声認識エンジンが用いられ、ユーザが使い分けることで、1文字用の音声認識エンジンを用いる1文字モードが頻繁に行われる可能性がある場合に用いられる。
また、この提示方法では、認識文章が区切られずに提示されるが、音声の再入力を推奨する範囲が変更されることにより、部分的に認識文章の区切りが変更されているとみなすことができる。
また、例えば、本技術は、認識文章を視覚的に提示せずに、音声で提示する場合にも適用することができる。
例えば、"I sue a person with a red shirt"という認識文章が得られた場合、"One, I sue"、"Two, a person"、"Three, with"、"Four, a red shirt"という音声が、認識結果として出力される。すなわち、認識文章が修正単位毎に区切られるともに、各修正単位を一意に識別するための番号が各修正単位の前に付加されて、音声により認識文章が提示される。また、認識文章を最後まで出力した後に、"Is everything okay for you?"のようなユーザに確認を促す音声メッセージが出力される。
これに対して、ユーザは、例えば、"change one"のような音声を入力することにより、番号により修正したい部分を指定する。その後、ユーザが指定した部分の音声を再入力することにより、再入力した音声に対する音声認識が行われる。
次に、例えば、"One, I sue a person"、"Two, with a red shirt"のように、認識文章の区切りが変更されるとともに、各修正単位を一意に識別するための番号が各修正単位の前に付加されて、音声により認識文章が提示される。また、認識文章を最後まで出力した後に、"Is everything okay for you?"のようなユーザに確認を促す音声メッセージが出力される。
このように、視覚的に認識文章を提示する場合と同様に、試行回数が増えるにつれて、認識文章の区切りが長くなる。そして、所望の認識結果が得られずに、最終的に認識文章を区切ることができなくなった場合、入力モードが1文字モードに変更される。そして、例えば、"Please spell your words"のように、入力する語句のスペルを1文字単位で入力するように促す音声メッセージが出力される。
このように、認識文章を音声により提示する場合にも、視覚的に提示する場合と同様に、認識文章を修正単位毎に区切って提示し、修正単位毎に修正することが可能である。
なお、認識文章を区切りすぎると、認識文章を読み上げる際の情報量が膨大になる。これを防ぐために、例えば、最大区切り数等を設け、認識文章を区切る数を制限するようにしてもよい。また、例えば、音声認識の試行回数が多くなりすぎるのを防止するために、例えば、最大試行回数を設け、試行回数を制限するとともに、試行回数が最大試行回数に達した後は、1文字モードに遷移するようにしてもよい。
<2−3.区切りモードに関する変形例>
区切りモードの種類および遷移方法は、上述した例に限定されるものではなく、任意に変更することが可能である。
例えば、1文字モードの後にすぐに手入力モードに遷移せずに、単語分割モード等の他の区切りモードに遷移するようにしてもよい。
また、例えば、節・句接続モードの後に1文字モードに遷移するようにしてもよい。
さらに、例えば、実行コンテキストに基づいて、区切りモードの遷移方法を変更するようにしてもよい。
また、例えば、試行回数及び実行コンテキスト以外の音声認識に関するコンテキストに基づいて、区切りモードの遷移を制御するようにしてもよい。例えば、音声認識の信頼度、音声認識を行う文章の長さ等に基づいて、区切りモードの遷移を制御するようにしてもよい。
さらに、以上の説明では、試行回数が増えるにつれて、認識文章の区切りを長くする例を示したが、逆に、認識文章の区切りを短くするようにしてもよい。
また、上述した区切りモードの種類を増やしたり、減らしたりしてもよい。例えば、有声音で終わる語句の位置で認識文章を区切るようにしてもよい。
<<3.応用例>>
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図12は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)301,ROM(Read Only Memory)302,RAM(Random Access Memory)303は、バス304により相互に接続されている。
バス304には、さらに、入出力インタフェース305が接続されている。入出力インタフェース305には、入力部306、出力部307、記憶部308、通信部309、及びドライブ310が接続されている。
入力部306は、キーボード、マウス、マイクロフォンなどよりなる。出力部307は、ディスプレイ、スピーカなどよりなる。記憶部308は、ハードディスクや不揮発性のメモリなどよりなる。通信部309は、ネットワークインタフェースなどよりなる。ドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア311を駆動する。
以上のように構成されるコンピュータでは、CPU301が、例えば、記憶部308に記憶されているプログラムを、入出力インタフェース305及びバス304を介して、RAM303にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU301)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア311に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア311をドライブ310に装着することにより、入出力インタフェース305を介して、記憶部308にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部309で受信し、記憶部308にインストールすることができる。その他、プログラムは、ROM302や記憶部308に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、複数のコンピュータが連携して上述した処理を行うようにしてもよい。そして、上述した処理を行う単数又は複数のコンピュータにより、コンピュータシステムが構成される。
また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
また、例えば、本技術は以下のような構成も取ることができる。
(1)
音声認識に関するコンテキストに基づいて、音声認識の認識結果を提示するときの区切りを制御する提示制御部を
備える情報処理装置。
(2)
前記認識結果の区切りにより前記認識結果を修正可能な単位が定められる
前記(1)に記載の情報処理装置。
(3)
音声認識部を
さらに備え、
前記提示制御部は、前記音声認識部による前記認識結果の区切りを制御する
前記(1)又は(2)に記載の情報処理装置。
(4)
前記提示制御部は、前記認識結果の区切りを制御するための制御情報を生成し、前記認識結果及び前記制御情報を出力する
前記(3)に記載の情報処理装置。
(5)
入力音声を他の情報処理装置から受信し、前記認識結果及び前記制御情報を前記他の情報処理装置に送信する通信部を
さらに備え、
前記音声認識部は、前記入力音声の音声認識を行い、
前記提示制御部は、前記制御情報により、前記他の情報処理装置において前記認識結果を提示するときの区切りを制御する
前記(4)に記載の情報処理装置。
(6)
前記通信部は、前記コンテキストを示すデータを前記他の情報処理装置から受信し、
前記提示制御部は、前記コンテキストを示すデータに基づいて、前記他の情報処理装置において前記認識結果を提示するときの区切りを制御する
前記(5)に記載の情報処理装置。
(7)
通信部を
さらに備え、
前記通信部は、入力音声、及び、前記認識結果の区切りを制御するための制御情報を他の情報処理装置から受信し、
前記音声認識部は、前記入力音声の音声認識を行い、
前記提示制御部は、前記制御情報に基づいて、前記音声認識部による前記認識結果を区切り、
前記通信部は、前記提示制御部により区切られた前記認識結果を前記他の情報処理装置に送信する
前記(3)に記載の情報処理装置。
(8)
入力音声を他の情報処理装置に送信し、前記入力音声を音声認識することにより得られる前記認識結果を前記他の情報処理装置から受信する通信部を
さらに備え、
前記提示制御部は、前記他の情報処理装置から受信した前記認識結果を提示するときの区切りを制御する
前記(1)又は(2)に記載の情報処理装置。
(9)
前記通信部は、前記認識結果の区切りを制御するための制御情報を前記他の情報処理装置から受信し、
前記提示制御部は、前記制御情報に基づいて、前記他の情報処理装置から受信した前記認識結果を提示するときの区切りを制御する
前記(8)に記載の情報処理装置。
(10)
前記通信部は、前記認識結果の区切りを制御するための制御情報を前記他の情報処理装置に送信し、前記制御情報に基づいて区切られた前記認識結果を前記他の情報処理装置から受信し、
前記提示制御部は、前記他の情報処理装置により区切られた前記認識結果の提示を制御する
前記(8)に記載の情報処理装置。
(11)
前記コンテキストは、音声認識の試行回数を含む
前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
前記提示制御部は、前記試行回数が増加するにつれて、前記認識結果の区切りを長くする
前記(11)に記載の情報処理装置。
(13)
前記提示制御部は、前記試行回数が増加するにつれて、前記認識結果の区切りを短くする
前記(11)に記載の情報処理装置。
(14)
前記コンテキストは、音声を入力するときのノイズ環境、及び、音声認識の用途のうち少なくとも1つを含む
前記(1)乃至(13)のいずれかに記載の情報処理装置。
(15)
音声認識に関するコンテキストに基づいて、音声認識の認識結果を提示するときの区切りを制御する提示制御ステップを
含む情報処理方法。
10 情報処理システム, 11 クライアント, 12 サーバ, 21 音声入力部, 23 表示部, 24 提示部, 25 センサ部, 26 通信部, 27 制御部, 41 音声認識制御部, 42 提示制御部, 43 コンテキスト検出部, 61 通信部, 62 制御部, 71 音声認識部, 72 提示制御部

Claims (14)

  1. 音声認識の試行回数を含むコンテキストに基づいて、音声認識の認識結果を提示するときの区切りを制御する提示制御部を
    備える情報処理装置。
  2. 前記認識結果の区切りにより前記認識結果を修正可能な単位が定められる
    請求項1に記載の情報処理装置。
  3. 音声認識部を
    さらに備え、
    前記提示制御部は、前記音声認識部による前記認識結果の区切りを制御する
    請求項1に記載の情報処理装置。
  4. 前記提示制御部は、前記認識結果の区切りを制御するための制御情報を生成し、前記認識結果及び前記制御情報を出力する
    請求項3に記載の情報処理装置。
  5. 入力音声を他の情報処理装置から受信し、前記認識結果及び前記制御情報を前記他の情報処理装置に送信する通信部を
    さらに備え、
    前記音声認識部は、前記入力音声の音声認識を行い、
    前記提示制御部は、前記制御情報により、前記他の情報処理装置において前記認識結果を提示するときの区切りを制御する
    請求項4に記載の情報処理装置。
  6. 前記通信部は、前記コンテキストを示すデータを前記他の情報処理装置から受信し、
    前記提示制御部は、前記コンテキストを示すデータに基づいて、前記他の情報処理装置において前記認識結果を提示するときの区切りを制御する
    請求項5に記載の情報処理装置。
  7. 通信部を
    さらに備え、
    前記通信部は、入力音声、及び、前記認識結果の区切りを制御するための制御情報を他の情報処理装置から受信し、
    前記音声認識部は、前記入力音声の音声認識を行い、
    前記提示制御部は、前記制御情報に基づいて、前記音声認識部による前記認識結果を区切り、
    前記通信部は、前記提示制御部により区切られた前記認識結果を前記他の情報処理装置に送信する
    請求項3に記載の情報処理装置。
  8. 入力音声を他の情報処理装置に送信し、前記入力音声を音声認識することにより得られる前記認識結果を前記他の情報処理装置から受信する通信部を
    さらに備え、
    前記提示制御部は、前記他の情報処理装置から受信した前記認識結果を提示するときの区切りを制御する
    請求項1に記載の情報処理装置。
  9. 前記通信部は、前記認識結果の区切りを制御するための制御情報を前記他の情報処理装置から受信し、
    前記提示制御部は、前記制御情報に基づいて、前記他の情報処理装置から受信した前記認識結果を提示するときの区切りを制御する
    請求項8に記載の情報処理装置。
  10. 前記通信部は、前記認識結果の区切りを制御するための制御情報を前記他の情報処理装置に送信し、前記制御情報に基づいて区切られた前記認識結果を前記他の情報処理装置から受信し、
    前記提示制御部は、前記他の情報処理装置により区切られた前記認識結果の提示を制御する
    請求項8に記載の情報処理装置。
  11. 前記提示制御部は、前記試行回数が増加するにつれて、前記認識結果の区切りを長くする
    請求項に記載の情報処理装置。
  12. 前記提示制御部は、前記試行回数が増加するにつれて、前記認識結果の区切りを短くする
    請求項に記載の情報処理装置。
  13. 前記コンテキストは、音声を入力するときのノイズ環境、及び、音声認識の用途のうち少なくとも1つを含む
    請求項1に記載の情報処理装置。
  14. 音声認識の試行回数を含むコンテキストに基づいて、音声認識の認識結果を提示するときの区切りを制御する提示制御ステップを
    含む情報処理方法。
JP2018535610A 2016-08-26 2017-08-14 情報処理装置及び情報処理方法 Active JP6922920B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016165711 2016-08-26
JP2016165711 2016-08-26
PCT/JP2017/029255 WO2018037956A1 (ja) 2016-08-26 2017-08-14 情報処理装置及び情報処理方法

Publications (2)

Publication Number Publication Date
JPWO2018037956A1 JPWO2018037956A1 (ja) 2019-06-20
JP6922920B2 true JP6922920B2 (ja) 2021-08-18

Family

ID=61244887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018535610A Active JP6922920B2 (ja) 2016-08-26 2017-08-14 情報処理装置及び情報処理方法

Country Status (5)

Country Link
US (1) US10950240B2 (ja)
EP (1) EP3506256A4 (ja)
JP (1) JP6922920B2 (ja)
CN (1) CN109643544A (ja)
WO (1) WO2018037956A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109643544A (zh) * 2016-08-26 2019-04-16 索尼公司 信息处理装置和信息处理方法
WO2020006711A1 (zh) 2018-07-04 2020-01-09 华为技术有限公司 一种消息的播放方法及终端
EP3931826A4 (en) * 2019-08-13 2022-05-11 Samsung Electronics Co., Ltd. SERVER SUPPORTING VOICE RECOGNITION OF A DEVICE AND METHOD OF OPERATING THE SERVER
CN111243587A (zh) * 2020-01-08 2020-06-05 北京松果电子有限公司 语音交互方法、装置、设备及存储介质
JP7481894B2 (ja) 2020-05-11 2024-05-13 日本放送協会 発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法
CN112712825B (zh) * 2020-12-30 2022-09-23 维沃移动通信有限公司 音频处理方法、装置及电子设备

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
US5884258A (en) * 1996-10-31 1999-03-16 Microsoft Corporation Method and system for editing phrases during continuous speech recognition
JP3082746B2 (ja) * 1998-05-11 2000-08-28 日本電気株式会社 音声認識システム
US8311823B2 (en) * 2006-08-31 2012-11-13 Sony Mobile Communications Ab System and method for searching based on audio search criteria
WO2008066166A1 (fr) * 2006-11-30 2008-06-05 National Institute Of Advanced Industrial Science And Technology Système de site web pour recherche de données vocales
JP4791984B2 (ja) * 2007-02-27 2011-10-12 株式会社東芝 入力された音声を処理する装置、方法およびプログラム
US8510103B2 (en) * 2009-10-15 2013-08-13 Paul Angott System and method for voice recognition
US8645136B2 (en) * 2010-07-20 2014-02-04 Intellisist, Inc. System and method for efficiently reducing transcription error using hybrid voice transcription
JP5396426B2 (ja) * 2011-04-21 2014-01-22 株式会社Nttドコモ 音声認識装置、音声認識方法及び音声認識プログラム
US9064493B2 (en) * 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US8924213B2 (en) * 2012-07-09 2014-12-30 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US8924211B2 (en) * 2012-07-09 2014-12-30 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9064492B2 (en) * 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9070367B1 (en) * 2012-11-26 2015-06-30 Amazon Technologies, Inc. Local speech recognition of frequent utterances
US9818407B1 (en) * 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
US9448991B2 (en) * 2014-03-18 2016-09-20 Bayerische Motoren Werke Aktiengesellschaft Method for providing context-based correction of voice recognition results
JP6284462B2 (ja) 2014-09-22 2018-02-28 株式会社日立製作所 音声認識方法、及び音声認識装置
JP2016109725A (ja) * 2014-12-02 2016-06-20 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN109643544A (zh) * 2016-08-26 2019-04-16 索尼公司 信息处理装置和信息处理方法

Also Published As

Publication number Publication date
JPWO2018037956A1 (ja) 2019-06-20
CN109643544A (zh) 2019-04-16
EP3506256A4 (en) 2019-08-21
EP3506256A1 (en) 2019-07-03
WO2018037956A1 (ja) 2018-03-01
US10950240B2 (en) 2021-03-16
US20200327893A1 (en) 2020-10-15

Similar Documents

Publication Publication Date Title
JP6922920B2 (ja) 情報処理装置及び情報処理方法
US10777201B2 (en) Voice enabled bot platform
CA3158979C (en) Headless task completion within digital personal assistants
US20170365251A1 (en) Method and device for performing voice recognition using grammar model
TW201629949A (zh) 用於伺服音標發音之快取裝置
EP2940683A1 (en) Information processing device, information processing method and program
WO2018043137A1 (ja) 情報処理装置及び情報処理方法
JP2022503255A (ja) 音声情報処理方法、装置、プログラム及び記録媒体
US11514893B2 (en) Voice context-aware content manipulation
WO2018079294A1 (ja) 情報処理装置及び情報処理方法
EP3229231A1 (en) Information-processing apparatus, information-processing method, and program
JP6678545B2 (ja) 修正システム、修正方法及びプログラム
WO2017203764A1 (ja) 情報処理装置および情報処理方法
US9933994B2 (en) Receiving at a device audible input that is spelled
JP2016081539A (ja) 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
KR101435477B1 (ko) 어플리케이션 프로그램을 이용한 대화 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210406

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210712

R151 Written notification of patent or utility model registration

Ref document number: 6922920

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151