JP6747434B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP6747434B2
JP6747434B2 JP2017514726A JP2017514726A JP6747434B2 JP 6747434 B2 JP6747434 B2 JP 6747434B2 JP 2017514726 A JP2017514726 A JP 2017514726A JP 2017514726 A JP2017514726 A JP 2017514726A JP 6747434 B2 JP6747434 B2 JP 6747434B2
Authority
JP
Japan
Prior art keywords
user
utterance
information
information processing
unknown word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2017514726A
Other languages
English (en)
Other versions
JPWO2017068826A1 (ja
Inventor
亜由美 加藤
亜由美 加藤
邦仁 澤井
邦仁 澤井
真一 河野
真一 河野
祐平 滝
祐平 滝
佑輔 中川
佑輔 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2017068826A1 publication Critical patent/JPWO2017068826A1/ja
Application granted granted Critical
Publication of JP6747434B2 publication Critical patent/JP6747434B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
近年、音声認識技術の向上により、ユーザが音声によって文字を入力することが一般的になっている。ただし、ユーザが発する音声に含まれる発話情報には、略称、言い換え、および固有名詞等のデータベース(例えば、コーパスなど)に登録されていない未知語が含まれることが多い。
そのため、ユーザの発話情報を適切な表記に変換するためには、ユーザの発話情報に含まれる未知語を適切に認識することが必要である。認識された未知語は、データベースに登録されるため、以後、適切な表記に変換されるようになる。
このような技術としては、例えば、下記の特許文献1に開示されるように、ユーザ同士の連続した対話において、ユーザに登録モードを意識させることなく、対話内容から未知語を抽出し、所定のデータベースに登録する技術を例示することができる。
特開2003−271180号公報
しかし、特許文献1に開示された技術では、所定のデータベースに登録されていない単語をすべて自動的に登録してしまうため、ユーザの使用頻度が低い単語も未知語として登録されてしまっていた。そのため、特許文献1に開示された技術によって生成されたデータベースは、登録された未知語に無駄が多く、効率が良くなかった。
そこで、本開示では、未知語が登録されたデータベースを効率的に生成することが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。
本開示によれば、ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、識別された前記未知語を登録するための処理を行う処理部と、を備える、情報処理装置が提供される。
また、本開示によれば、演算処理装置によって、ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別することと、識別された前記未知語を登録するための処理を行うことと、を含む、情報処理方法が提供される。
また、本開示によれば、コンピュータをユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、識別された前記未知語を登録するための処理を行う処理部と、として機能させる、プログラムが提供される。
本開示によれば、ユーザに使用頻度の高い未知語を意識的に登録させることが可能である。
以上説明したように本開示によれば、未知語が効率的に登録されたデータベースを生成することが可能である。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る情報処理装置の概要を説明する説明図である。 同実施形態に係る情報処理装置の機能構成を説明するブロック図である。 同実施形態に係る情報処理装置の動作例を説明するフローチャート図である。 未知語が意図されない表記に変換された画像の一例を示す説明図である。 第1の入力例における入力欄の画像例を示す説明図である。 第1の入力例における入力欄の画像例を示す説明図である。 第1の入力例における入力欄の画像例を示す説明図である。 第1の入力例における入力欄の画像例を示す説明図である。 登録後の未知語を通常の発話方法にて音声入力した際の画像の一例を示す説明図である。 所定の発話方法における閾値までの時間を示す閾値画像の設定例を示す説明図である。 第2の入力例における入力欄の画像例を示す説明図である。 第2の入力例における入力欄の画像例を示す説明図である。 第3の入力例における入力欄の画像例を示す説明図である。 第3の入力例における入力欄の画像例を示す説明図である。 第3の入力例における入力欄の画像例を示す説明図である。 第3の入力例における入力欄の画像例を示す説明図である。 誤って未知語が識別された入力欄の画像例を示す説明図である。 変形例における入力欄の画像例を示す説明図である。 変形例における入力欄の画像例を示す説明図である。 変形例における入力欄の画像例を示す説明図である。 登録後の未知語を通常の発話方法にて音声入力した際の画像の一例を示す説明図である。 本開示の一実施形態に係る情報処理装置のハードウェア構成例を示したブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.情報処理装置の概要
2.情報処理装置の構成例
3.情報処理装置の動作例
4.未知語の入力の具体例
4.1.第1の入力例
4.2.第2の入力例
4.3.第3の入力例
4.4.入力の修正例
4.5.変形例
5.ハードウェア構成例
6.まとめ
<1.情報処理装置の概要>
まず、図1を参照して、本開示の一実施形態に係る情報処理装置の概要について説明する。図1は、本実施形態に係る情報処理装置1の概要を説明する説明図である。
図1に示すように、情報処理装置1は、例えば、音声入力装置5、および表示装置9と接続される。また、情報処理装置1は、操作入力装置7と接続されていてもよい。
情報処理装置1は、ユーザ3によって音声入力装置5を介して音声入力された発話情報を認識し、認識した発話情報を文字にて表示した発話画像91を生成する。具体的には、情報処理装置1は、音声入力装置5にて収音されたユーザ3の音声からユーザ3の発話情報を認識し、認識した発話情報を表示する発話画像91を生成する。なお、発話画像91は、例えば、表示装置9に表示されることによって、ユーザ3に視認されてもよい。
ユーザ3は、音声入力装置5を用いて、発話情報を入力する。例えば、ユーザ3は、音声入力装置5を用いて音声チャットをしながら、操作入力装置7を用いて表示装置9に表示されるビデオゲーム等を遊ぶユーザであってもよい。
音声入力装置5は、ユーザ3の音声を収音し、情報処理装置1に入力する。音声入力装置5は、例えば、表示装置9の前に設置されたマイクロフォンであってもよく、操作入力装置7に内蔵されたマイクロフォンであってもよく、またはユーザ3が装着したヘッドセットなどであってもよい。
操作入力装置7は、ユーザ3からの音声以外の入力を受け付け、情報処理装置1に入力する。例えば、操作入力装置7は、表示装置9に表示されるビデオゲーム等を操作するためのコントローラであってもよい。
表示装置9は、情報処理装置1等によって生成された画像を表示する。表示装置9は、例えば、CRT(Cathode Ray Tube)表示装置、液晶表示装置および有機エレクトロルミネッセンス表示装置などの表示装置を備えていれば、特に形態は限定されない。表示装置9は、例えば、表示装置を備えたパーソナルコンピュータ、テレビジョン装置、スマートフォン、表示装置を備えたウェアラブル装置、および透過型または遮蔽型のヘッドマウントディスプレイ装置などであってもよい。
ここで、情報処理装置1の音声認識において、発話情報の認識に用いられるデータベースに登録されていない単語の音声信号は、ユーザ3が意図しない文節区切り、または表記にて認識される可能性が高い。このような場合、ユーザ3は、意図しない表記にて認識された単語を意図した表記に修正するために、発話情報の再入力等をする必要があり、音声入力の利便性が低かった。
特に、ビデオゲームでは、該ビデオゲームにて特有の固有名詞が存在することが多い。このような固有名詞は、通常の発話情報の認識に用いられるデータベース(例えば、コーパスなど)に登録されていないことが多いため、ユーザ3が意図しない文節区切り、または表記にて認識される可能性が高い。
また、該ビデオゲーム用の辞書データベースが用意されていた場合でも、音声チャットなどでは、略称、俗語、および独自の言い換えなどの口語的な表現が使用されることが多いため、データベースに登録されていない未知語がユーザによって生成されることもある。口語的な表現が多い音声チャットなどでは、ユーザ3によって新たな未知語が日々生成されていると考えられる。
そのため、ユーザ3の発話情報に含まれる未知語を発話情報の認識に用いられるデータベースに効率的に登録することが求められていた。
本実施形態に係る情報処理装置1では、ユーザ3の発話情報の中から、所定の条件を満たす単語を未知語として識別し、識別した未知語を発話情報の認識に用いるデータベースに登録するための処理を行う。
ここで、所定の条件を満たす単語とは、ユーザ3が所定の発話方法にて発話した単語である。具体的には後述するが、例えば、情報処理装置1は、各文字の後に所定の無音区間を設けて発話された単語を未知語と識別してもよく、各文字を所定の長音として発話された単語を未知語と識別してもよく、所定の音量以上にて発話された単語を未知語と識別してもよい。さらに、情報処理装置1は、所定の語にて挟まれて発話された単語を未知語と識別してもよい。
これにより、本実施形態に係る情報処理装置1は、ユーザに未知語を意識的に登録させることができるため、効率的に未知語をデータベースに登録することができる。また、所定の発話方法にて発話されたことを未知語の識別に用いる場合、ユーザ3の操作性および利便性を損なわずに、効率的に未知語を識別することが可能である。
また、情報処理装置1は、登録された未知語を一単語と見なして優先的に文節区切りして、音声認識する。したがって、ユーザ3は意識的に未知語を登録することにより、未知語が意図しない文節区切り、または表記にて認識されることを少なくすることができる。よって、情報処理装置1は、ユーザ3の音声入力の利便性を向上させることができる。
<2.情報処理装置の構成例>
次に、図2を参照して、本実施形態に係る情報処理装置1の構成について説明する。図2は、本実施形態に係る情報処理装置1の機能構成を説明するブロック図である。
図2に示すように、情報処理装置1は、音声取得部101と、発話認識部103と、識別部105と、識別制御部107と、画像生成部109と、処理部111と、データベース記憶部113とを備える。なお、データベース記憶部113は、情報処理装置1と接続された外部の記憶装置に備えられていてもよい。
音声取得部101は、音声入力装置5からユーザ3が発した音声信号を取得する。具体的には、音声取得部101は、音声入力装置5からの信号の入力を受け取ることが可能な接続インタフェースであってもよい。例えば、音声取得部101は、USB(Universal Serial Bus)ポート、イーサネット(登録商標)ポート、IEEE802.11規格ポート、および光オーディオ端子等の有線または無線の接続ポートで構成された外部入力インタフェースであってもよい。
発話認識部103は、ユーザ3が発した音声信号を音声認識することで、ユーザ3が発した音声信号を文字にて書き起こした発話情報に変換する。具体的には、発話認識部103は、ユーザ3が発した音声信号から特徴パラメータを抽出し、抽出された特徴パラメータに基づいて各種データベースを参照することで、入力された音声に最も近いと判断された単語列をユーザ3が発した発話情報であると認識する。
なお、発話認識部103が音声信号の認識に用いる特徴パラメータとしては、例えば、スペクトル、基本周波数、フォルマント周波数、パワー線形予測係数、ケプストラム係数、線スペクトル対などを例示することができる。
データベース記憶部113は、発話認識部103によって音声認識に用いられる各種データベースを記憶する。例えば、データベース記憶部113は、音響モデルデータベース、言語モデルデータベース、および辞書データベース等を記憶してもよい。
例えば、音響モデルデータベースは、音声認識する音声の言語における個々の音韻および音節などの音響的な特徴を表す音響モデルを集積したデータベースである。なお、音響モデルとしては、例えば、隠れマルコフモデルなどを使用することができる。また、辞書データベースは、音声認識される各単語の発音に関する情報、および音韻および音節の連鎖関係に関する情報などを集積したデータベースであり、言語モデルデータベースは、辞書データベースに登録されている各単語が互いにどのように接続するのかに関する情報を集積したデータベースである。
これらの各種データベースを参照することにより、発話認識部103は、ユーザ3が発した音声信号を認識し、認識した発話の内容を文字にて出力することができる。
なお、これらの各種データベースは、ユーザ3ごとにそれぞれ用意されていてもよく、ユーザ3が参加するチャットルームまたはビデオゲーム等にて共通のデータベースが用意されていてもよい。
識別部105は、ユーザ3の発話情報の中から、所定の条件を満たす単語を識別し、識別した単語を未知語であると判断する。具体的には、識別部105は、ユーザ3の発話情報の中に、所定の発話方法にて発話された単語が含まれるか否かを判断し、所定の発話方法にて発話された単語が含まれる場合、該単語を未知語として識別する。
ここで、所定の発話方法とは、ユーザ3が意識的に行うことができる発話方法であれば、どのようなものであってもよい。ただし、ユーザ3の発話が意図せずに所定の発話方法となってしまうことを防止するために、所定の発話方法は、閾値が設定された発話方法であることが望ましい。情報処理装置1は、ユーザ3に対して閾値を示すことにより、発話の際に閾値を超えて所定の発話方法とするか否かをユーザ3が制御できるようにしてもよい。
なお、上述した所定の発話方法としては、例えば、各文字の後に閾値以上の長さの無音区間を設けて単語を発話する方法、各文字を閾値以上の長さの長音にて単語を発話する方法、および各文字を閾値以上の大きさの音量にて発話する方法などを例示することができる。
識別制御部107は、識別部105による未知語の識別を制御する。
具体的には、識別制御部107は、識別部105によって未知語の識別を実行するか否かを制御してもよい。例えば、識別制御部107は、ユーザ3の視線情報を取得し、ユーザ3の視線が表示装置9に向いていない場合、未知語の識別を実行しないように識別部105を制御してもよい。これは、ユーザ3が表示装置9に視線を向けていない場合、ユーザ3が発話の内容に注意を向けていない可能性が高く、ユーザ3が意図していないにも関わらず、発話情報に含まれる単語が所定の条件を満たし、未知語と識別されることを防止するためである。
また、識別制御部107は、識別部105による未知語の識別に用いられる所定の条件を制御してもよい。例えば、所定の条件が未知語の各文字の後に閾値以上の長さの無音区間を設けて発話することである場合、識別制御部107は、無音区間の長さの閾値を変更してもよい。また、所定の条件が未知語の各文字を閾値以上の長さの長音にて発話することである場合、識別制御部107は、長音の長さの閾値を変更してもよい。さらに、所定の条件が未知語の各文字を閾値以上の大きさの音量にて発話することである場合、識別制御部107は、音量の大きさの閾値を変更してもよい。
このような未知語の識別に用いられる所定の条件の変更は、ユーザ3の入力に基づいて制御されてもよく、または、ユーザ3の状態に関する情報に基づいて制御されてもよい。具体的には、識別制御部107は、ユーザ3の入力に基づいて、未知語の識別に用いられる所定の条件、または所定の条件に設定されている閾値を変更してもよい。
識別制御部107は、ユーザ3に関する情報に基づいて、所定の条件に設定されている閾値を変更してもよい。
具体的には、識別制御部107は、音声入力装置5および操作入力装置7に備えられた各種センサからユーザ3の生体情報を取得し、取得した生体情報から判断されるユーザ3の状態に基づいて、所定の条件に設定されている閾値を変更してもよい。各種センサから取得可能なユーザ3の生体情報としては、例えば、ユーザ3の心拍(脈拍)数、体温、発汗量、血圧、および呼吸数などを例示することができる。
例えば、識別制御部107は、取得したユーザ3の生体情報から、ユーザ3が緊張または興奮状態、および集中度が高い状態であると判断される場合、当該ユーザ3の状態に応じて、所定の条件に設定されている閾値を増加または減少させてもよい。なお、識別制御部107が、ユーザ3の状態に応じて、所定の条件に設定されている閾値をどのように制御するのかについては、適宜、適切な制御が選択される。
また、具体的には、識別制御部107は、ユーザ3の通常時の発話の様態に基づいて、所定の条件に設定されている閾値を変更してもよい。具体的には、所定の条件が未知語の各文字の後に閾値以上の長さの無音区間を設けて発話することであり、かつユーザ3の通常時の発話速度が速い場合、識別制御部107は、無音区間の長さの閾値を小さくしてもよい。また、所定の条件が未知語の各文字を閾値以上の長さの長音にて発話することであり、かつユーザ3の通常時の発話速度が速い場合、識別制御部107は、長音の長さの閾値を小さくしてもよい。さらに、所定の条件が未知語の各文字を閾値以上の大きさの音量にて発話することであり、かつユーザ3の通常時の発話の音量が大きい場合、識別制御部107は、音量の大きさの閾値を大きくしてもよい。このような場合、識別制御部107は、未知語を識別するための所定の条件をユーザ3ごとに最適化することができるため、未知語の登録に掛かるユーザ3の負担を低減することができる。
識別制御部107は、ユーザ3からの発話情報が入力されるコンテンツに関する情報に基づいて、所定の条件に設定されている閾値を変更してもよい。具体的には、識別制御部107は、ユーザ3からの発話情報が入力されるコンテンツの種類に基づいて、所定の条件に設定されている閾値を変更してもよい。
例えば、所定の条件が未知語の各文字の後に閾値以上の長さの無音区間を設けて発話することであり、かつ発話情報が入力されるコンテンツがメーラーまたはテキストエディタ等である場合、識別制御部107は、無音区間の長さの閾値を大きくしてもよい。また、発話情報が入力されるコンテンツがチャット等の即時的なものである場合、識別制御部107は、無音区間の長さの閾値を小さくしてもよい。
例えば、所定の条件が未知語の各文字を閾値以上の長さの長音にて発話することであり、かつ発話情報が入力されるコンテンツがメーラーまたはテキストエディタ等である場合、識別制御部107は、長音の長さの閾値を大きくしてもよい。また、発話情報が入力されるコンテンツがチャット等の即時的なものである場合、識別制御部107は、長音の長さの閾値を小さくしてもよい。
例えば、所定の条件が未知語の各文字を閾値以上の大きさの音量にて発話することであり、かつ発話情報が入力されるコンテンツがメーラーまたはテキストエディタ等である場合、識別制御部107は、音量の大きさの閾値を小さくしてもよい。また、発話情報が入力されるコンテンツがチャット等である場合、識別制御部107は、音量の大きさの閾値を大きくしてもよい。
識別制御部107は、ユーザ3の周囲の環境に関する情報に基づいて、所定の条件に設定されている閾値を変更してもよい。具体的には、識別制御部107は、ユーザ3の周囲の環境の照度、場所、状況、騒音レベル、時刻、高度、気温、風向き、および風量のうちの少なくともいずれかに基づいて、所定の条件に設定されている閾値を変更してもよい。
例えば、所定の条件が未知語の各文字の後に閾値以上の長さの無音区間を設けて発話することであり、かつユーザ3の周囲の環境の騒音レベルが高い場合、ノイズの混入を避けるため、識別制御部107は、無音区間の長さの閾値を小さくしてもよい。また、ユーザ3の周囲の環境の騒音レベルが高い場合、識別制御部107は、無音区間の長さの閾値を大きくしてもよい。
例えば、所定の条件が未知語の各文字を閾値以上の長さの長音にて発話することであり、かつユーザ3が屋外にいる場合、識別制御部107は、ユーザ3が短時間で入力を行うことができるように、長音の長さの閾値を小さくしてもよい。また、ユーザ3が屋内にいる場合、識別制御部107は、長音の長さの閾値を大きくしてもよい。
例えば、所定の条件が未知語の各文字を閾値以上の大きさの音量にて発話することであり、かつユーザ3の周囲の環境の騒音レベルが高い場合、識別制御部107は、音量の大きさの閾値を大きくしてもよい。また、ユーザ3の周囲の環境の騒音レベルが低い場合、識別制御部107は、音量の大きさの閾値を小さくしてもよい。
識別制御部107は、発話情報を取得する音声入力装置に関する情報に基づいて、所定の条件に設定されている閾値を変更してもよい。具体的には、識別制御部107は、発話情報を取得する音声入力装置の音声認識の処理速度、入力感度、ノイズの入りやすさ、および指向性のうちの少なくともいずれかに基づいて、所定の条件に設定されている閾値を変更してもよい。
例えば、所定の条件が未知語の各文字の後に閾値以上の長さの無音区間を設けて発話することであり、かつ音声入力装置の音声認識の処理速度が遅い場合、識別制御部107は、無音区間の長さの閾値を大きくしてもよい。また、音声入力装置の音声認識の処理速度が速い場合、識別制御部107は、無音区間の長さの閾値を小さくしてもよい。
例えば、所定の条件が未知語の各文字の後に閾値以上の長さの無音区間を設けて発話することであり、かつ音声入力装置のノイズレベルが高い場合、識別制御部107は、誤検出を避けるため、無音区間の長さの閾値を小さくしてもよい。また、音声入力装置のノイズレベルが低い場合、識別制御部107は、無音区間の長さの閾値を大きくしてもよい。
例えば、所定の条件が未知語の各文字を閾値以上の長さの長音にて発話することであり、かつ音声入力装置のノイズレベルが高い場合、識別制御部107は、誤検出を避けるため、長音の長さの閾値を小さくしてもよい。また、音声入力装置のノイズレベルが低い場合、識別制御部107は、長音の長さの閾値を大きくしてもよい。
例えば、所定の条件が未知語の各文字を閾値以上の大きさの音量にて発話することであり、かつ音声入力装置の入力感度が高い場合、識別制御部107は、音量の大きさの閾値を大きくしてもよい。また、音声入力装置の入力感度が低い場合、識別制御部107は、音量の大きさの閾値を小さくしてもよい。
以上の閾値の制御によれば、識別制御部107は、未知語を識別するための所定の条件をユーザ3ごとに最適化することができるため、未知語の登録に掛かるユーザ3の負担を低減することができる。ただし、識別制御部107による閾値の制御は、上述した例示に限定されない。例えば、識別制御部107は、上述した例示における閾値の制御方向と逆の方向に閾値を制御してもよい。
画像生成部109は、ユーザ3の発話情報を文字にて表示した発話画像を生成する。具体的には、画像生成部109は、発話認識部103によって認識したユーザ3の発話情報を文字表記に変換して表示した発話画像を生成する。これにより、ユーザ3は、発話画像に表示された発話情報の文字表記を確認することによって、自身が発話した内容が情報処理装置1において正確に音声認識されているかを確認することができる。
また、発話画像において、識別部105によって未知語であると識別された単語は、ひらがな、カタカナ、またはローマ字などの所定の表音文字にて表示されてもよい。これは、未知語では、ユーザ3が意図する漢字変換が不明であるため、漢字等の表意文字で表示するよりも表音文字にて表示することが適切であるためである。また、所定の表音文字にて未知語を表示することにより、未知語が文節区切りされない一単語であることを明示することができる。
また、発話画像において、識別部105によって未知語であると識別された単語は、他の発話情報とは異なる表記にて表示されてもよい。例えば、未知語であると識別された単語は、他の発話情報とは異なる文字色、文字の大きさ、文字フォント、または修飾文字(例えば、太字、および斜体文字など)にて表示されてもよい。これにより、画像生成部109は、ユーザ3が発話したどの単語を未知語と識別したのかをユーザ3に明示することができる。
さらに、画像生成部109は、ユーザ3の発話情報において、未知語を識別するための所定の条件が満たされているか否かを表示する画像を生成してもよい。具体的には、閾値が設定された所定の発話方法にて発話されたか否かによって未知語の識別が行われている場合、画像生成部109は、所定の発話方法における閾値、および発話方法が閾値を満たしているか否かを表示する閾値画像を生成してもよい。
これによれば、ユーザ3は、自身の発話が未知語を識別するための所定の発話方法を満たしているか否かを確認することができる。そのため、ユーザ3は、意図しない単語が未知語として識別されたり、または未知語として登録したい単語が未知語と識別されなかったりすることを回避することができる。
処理部111は、識別部105によって未知語と識別された単語を登録するための処理を行う。例えば、音声認識に用いる各種データベースがデータベース記憶部113に記憶されている場合、処理部111は、識別部105によって未知語と識別された単語をデータベース記憶部113に記憶された各種データベースに登録してもよい。また、音声認識に用いる各種データベースが情報処理装置1の外部の記憶装置に記憶されている場合、処理部111は、未知語と識別された単語を各種データベースに登録するために必要な情報を生成し、外部の記憶装置に出力してもよい。
なお、処理部111は、ユーザ3によって発話情報が確定された場合に、未知語と識別された単語を登録するための処理を行う。例えば、ユーザ3が音声チャットを行っている場合、ユーザ3が発話した発話情報をメッセージとして相手先に送信した際に、処理部111は、発話情報が確定されたと判断し、未知語と識別された単語を登録するための処理を行ってもよい。
ただし、処理部111によって未知語と識別された単語を登録するための処理が行われるタイミングは、上記に限定されない。例えば、発話情報の修正が少ないユーザ3については、処理部111は、ユーザ3が所定の条件を満たすように未知語を発話した時点で、当該未知語を各種データベースに登録するための処理を行ってもよい。また、所定の人数以上のユーザのデータベースに登録されている未知語については、処理部111は、ユーザ3が所定の条件を満たすように未知語を発話したされた時点で、当該未知語を各種データベースに登録するための処理を行ってもよい。
また、処理部111は、登録された未知語と類似した単語が発話された場合、登録された未知語と類似した単語についても同様に未知語であると判断し、該単語を各種データベースに登録するための処理を行ってもよい。登録された未知語と類似した単語としては、例えば、登録された未知語に接頭語または接尾語が付加された単語を例示することができる。なお、このような場合、処理部111は、登録された未知語と類似した単語を各種データベースに登録するための処理を行うか否かをユーザ3に確認してもよい。
<3.情報処理装置の動作例>
続いて、図3を参照して、本実施形態に係る情報処理装置1の動作について説明する。図3は、本実施形態に係る情報処理装置1の動作例を説明するフローチャート図である。なお、以下で所定の条件を満たす単語とは、所定の発話方法によって発話された単語を表す。
図3に示すように、音声取得部101は、音声入力装置5等からユーザ3の音声信号を取得する(S101)。次に、発話認識部103は、音声信号からユーザ3が発話している発話情報を認識する(S103)。続いて、識別部105は、発話認識部103によって認識された発話情報に所定の条件を満たす単語が含まれているか否かを判断する(S105)。発話情報に所定の条件を満たす単語が含まれる場合(S105/Yes)、識別部105は、所定の条件を満たす単語を未知語として識別する(S107)。また、画像生成部109は、識別された未知語を文節区切りせずに、所定の表音文字にて表示した発話画像を生成する(S109)。
一方、発話情報に所定の条件を満たす単語が含まれない場合(S105/No)、画像生成部109は、発話認識部103にて認識された発話情報をそのまま表示した発話画像を生成する(S111)。
ここで、音声取得部101は、ユーザ3による発話情報の修正があるか否かを確認し(S113)、発話情報の修正がある場合(S113/Yes)、発話情報の修正のための音声信号を取得する(S101)。一方、発話情報の修正がない場合(S113/No)、発話情報は、ユーザ3によって確定された後、送信される(S115)。未知語が識別されている場合、その後、処理部111は、識別した未知語に品詞等を与え、データベース記憶部113等に記憶された各種データベースに未知語を登録する。また、処理部111は、登録された未知語の変換の優先順位を高めてもよい(S117)。
以上の構成および動作によれば、情報処理装置1は、より簡便な方法によってユーザ3に意識的に未知語を登録させることができる。したがって、情報処理装置1は、未知語が登録されたデータベースを効率的に生成することができる。
また、所定の条件を満たして発話された未知語は、文節区切りされず一単語と見なされて音声認識されるため、情報処理装置1は、未知語がユーザ3の意図しない文節区切り、または表記にて表示されることを防止することができる。また、登録された未知語は、以降は、文節区切りされずに一単語として見なされるため、情報処理装置1は、ユーザ3の音声入力の利便性を向上させることができる。
<4.未知語の入力の具体例>
次に、図4〜図12を参照して、本実施形態に係る情報処理装置1における未知語の入力の具体例について説明する。
まず、図4を参照して、未知語が意図されない表記に変換された場合について説明する。図4は、未知語が意図されない表記に変換された画像の一例を示す説明図である。
図4に示すように、表示装置9に表示されるビデオゲーム等の画像900において、ユーザ3が音声入力装置5を介して音声入力した発話情報は、下端の入力欄910に表示される。ユーザ3は、音声入力した発話情報が意図したとおり適切な表記になっている場合、送信ボタン920を押下することにより、音声入力した発話情報を音声チャットなどの相手先に送信することができる。なお、マイク画像930は、マイクロフォンの模式的な画像であり、入力欄910に表示される発話情報が音声入力によって入力されたものであることを示している。
例えば、ユーザ3が「いま そこで ほるみに であったよー」と音声入力し、「ほるみ」が音声認識に用いられるデータベースに登録されていない未知語であったとする。ここで、音声入力された情報は、図4に示すように、データベースに登録されていない「ほるみ」が一単語として認識されず、「ほ」、「る」、「み」のそれぞれが文節区切りされて認識されてしまう。そのため、「ほ」、「る」、「み」のそれぞれが別個に漢字等に変換された結果、「帆留未」というユーザ3が意図しない表記にて入力欄910に入力されてしまう。このような場合、ユーザ3は、意図しない表記にて入力された「帆留未」という発話情報を再入力により修正したり、または音声入力に依らない方法にて修正したりする必要があり、音声入力の利便性を低下させていた。
本実施形態に係る情報処理装置1では、所定の条件を満たすようにユーザ3が発話することにより、上記の未知語である「ほるみ」を所定の表音文字にて表記させることができる。また、未知語である「ほるみ」は、ユーザ3が所定の条件を満たすように発話することにより、データベースに登録される。データベース登録された「ほるみ」は、以降、通常の音声入力であっても文節区切り等されずに一単語として認識されるようになる。
このような本実施形態に係る情報処理装置1における未知語の入力の具体例について第1〜第3の入力例を例示して説明する。
(4.1.第1の入力例)
まず、図5A〜図7を参照して、本実施形態に係る第1の未知語の入力例について説明する。図5A〜図5Dは、第1の入力例における入力欄の画像例を示す説明図であり、図6は、登録後の未知語を通常の発話方法にて音声入力した際の画像の一例を示す説明図である。また、図7は、所定の発話方法における閾値までの時間を示す閾値画像の設定例を示す説明図である。
第1の未知語の入力例において、各文字の後に閾値以上の長さの無音区間を設けて発話された場合、情報処理装置1は、これらの各文字からなる単語を未知語と識別する。したがって、例えば、ユーザ3が「ほるみ」を未知語として情報処理装置1に識別させたい場合、ユーザ3は「ほ」、「る」、「み」のそれぞれの後に閾値以上の無音区間を設けて発話すればよい。
このような場合、図5Aに示すように、ユーザ3が「ほ」を発話してから無音区間を設けた場合、未知語として識別される閾値までの時間を示すインジケータである閾値画像941が入力欄911内に表示される。閾値画像941は、例えば、環状であり、閾値までの時間経過に伴い、環の表示色が時計回りに徐々に変化し、色が変化した領域が一周した際に時間経過が閾値に達するような画像であってもよい。また、閾値画像941は、横長の棒状であり、棒の表示色が左から徐々に変化し、色が変化した領域が棒の右に達した際に時間経過が閾値に達するような画像であってもよい。
ユーザ3が未知語として「ほるみ」を登録したい場合、図5Bに示すように、ユーザ3は、「ほ」、「る」、「み」のそれぞれの文字を発話した後、閾値画像941の表示色が変化した領域が一周に達するまで(すなわち、無音区間の長さが閾値を超えるまで)無音区間を設けてから、次の文字を発話すればよい。このように情報処理装置1は、ユーザ3に対して、未知語として識別されるための発話方法を誘導することができるため、ユーザ3による未知語の登録を支援することができる。
図5Cに示すように、「ほるみ」を音声入力し終わった後、「に」を未知語に含めたくない場合、ユーザ3は、閾値画像941の表示色が変化した領域が一周に達する前(すなわち、無音区間の長さが閾値を超える前)に、次の文字である「で」を発話する。これにより、情報処理装置1は、各文字の発話の後に閾値以上の無音区間が設けられた「ほるみ」を未知語であると識別することができる。
未知語として識別された「ほるみ」は、例えば、図5Dに示すように、入力欄911において、所定の表音文字であるカタカナにて「ホルミ」と表記され、さらに他の文字とは異なる修飾文字にて表示される。これにより、ユーザ3は、「ほるみ」が未知語として識別されたことを確認することができる。ユーザ3は、意図されたとおりに「ほるみ」が未知語として識別されたことを確認した場合、「今そこでホルミに出合ったよー」という発話情報を確定させることにより、未知語として識別された「ほるみ」をデータベースに登録することができる。
図5A〜図5Dに示した入力例により、「ほるみ」が未知語としてデータベースに登録された場合、図6に示すように、ユーザ3が所定の発話方法にて発話しなくとも「ほるみ」は、文節区切りされない一単語として認識され、入力欄910に表示されるようになる。この場合の「ほるみ」の表記は、所定の表音文字であるカタカナであってもよい。「ほるみ」の表記を別の表記に変化させたい場合、ユーザ3は、「ほるみ」の音声入力を所望の表記になるまで繰り返せばよい。
なお、上述したように無音区間の長さの閾値は、未知語と識別される閾値までの時間を示すインジケータである閾値画像941の表示時間の設定を変更することによって、変更することができる。
例えば、図7に示すように、閾値画像941には、未知語を発話してから閾値画像941が表示されるまでの時間である「インジケータ開始時間」、および表示色の変化が一周するまでの時間である「インジケータ認識時間」が設定される。すなわち、無音区間の長さの閾値は、「インジケータ開始時間」および「インジケータ認識時間」の和に等しい。ここで、未知語を発話してから閾値画像941が表示されるまでの時間が別途設定されているのは、通常の発話でも文字を発話するたびに閾値画像941が表示されることを防止するためである。
「インジケータ開始時間」、および「インジケータ認識時間」は、ユーザ3によって変更されてもよいが、ユーザ3の通常の発話速度に基づいて情報処理装置1によって動的に変更されてもよい。
例えば、情報処理装置1は、所定の文字量に対する発話時間から、未知語を含まない場合のユーザ3の発話速度を算出し、ユーザ3の発話速度に基づいて、「インジケータ開始時間」および「インジケータ認識時間」を変更してもよい。
また、情報処理装置1は、無音区間の長さが閾値に達する前に次の語が発話された場合における閾値画像941の表示色が変化した領域の広さに応じて「インジケータ開始時間」および「インジケータ認識時間」を変更してもよい。この場合、情報処理装置1は、閾値画像941の表示色が変化した領域の広さが、おおよそ50%〜60%程度になるように「インジケータ開始時間」および「インジケータ認識時間」を変更してもよい。
また、情報処理装置1は、複数の「インジケータ開始時間」および「インジケータ認識時間」の組み合わせを有していてもよい。これは、緊張または興奮状態、集中度が高い状態、集中度が低い状態などのユーザ3の状態に応じて、情報処理装置1が適切な「インジケータ開始時間」および「インジケータ認識時間」の組み合わせを設定可能にするためである。
ユーザ3の状態は、上述したように、音声入力装置5または操作入力装置7に備えられた各種センサから取得可能なユーザ3の心拍数、体温、発汗量、血圧、または呼吸数などを用いることで判断することができる。また、ユーザ3の状態は、操作入力装置7の操作の頻度、または強度などから判断されてもよい。
(4.2.第2の入力例)
次に、図8Aおよび図8Bを参照して、本実施形態に係る第2の未知語の入力例について説明する。図8Aおよび図8Bは、第2の入力例における入力欄の画像例を示す説明図である。
第2の未知語の入力例において、各文字を閾値以上の音量にて発話された場合、情報処理装置1は、これらの各文字からなる単語を未知語と識別する。したがって、例えば、ユーザ3が「ほるみ」を未知語として情報処理装置1に識別させたい場合、ユーザ3は「ほ」、「る」、「み」のそれぞれの文字を閾値以上の音量にて発話すればよい。
このような場合、図8Aに示すように、ユーザ3が「ほ」を発話した場合、ユーザ3の発話の音量を示すインジケータである閾値画像943が入力欄913内に表示される。例えば、閾値画像943は、ユーザ3の発話の音量の大きさを縦軸、時間を横軸に採用したグラフ状であり、音量の大きさの閾値が線として示された画像であってもよい。また、閾値画像943は、ユーザ3に発話の音量を示すために常時表示されているものを流用してもよい。
ユーザ3が未知語として「ほるみ」を登録したい場合、図8Bに示すように、ユーザ3は、「ほ」、「る」、「み」のそれぞれの文字を音量のグラフが閾値の線を超えるように発話すればよい。また、「ほるみ」を音声入力し終わった後、「に」を未知語に含めたくない場合、ユーザ3は、発話の音量を小さくし、音量のグラフが閾値の線を超えないように発話すればよい。これにより、情報処理装置1は、ユーザ3に対して、未知語として識別されるための発話方法を誘導することができる。
また、未知語として識別された「ほるみ」は、第1の未知語の入力例と同様に、入力欄913において、所定の表音文字であるカタカナにて「ホルミ」と表記され、さらに他の文字とは異なる修飾文字にて表示される。
第2の未知語の入力例では、未知語と識別される音量の大きさの閾値を変更することが可能である。このような場合、音量の大きさの閾値は、第1の未知語の入力例における「インジケータ開始時間」および「インジケータ認識時間」と同様に、ユーザ3によって変更されてもよく、ユーザ3の通常の発話音量に基づいて情報処理装置1によって動的に変更されてもよい。さらに、音量の大きさの閾値は、ユーザ3の状態に応じて、適宜、変更されてもよい。
(4.3.第3の入力例)
続いて、図9A〜図9Dを参照して、本実施形態に係る第3の未知語の入力例について説明する。図9A〜図9Dは、第3の入力例における入力欄の画像例を示す説明図である。
第3の未知語の入力例において、各文字が閾値以上の長さの長音にて発話された場合、情報処理装置1は、これらの各文字からなる単語を未知語と識別する。したがって、例えば、ユーザ3が「あじーな」を未知語として情報処理装置1に識別させたい場合、ユーザ3は「あ」、「じー」、「な」のそれぞれを閾値以上の長さの長音にて発話すればよい。なお、「じー」は、未知語自体が長音であるため、「じ」の場合よりもさらに長い長音で発話する必要がある。
このような場合、図9Aに示すように、ユーザ3が「あ」を長音にて発話した場合、未知語として識別される閾値までの時間を示すインジケータである閾値画像945が入力欄915内に表示される。閾値画像945は、例えば、環状であり、閾値までの時間経過に伴い、環の表示色が時計回りに徐々に変化し、色が変化した領域が一周した際に時間経過が閾値に達するような画像であってもよい。また、閾値画像945は、横長の棒状であり、棒の表示色が左から徐々に変化し、色が変化した領域が棒の右に達した際に時間経過が閾値に達するような画像であってもよい。
ユーザ3が未知語として「あじーな」を登録したい場合、図9Aに示すように、ユーザ3は、「あ」、「じー」、「な」のそれぞれの文字を発話した後、閾値画像945の表示色が変化した領域が一周に達するまで(すなわち、長音の長さが閾値を超えるまで)長音を延ばしてから、次の文字を発話すればよい。これにより、情報処理装置1は、ユーザ3に対して、未知語として識別されるための発話方法を誘導することができる。
なお、第3の未知語の入力例では、未知語自体が長音であるか否かを判断するために、未知語が長音であると識別される閾値までの時間を示すインジケータである長音判断画像946がさらに表示される。図9Bおよび図9Cに示すように、長音判断画像946は、未知語と識別される閾値までの時間を示すインジケータである閾値画像945が表示された後、続けて表示される。長音判断画像946は、閾値画像945と同様の画像であってもよいが、形状または色の少なくともいずれかを変更することにより、異なるインジケータであることが視認できる画像であってもよい。
ユーザ3は、閾値画像945の表示色が変化した領域が一周に達するまで発話を延ばした後、さらに長音判断画像946の表示色が変化した領域が一周に達するまで(すなわち、長音の長さが長音であるか否かを識別する閾値を超えるまで)長音を延ばすことで、長音を含む未知語を入力することができる。なお、長音判断画像946の表示色が変化した領域が一周に達する前(すなわち、長音の長さが長音であるか否かを判断する閾値を超える前)に長音の延ばしが止められた場合、情報処理装置1は、未知語自体が長音ではないと判断する。
さらに、「あじーな」を音声入力し終わった後、「に」を未知語に含めたくない場合、ユーザ3は、閾値画像945の表示色が変化した領域が一周に達する前(すなわち、長音の長さが閾値を超える前)に、「に」の長音の延ばしを止め、次の文字である「で」を発話する。これにより、情報処理装置1は、各文字が閾値以上の長音にて発話された「あじーな」を未知語であると識別することができる。
未知語として識別された「あじーな」は、図9Dに示すように、入力欄915において、所定の表音文字であるカタカナにて「アジーナ」と表記され、さらに他の文字とは異なる修飾文字にて表示される。これにより、ユーザ3は、「あじーな」が未知語として識別されたことを確認することができる。ユーザ3は、意図されたとおりに「あじーな」が未知語として識別されたことを確認した場合、「今そこでアジーナに出合ったよー」という発話情報を確定させることにより、未知語として識別された「あじーな」をデータベースに登録することができる。
なお、長音の長さの閾値は、第1の未知語の入力例と同様に、未知語と識別される閾値までの時間を示すインジケータである閾値画像945の表示時間の設定を変更することによって、変更することができる。また、未知語が長音であると識別される閾値までの時間を示すインジケータである長音判断画像946についても、閾値画像945と同様に、表示時間の設定を変更することが可能である。閾値画像945および長音判断画像946における「インジケータ開始時間」および「インジケータ認識時間」は、互いに独立して、ユーザ3によって変更されてもよく、ユーザ3の通常の発話速度に基づいて情報処理装置1によって動的に変更されてもよい。
(4.4.入力の修正例)
次に、図10を参照して、本実施形態に係る未知語の入力の修正例について説明する。図10は、誤って未知語が識別された入力欄の画像例を示す説明図である。
図10で示すように、例えば、ユーザ3は、未知語として「ほるみ」を音声入力しようとしたものの、入力欄917では、未知語として「でほるみ」が識別されてしまった場合、ユーザ3は、入力欄917における未知語の入力をやり直す必要が生じる。
このような場合、入力欄917に入力された発話情報を確定または送信する前であれば、ユーザ3は、再度、発話情報の全文または「でほるみ」を含む一部の音声入力をやり直すことで、識別された未知語を「でほるみ」から「ほるみ」に修正することができる。
ここで、「でほるみ」から「ほるみ」に修正された後、入力欄917に入力された発話情報が確定または送信された場合、「でほるみ」ではなく「ほるみ」が未知語として登録されることになる。なお、ユーザ3が一部の音声入力をやり直した場合、発話認識部103は、パターンマッチング等によってユーザ3が音声入力をやり直した発話箇所を判断し、該当する箇所の発話情報を上書きしてもよい。
これにより、ユーザ3は、発話のミス等によって、意図しない単語が未知語として識別されてデータベースに登録されてしまうことを防止することができる。
(4.5.変形例)
続いて、図11A〜図12を参照して、本実施形態に係る未知語の入力の変形例について説明する。図11A〜図11Cは、変形例における入力欄の画像例を示す説明図であり、図12は、登録後の未知語を通常の発話方法にて音声入力した際の画像の一例を示す説明図である。
本実施形態に係る未知語の入力の変形例は、発話情報が英語等のアルファベットで表記される言語である場合において、未知語の識別および登録を行う例である。このような場合、ユーザ3は、所定の条件(例えば、所定の発話方法にて発話すること)を満たすように未知語を発話することに加えて、該未知語のアルファベット綴りおよび発音を発話することにより、情報処理装置1に未知語を識別させ、識別した未知語を登録させることができる。
図11A〜図11Cに示すように、例えば、ユーザ3が「Holme」を未知語として情報処理装置1に識別させたい場合、ユーザ3は、アルファベット綴りである「エイチ(H)」、「オー(O)」、「エル(L)」、「エム(M)」、「イー(E)」および発音である「ホォウム(houm)」を所定の条件を満たすように発話すればよい。
具体的には、所定の条件が、第1の入力例と同様に、各文字の後に閾値以上の長さの無音区間を設けて発話されることである場合、ユーザ3は、「エイチ(H)」、「オー(O)」、「エル(L)」、「エム(M)」、「イー(E)」および「ホォウム(houm)」のそれぞれを閾値以上の長さの無音区間を設けて発話することにより、「Holme」を未知語として情報処理装置1に識別させることができる。
このような場合、入力欄919には、第1の入力例と同様に、未知語として識別される閾値までの時間を示すインジケータである閾値画像949が表示されてもよい。また、未知語として識別された「Holme」は、図11Cに示すように、入力欄919において、他の文字とは異なる修飾文字にて表示されてもよい。
図11A〜図11Cに示した入力例により、「Holme」が未知語としてデータベースに登録された場合、図12に示すように、ユーザ3が所定の発話方法にて発話しなくとも「Holme」は、文節区切りされない一単語として認識されて入力欄919に表示されるようになる。また、ユーザ3は、「Send」ボタン929を押下することにより、音声入力した発話情報を確定させ、音声チャットなどの相手先に送信することができる。なお、マイク画像939は、マイクロフォンの模式的な画像であり、入力欄919に表示される発話情報が音声入力によって入力されたものであることを示す画像である。
<5.ハードウェア構成例>
以下では、図13を参照して、本実施形態に係る情報処理装置のハードウェア構成例について説明する。図13は、本実施形態に係る情報処理装置1のハードウェア構成例を示したブロック図である。なお、本実施形態に係る情報処理装置による情報処理は、ソフトウェアとハードウェアとの協働によって実現される。
図13に示すように、情報処理装置1は、CPU(Central Processing Unit)151と、ROM(Read Only Memory)153と、RAM(Random Access Memory)155と、ブリッジ161と、内部バス157および159と、インタフェース163と、入力装置165と、出力装置167と、ストレージ装置169と、ドライブ171と、接続ポート173と、通信装置175と、を備える。
CPU151は、演算処理装置および制御装置として機能し、ROM153等に記憶された各種プログラムに従って、情報処理装置1の動作全般を制御する。ROM153は、CPU151が使用するプログラム、演算パラメータを記憶し、RAM155は、CPU151の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。例えば、CPU151は、発話認識部103、識別部105、識別制御部107、画像生成部109、および処理部111等の機能を実行してもよい。
これらCPU151、ROM153およびRAM155は、ブリッジ161、内部バス157および159等により相互に接続されている。また、CPU151、ROM153およびRAM155は、インタフェース163を介して入力装置165、出力装置167、ストレージ装置169、ドライブ171、接続ポート173および通信装置175とも接続されている。
入力装置165は、タッチパネル、キーボード、ボタン、マイクロフォン、スイッチおよびレバーなどの情報が入力される入力装置を含む。また、入力装置165は、入力された情報に基づいて入力信号を生成し、CPU151に出力するための入力制御回路なども含む。
出力装置167は、例えば、CRT表示装置、液晶表示装置、有機EL表示装置などの表示装置を含む。さらに、出力装置167は、スピーカおよびヘッドホンなどの音声出力装置を含んでもよい。
ストレージ装置169は、情報処理装置1の記憶部の一例として構成されるデータ格納用の装置である。ストレージ装置169は、記憶媒体、記憶媒体にデータを記憶する記憶装置、記憶媒体からデータを読み出す読み出し装置、および記憶されたデータを削除する削除装置を含んでもよい。ストレージ装置169は、データベース記憶部113等の機能を実行してもよい。
ドライブ171は、記憶媒体用リードライタであり、情報処理装置1に内蔵、または外付けされる。例えば、ドライブ171は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記憶されている情報を読み出し、RAM153に出力する。また、ドライブ171は、リムーバブル記憶媒体に情報を書き込むことも可能である。
接続ポート173は、例えば、USBポート、イーサネット(登録商標)ポート、IEEE802.11規格ポート、および光オーディオ端子等のような外部接続機器を接続するための接続ポートで構成された接続インタフェースである。接続ポート173は、音声取得部101等の機能を実行してもよい。
通信装置175は、例えば、公衆回線網または専用回線網などのネットワーク8に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置175は、有線または無線LAN対応通信装置であっても、有線によるケーブル通信を行うケーブル通信装置であってもよい。
また、情報処理装置1に内蔵されるCPU、ROMおよびRAMなどのハードウェアを上述した本実施形態に係る情報処理装置の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
<6.まとめ>
以上にて説明したように、本実施形態に係る情報処理装置1によれば、より簡便な方法によってユーザ3に意識的に未知語を登録させることができるため、未知語が登録されたデータベースを効率的に生成することができる。
また、所定の条件を満たして発話された未知語は、文節区切りされず一単語と見なされて音声認識されるため、情報処理装置1は、未知語がユーザ3の意図しない文節区切り、または表記にて表示されることを防止することができる。また、登録された未知語は、以降は、文節区切りされずに一単語として見なされるため、情報処理装置1は、ユーザ3の音声入力の利便性を向上させることができる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、
識別された前記未知語を登録するための処理を行う処理部と、
を備える、情報処理装置。
(2)
前記所定の発話方法は、各文字の後に閾値以上の長さの無音区間を設けて発話する方法である、前記(1)に記載の情報処理装置。
(3)
前記所定の発話方法は、各文字を閾値以上の大きさの音量にて発話する方法である、前記(1)に記載の情報処理装置。
(4)
前記所定の発話方法は、各文字を閾値以上の長さの長音にて発話する方法である、前記(1)に記載の情報処理装置。
(5)
前記所定の発話方法における閾値は、前記ユーザに関する情報に基づいて制御される、前記(2)〜(4)のいずれか一項に記載の情報処理装置。
(6)
前記ユーザに関する情報は、前記ユーザの発話速度である、前記(5)に記載の情報処理装置。
(7)
前記ユーザに関する情報、前記ユーザの生体に関する情報である、前記(5)に記載の情報処理装置。
(8)
前記所定の発話方法における閾値は、前記発話情報が入力されるコンテンツに関する情報に基づいて制御される、前記(2)〜(4)のいずれか一項に記載の情報処理装置。
(9)
前記所定の発話方法における閾値は、前記ユーザの周囲の環境に関する情報に基づいて制御される、前記(2)〜(4)のいずれか一項に記載の情報処理装置。
(10)
前記所定の発話方法における閾値は、前記発話情報を取得する音声入力装置に関する情報に基づいて制御される、前記(2)〜(4)のいずれか一項に記載の情報処理装置。
(11)
認識した前記ユーザの発話情報を文字にて表示した発話画像を生成する画像生成部をさらに備える、前記(1)〜(10)のいずれか一項に記載の情報処理装置。
(12)
前記画像生成部は、前記所定の発話方法における閾値を表示した閾値画像をさらに生成する、前記(11)に記載の情報処理装置。
(13)
前記発話画像において、前記未知語は、所定の表音文字にて表示される、前記(11)または(12)に記載の情報処理装置。
(14)
前記発話画像において、前記未知語は、他の発話情報と異なる表記にて表示される、前記(11)〜(13)のいずれか一項に記載の情報処理装置。
(15)
前記ユーザの発話情報の言語がアルファベットで表記される言語である場合、
前記所定の発話方法には、前記未知語のアルファベット綴りおよび発音を発話することがさらに含まれる、前記(1)〜(14)のいずれか一項に記載の情報処理装置。
(16)
前記発話情報は、前記ユーザが前記発話情報を発話し直した場合、発話し直した発話情報に修正される、前記(1)〜(15)のいずれか一項に記載の情報処理装置。
(17)
前記処理部は、前記ユーザが前記発話情報を確定させた場合、前記発話情報に含まれる前記未知語を登録するための処理を行う、前記(1)〜(16)のいずれか一項に記載の情報処理装置。
(18)
登録された前記未知語は、文節区切りされない一単語と見なされる、前記(1)〜(17)のいずれか一項に記載の情報処理装置。
(19)
演算処理装置によって、ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別することと、
識別された前記未知語を登録するための処理を行うことと、
を含む、情報処理方法。
(20)
コンピュータを
ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、
識別された前記未知語を登録するための処理を行う処理部と、
として機能させる、プログラム。
1 情報処理装置
3 ユーザ
5 音声入力装置
7 操作入力装置
9 表示装置
101 音声取得部
103 発話認識部
105 識別部
107 識別制御部
109 画像生成部
111 処理部
113 データベース記憶部

Claims (21)

  1. ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、
    前記ユーザによる発話が前記所定の発話方法に該当するか否かを示す画像を生成する画像生成部と、
    識別された前記未知語を登録するための処理を行う処理部と、
    を備える、情報処理装置。
  2. 前記所定の発話方法は、各文字の後に閾値以上の長さの無音区間を設けて発話する方法である、請求項1に記載の情報処理装置。
  3. 前記所定の発話方法は、各文字を閾値以上の大きさの音量にて発話する方法である、請求項1に記載の情報処理装置。
  4. 前記所定の発話方法は、各文字を閾値以上の長さの長音にて発話する方法である、請求項1に記載の情報処理装置。
  5. 前記所定の発話方法における閾値は、前記ユーザに関する情報に基づいて制御される、請求項2乃至請求項4の何れか1項に記載の情報処理装置。
  6. 前記ユーザに関する情報は、前記ユーザの発話速度である、請求項5に記載の情報処理装置。
  7. 前記ユーザに関する情報は、前記ユーザの生体に関する情報である、請求項5に記載の情報処理装置。
  8. 前記所定の発話方法における閾値は、前記発話情報が入力されるコンテンツに関する情報に基づいて制御される、請求項2乃至請求項4の何れか1項に記載の情報処理装置。
  9. 前記所定の発話方法における閾値は、前記ユーザの周囲の環境に関する情報に基づいて制御される、請求項2乃至請求項4の何れか1項に記載の情報処理装置。
  10. 前記所定の発話方法における閾値は、前記発話情報を取得する音声入力装置に関する情報に基づいて制御される、請求項2乃至請求項4の何れか1項に記載の情報処理装置。
  11. 前記画像生成部は、認識した前記ユーザの発話情報を文字にて表示した発話画像を生成する、請求項1乃至請求項10の何れか1項に記載の情報処理装置。
  12. 前記画像生成部は、前記所定の発話方法における閾値を表示した閾値画像をさらに生成する、請求項11に記載の情報処理装置。
  13. 前記発話画像において、前記未知語は、所定の表音文字にて表示される、請求項11または請求項12に記載の情報処理装置。
  14. 前記発話画像において、前記未知語は、他の発話情報と異なる表記にて表示される、請求項11乃至請求項13の何れか1項に記載の情報処理装置。
  15. 前記ユーザの発話情報の言語がアルファベットで表記される言語である場合、
    前記所定の発話方法には、前記未知語のアルファベット綴りおよび発音を発話することがさらに含まれる、請求項1乃至請求項14の何れか1項に記載の情報処理装置。
  16. 前記発話情報は、前記ユーザが前記発話情報を発話し直した場合、発話し直した発話情報に修正される、請求項1乃至請求項15の何れか1項に記載の情報処理装置。
  17. 前記処理部は、前記ユーザが前記発話情報を確定させた場合、前記発話情報に含まれる前記未知語を登録するための処理を行う、請求項1乃至請求項16の何れか1項に記載の情報処理装置。
  18. 登録された前記未知語は、文節区切りされない一単語と見なされる、請求項1乃至請求項17の何れか1項に記載の情報処理装置。
  19. 演算処理装置によって、ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別することと、
    前記ユーザによる発話が前記所定の発話方法に該当するか否かを示す画像を生成することと、
    識別された前記未知語を登録するための処理を行うことと、
    を含む、情報処理方法。
  20. コンピュータを
    ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、
    前記ユーザによる発話が前記所定の発話方法に該当するか否かを示す画像を生成する画像生成部と、
    識別された前記未知語を登録するための処理を行う処理部と、
    として機能させる、プログラム。
  21. 前記ユーザの視線情報に基づいて、前記識別部による識別動作の実行を制御する識別制御部をさらに備える、請求項1に記載の情報処理装置。
JP2017514726A 2015-10-23 2016-07-20 情報処理装置、情報処理方法、およびプログラム Expired - Fee Related JP6747434B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015208772 2015-10-23
JP2015208772 2015-10-23
PCT/JP2016/071296 WO2017068826A1 (ja) 2015-10-23 2016-07-20 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2017068826A1 JPWO2017068826A1 (ja) 2018-08-16
JP6747434B2 true JP6747434B2 (ja) 2020-08-26

Family

ID=58557260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017514726A Expired - Fee Related JP6747434B2 (ja) 2015-10-23 2016-07-20 情報処理装置、情報処理方法、およびプログラム

Country Status (3)

Country Link
US (1) US10714082B2 (ja)
JP (1) JP6747434B2 (ja)
WO (1) WO2017068826A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018084576A1 (en) * 2016-11-03 2018-05-11 Samsung Electronics Co., Ltd. Electronic device and controlling method thereof
KR102391298B1 (ko) * 2017-04-24 2022-04-28 삼성전자주식회사 음성 인식 서비스를 제공하는 전자 장치 및 그 방법
KR102375800B1 (ko) * 2017-04-28 2022-03-17 삼성전자주식회사 음성 인식 서비스를 제공하는 전자 장치 및 그 방법
KR20200013162A (ko) 2018-07-19 2020-02-06 삼성전자주식회사 전자 장치 및 그의 제어 방법
WO2021059968A1 (ja) 2019-09-27 2021-04-01 日本電気株式会社 音声認識装置、音声認識方法、およびプログラム
JP2021071632A (ja) * 2019-10-31 2021-05-06 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
US11769323B2 (en) * 2021-02-02 2023-09-26 Google Llc Generating assistive indications based on detected characters

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799065A (en) * 1996-05-06 1998-08-25 Matsushita Electric Industrial Co., Ltd. Call routing device employing continuous speech
US7292986B1 (en) * 1999-10-20 2007-11-06 Microsoft Corporation Method and apparatus for displaying speech recognition progress
JP2001343995A (ja) * 2000-05-31 2001-12-14 Toshiba Corp 音声入力処理装置、音声入力処理方法及び音声入力処理プログラムを記録した記録媒体
US7143037B1 (en) * 2002-06-12 2006-11-28 Cisco Technology, Inc. Spelling words using an arbitrary phonetic alphabet
JP2006058641A (ja) * 2004-08-20 2006-03-02 Nissan Motor Co Ltd 音声認識装置
US20060173680A1 (en) * 2005-01-12 2006-08-03 Jan Verhasselt Partial spelling in speech recognition
WO2007097390A1 (ja) * 2006-02-23 2007-08-30 Nec Corporation 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム
JP2009103985A (ja) * 2007-10-24 2009-05-14 Nec Corp 音声認識システム、音声認識処理のための状況検知システム、状況検知方法および状況検知プログラム
US8510103B2 (en) * 2009-10-15 2013-08-13 Paul Angott System and method for voice recognition
JP2011154341A (ja) * 2009-12-28 2011-08-11 Fujitsu Ltd 音声認識装置、音声認識方法および音声認識プログラム
KR101889836B1 (ko) * 2012-02-24 2018-08-20 삼성전자주식회사 음성인식을 통한 단말기의 잠금 상태 해제 및 조작 방법 및 장치
TWI536366B (zh) * 2014-03-18 2016-06-01 財團法人工業技術研究院 新增口說語彙的語音辨識系統與方法及電腦可讀取媒體

Also Published As

Publication number Publication date
US10714082B2 (en) 2020-07-14
US20170337919A1 (en) 2017-11-23
WO2017068826A1 (ja) 2017-04-27
JPWO2017068826A1 (ja) 2018-08-16

Similar Documents

Publication Publication Date Title
JP6747434B2 (ja) 情報処理装置、情報処理方法、およびプログラム
KR101183310B1 (ko) 일반적인 철자 기억용 코드
US20020111794A1 (en) Method for processing information
JP2008077601A (ja) 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
CN105210147B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
JP5198046B2 (ja) 音声処理装置及びそのプログラム
JPWO2017217046A1 (ja) 情報処理装置及び情報処理方法
US8219386B2 (en) Arabic poetry meter identification system and method
JP2002244842A (ja) 音声通訳システム及び音声通訳プログラム
JP2006259641A (ja) 音声認識装置及び音声認識用プログラム
KR20150103809A (ko) 유사발음 학습 방법 및 장치
US9437190B2 (en) Speech recognition apparatus for recognizing user's utterance
JP4296290B2 (ja) 音声認識装置、音声認識方法及びプログラム
JP2006330060A (ja) 音声合成装置、音声処理装置、およびプログラム
JP7012935B1 (ja) プログラム、情報処理装置、方法
WO2021082084A1 (zh) 音频信号处理方法及装置
US20240153482A1 (en) Non-transitory computer-readable medium and voice generating system
JP6897678B2 (ja) 情報処理装置及び情報処理方法
JP2008040197A (ja) 発話訓練装置
JP2000242295A (ja) 音声認識装置および音声対話装置
WO2018043139A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP2023144953A (ja) 発話評価装置及びプログラム
JP2001324995A (ja) 音声認識方法
Wang An interactive open-vocabulary chinese name input system using syllable spelling and character description recognition modules for error correction

Legal Events

Date Code Title Description
A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A527

Effective date: 20170315

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190208

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190214

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190222

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190515

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190711

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200720

R151 Written notification of patent or utility model registration

Ref document number: 6747434

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees