JP2020085942A - Information processing apparatus, information processing method, and program - Google Patents
Information processing apparatus, information processing method, and program Download PDFInfo
- Publication number
- JP2020085942A JP2020085942A JP2018214995A JP2018214995A JP2020085942A JP 2020085942 A JP2020085942 A JP 2020085942A JP 2018214995 A JP2018214995 A JP 2018214995A JP 2018214995 A JP2018214995 A JP 2018214995A JP 2020085942 A JP2020085942 A JP 2020085942A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- user
- information processing
- unit
- control unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、情報処理装置、情報処理方法、およびプログラムに関する。 The present invention relates to an information processing device, an information processing method, and a program.
近年、ユーザによる発話に基づく音声を認識し、自動応答を行う技術が一般的に利用されるようになってきた。音声認識は、ユーザの発声の方法が不適切であることが誤認識につながることが多いため、ユーザの発声方法についてアドバイスを行う情報処理装置が提供されている(例えば、特許文献1参照)。 In recent years, a technique of recognizing a voice based on a user's utterance and making an automatic response has been generally used. In voice recognition, an inappropriate method of uttering a user often leads to erroneous recognition. Therefore, an information processing apparatus that provides advice on a method of uttering a user is provided (for example, refer to Patent Document 1).
上述のような従来技術は、ユーザによって入力を取り消す指示がなされた場合に、ユーザに発生方法のガイドを行うか否かを判定する構成である。しかしながら、音声認識による自動応答システムを効率よく使えるようになるには、ユーザは正確に認識されやすい話し方を工夫しながら話す必要があり、このような話し方ができるようになるために熟練が必要であった。 The above-described conventional technique has a configuration in which when the user gives an instruction to cancel the input, it is determined whether or not to guide the user in the generation method. However, in order to efficiently use the automatic response system based on voice recognition, the user needs to speak while devising a speech style that is easily recognized accurately, and skill is required to enable such a speech style. ..
本発明の一態様は、上述した事情に鑑みてなされたものであり、ユーザが音声入力による指示の認識率を向上させるための話し方の練習を効率よく行うことができる技術を提供することを目的とする。 One aspect of the present invention has been made in view of the above circumstances, and an object of the present invention is to provide a technique that enables a user to efficiently practice speaking styles to improve the recognition rate of instructions by voice input. And
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、音声情報取得部と、出力部と、制御部とを備えている情報処理装置において、上記制御部は、ユーザに対して発話を要求する内容を、上記出力部を介して出力し、上記音声情報取得部を介して取得したユーザの音声と、当該ユーザに対して発話を要求した内容とを比較し、上記比較した結果に応じて、上記ユーザに対するアドバイスを切り替える。 In order to solve the above problems, an information processing apparatus according to an aspect of the present invention is an information processing apparatus including a voice information acquisition unit, an output unit, and a control unit, wherein the control unit is provided to a user. The content requesting utterance to the user is output via the output unit, the voice of the user acquired via the voice information acquisition unit is compared with the content requested to speak to the user, and the comparison is performed. The advice to the user is switched according to the result.
本発明の一態様によれば、ユーザは音声入力による指示の認識率を向上させるための話し方の練習を効率よく行うことができる。 According to one aspect of the present invention, a user can efficiently practice speaking to improve the recognition rate of instructions by voice input.
〔実施形態1〕
以下、本発明の実施形態1について、詳細に説明する。図1は、本発明の実施形態1に係る情報処理装置10の概略構成を示すブロック図である。図2は、本実施形態に係る情報処理装置10の全体構成の概要を模式的に示す図である。
[Embodiment 1]
Hereinafter, Embodiment 1 of the present invention will be described in detail. FIG. 1 is a block diagram showing a schematic configuration of an
図1、および図2に示すように、情報処理装置10は、ユーザの発話音声を音声情報として取得するとともに、取得した音声情報に応じた回答を音声出力することで、ユーザと音声を用いた会話を行うことができる装置である。また、情報処理装置10は、ユーザの音声指示に応じて、情報検索、および音楽再生等の情報処理装置10が提供可能な機能と、テレビ、エアコン、および照明などの周辺機器の各種機能とを操作する音声操作に対応した装置である。
As shown in FIG. 1 and FIG. 2, the
(情報処理装置10の構成)
情報処理装置10は、制御部20、音声情報取得部11、音声出力部(出力部)15、および記憶部30を備えている。情報処理装置10は、例えば、スマートフォンやロボット型の携帯型端末装置である。情報処理装置10は、ロボット型の携帯型端末装置である場合に、ロボットの手足、胴体、頭部、発光部、バイブレータの各部を駆動させる1又は複数の駆動部35を更に備えている。
(Configuration of Information Processing Device 10)
The
制御部20は、情報処理装置10の各部を統括的に制御する機能を備えた演算装置である。制御部20は、例えば1つ以上のプロセッサ(例えばCPUなど)が、1つ以上のメモリ(例えばRAMやROMなど)に記憶されているプログラムを実行することで情報処理装置10の各構成要素を制御する。
The
音声情報取得部11は、ユーザの発話音声に基づく音声情報を取得する。音声情報取得部11は、周囲の音を集音するマイク(マイクロフォン)等の集音装置を備え、集音した音から生成される音声情報を取得してもよい。音声情報取得部11は、取得した音声情報を制御部20に提供する。音声情報取得部11は、集音した音声をそのまま音声情報として制御部20に提供してもよい。また、音声情報取得部11は、集音した音声を音波に変換したデータを音声情報として制御部20に提供してもよい。
The voice
音声出力部15は、音声信号を人の耳が認識できる音波範囲の物理振動に変換して音声を出力するスピーカを備えている。音声出力部15は、制御部20によって制御され、音声情報取得部11が取得した音声情報に応じたユーザに対する回答を音声として出力する機能を有する。
The
記憶部30は、制御部20で用いられる種々のデータを格納するストレージである。記憶部30は、例えば、内容の書き換えが可能な不揮発性メモリである、EPROM、EEPROM(登録商標)、HDD、フラッシュメモリなどのいずれか1つ、又はそれらの1つ以上の組み合わせによって実現される。
The
図2に示すように、音声操作のための音声指示に適した話し方を練習したい場合、ユーザは、情報処理装置10に対して、例えば「音声入力練習をしたい」と話しかける。すると、情報処理装置10から、練習1として、例えば「テレビをつけて」という話し方の練習用の音声が出力される。
As shown in FIG. 2, when practicing a speaking style suitable for a voice instruction for a voice operation, the user speaks to the
ユーザは、情報処理装置10から出力された練習用の文言である「テレビをつけて」を、情報処理装置10から出力された音声に真似て話す。すると、情報処理装置10から、ユーザの話し方に対する応答が音声出力される。ユーザが練習用の文言を、音声操作のための音声指示に適した話し方で話すことができた場合には、情報処理装置10は、例えば「完璧です。この調子で話してください」という応答の音声が出力される。ユーザが練習用の文言を、音声操作のための音声指示に適した話し方で話すことができなかった場合には、詳細については後述するが、情報処理装置10は、ユーザの話し方に応じたアドバイスを行う応答の音声を出力する。
The user speaks the phrase “Turn on TV”, which is the practice wording output from the
このように、情報処理装置10の制御部20は、「音声入力練習をしたい」というユーザの要望に応じて、ユーザに発話を要求する内容であって、音声操作に係る内容を決定する。
In this way, the
(制御部20の構成)
制御部20は、音声認識部21、発話決定部22、回答判定部23、および音声合成部24を備えている。また、ロボット型の携帯端末装置である情報処理装置10では、制御部20は、更に駆動部35を制御する駆動制御部25を備えている。
(Configuration of control unit 20)
The
音声認識部21は、音声情報取得部11によって取得された、ユーザの発話音声に基づく音声情報の音声認識を行う。音声認識部21は、例えば、音声情報の波形データを用いた音声認識により音声情報をテキストに変換する。
The
また、音声認識部21は、ユーザの発話音声に基づく音声情報の音声認識を行い、ユーザにより音声入力の練習開始が指示されたことを検出する。
In addition, the
発話決定部22は、音声認識部21によってテキストに変換されたユーザによる発話に係る情報と、記憶部30に予め記憶されている静的または動的なテキスト辞書とのテキストマッチングを用いて、ユーザの発話内容を特定する。発話決定部22は、従来公知の例えば編集距離等の手法を用いて、ユーザの発話内容を特定する。
The
発話決定部22は、特定したユーザの発話内容に応じて、ユーザに対して発話する文言を、記憶部30に予め記憶されている発話例を参照して決定する。音声認識部21により、ユーザにより音声入力の練習開始が指示されたことが検出されると、発話決定部22は、ユーザに対して音声入力の練習のために発話を要求する内容を決定する。発話決定部22は、予め記憶部30に記憶されている音声入力の練習のための例題集を参照して、ユーザに対して発話を要求する練習用の発話文言を決定してもよい。また、発話決定部22は、ユーザの音声操作による指示履歴を参照して、ユーザに対して発話を要求する練習用の発話文言を決定することができてもよい。例えば、発話決定部22は、ユーザの過去の音声操作による指示における誤認識の履歴を参照して、ユーザに対して発話を要求する練習用の発話文言を決定してもよい。
The
また、発話決定部22は、詳細については後述するが、回答判定部23の判定結果に応じて、ユーザに対して発話するアドバイスの内容を、記憶部30に記憶されているアドバイス例32を参照して切り替える。
Although the details will be described later, the
このように、情報処理装置10の制御部20は、音声認識部21の認識結果に応じた音声操作を実行することができる。また、情報処理装置10の制御部20は、音声認識部21の認識結果に応じた、ユーザに対して発話する内容を発話決定部22の機能により決定し、ユーザとの間で音声によるコミュニケーションを実行することができる。
In this way, the
回答判定部23は、発話決定部22によって決定されて出力された、ユーザに対して発話を要求する内容と、ユーザによって入力された回答音声とを比較する。回答判定部23は、音声認識部21によってテキストに変換されたユーザの回答音声と、ユーザに対して発話を要求した内容とを比較し、それらの違いに応じて、ユーザによる回答音声の誤認識のパターンを分類する。
The
回答判定部23は、記憶部30に予め記憶された誤認識パターンを参照して、ユーザに対して発話を要求した内容と、ユーザの回答音声とを比較し、ユーザの回答音声の誤認識パターンを分類する。
The
図3は、誤認識パターンの分類表の一例を示す図である。図3に示すように、回答判定部23は、ユーザの回答音声に基づくテキストと、ユーザに対して発話を要求した内容とを比較し、例えば、以下のように分類する。
・回答音声が要求した内容に対して全て一致している場合には、分類Aとする
・回答音声が要求した内容に対して語尾が1文字欠けている場合には、分類Bとする
・回答音声が要求した内容に対して先頭が1文字欠けている場合には、分類Cとする
・回答音声が要求した内容に対して中が1文字欠けている場合には、分類Dとする
・回答音声が要求した内容に対して1文字化けている場合には、分類Eとする
・回答音声が要求した内容に対して2文字欠けている場合には、分類Fとする
・回答音声が要求した内容に対して2文字化けている場合には、分類Gとする
・回答音声が要求した内容に対して3文字以上欠けている又は3文字以上化けている場合には、分類Hとする
・回答音声が要求した内容に対して全く一致しない場合には、分類Iとする
・回答音声が識別できない場合には、分類Jとする
図4は、「テレビをつけて」というユーザに対して発話を要求した内容に対する、ユーザの回答音声の音声認識部21による認識結果と、回答判定部23による判定結果とを示す図である。「テレビをつけて」というユーザに対して発話を要求した内容に対して、ユーザの回答音声の音声認識の結果が「テレビをつけて」である場合には、回答判定部23は、回答音声が要求した内容に対して全て一致しているため、分類Aと判定する。
FIG. 3 is a diagram showing an example of a classification table of erroneous recognition patterns. As shown in FIG. 3, the
・If the answer voice matches all the requested contents, it is classified as Category A. ・If the answer voice lacks one character at the end of the requested contents, it is classified as Category B. ・Reply If the beginning of the content requested by the voice is one character missing, it is classified as C. Answer If the content requested by the voice is missing one character in the middle, it is classified as D. If the voice has one character garbled in the requested content, it is classified as E. If the answer voice lacks two characters in the requested content, it is classified as F. The reply voice requires it. If the content is garbled with 2 characters, it is classified as G. If the answer voice is missing 3 characters or more or is garbled with 3 characters or more, it is classified as H. Answer If the voice does not match the requested content at all, it is classified as Category I. If the answer voice cannot be identified, it is classified as Class J. FIG. 4 shows the utterance to the user "Turn on TV". It is a figure which shows the recognition result by the
ユーザの回答音声の音声認識の結果が「テレビをつけ」である場合には、回答判定部23は、回答音声が要求した内容に対して語尾が1文字欠けているため、分類Bと判定する。ユーザの回答音声の音声認識の結果が「レビをつけて」である場合には、回答判定部23は、回答音声が要求した内容に対して先頭が1文字欠けているため、分類Cと判定する。ユーザの回答音声の音声認識の結果が「テレビつけて」である場合には、回答判定部23は、回答音声が要求した内容に対して中が1文字欠けているため、分類Dと判定する。ユーザの回答音声の音声認識の結果が「テレビにつけて」である場合には、回答判定部23は、回答音声が要求した内容に対して1文字化けているため、分類Eと判定する。ユーザの回答音声の音声認識の結果が「テレつけて」、又は「手をつけて」である場合には、回答判定部23は、回答音声が要求した内容に対して2文字欠けているため、分類Fと判定する。
When the result of the voice recognition of the answer voice of the user is "Turn on TV", the
発話決定部22は、回答判定部23が判定した分類に応じて、ユーザに対して発話するアドバイスの内容を、記憶部30に記憶されている、ユーザに対するアドバイスを列挙したアドバイス例32を参照して決定する。図5は、アドバイス例32を示す図である。図5に示すように、発話決定部22は、回答判定部23が判定した分類に応じたユーザに対するアドバイスの文言を記憶部30に記憶されているアドバイス例32から選択する。
The
回答判定部23の判定結果が分類Aであれば、発話決定部22はアドバイス例32を参照して、例えば「完璧です。この調子で話してください。」という文言に、ユーザに対するアドバイスを切り替える。回答判定部23の判定結果が分類Bであれば、発話決定部22はアドイス例32を参照して、例えば「惜しいです。語尾が小さくならないように、元気よく話してください。」という文言に、ユーザに対するアドバイスを切り替える。回答判定部23の判定結果が分類Cであれば、発話決定部22はアドイス例32を参照して、例えば「惜しいです。始めが小さくならないように、勢いよく話してください。」という文言に、ユーザに対するアドバイスを切り替える。回答判定部23の判定結果が分類Dであれば、発話決定部22はアドイス例32を参照して、例えば「惜しいです。正しく聞き取れないところがありました。声が大きすぎても小さすぎても聞き取れない場合があります。」という文言に、ユーザに対するアドバイスを切り替える。回答判定部23の判定結果が分類Iであれば、発話決定部22はアドイス例32を参照して、例えば「正しく聞き取れませんでした。少しマイクから離れるか、のどの調子を整えてから再チャレンジしてみてください。」という文言に、ユーザに対するアドバイスを切り替える。回答判定部23の判定結果が分類Jであれば、発話決定部22はアドイス例32を参照して、例えば「声が聞き取れません、もう少しマイクに近づいて話してください。」という文言に、ユーザに対するアドバイスを切り替える。
If the determination result of the
発話決定部22は、回答判定部23の判定結果が分類Aであれば、「完璧です。この調子で話してください。」という文言に、ユーザに対するアドバイスを切り替えるとともに、ユーザに対して発話を要求する、次の音声入力の練習用の発話文言を決定してもよい。また、発話決定部22は、回答判定部23の判定結果が分類Aでなければ、アドバイスの文言を適宜切り替えるとともに、再度同じ練習用の文言を、ユーザに対して発話を要求する内容として選択して、ユーザに発話を促すことができてもよい。
If the determination result of the
音声合成部24は、発話決定部22によって決定された発話文言のテキストを音声に変換する。音声合成部24によって音声変換された発話音声は、音声出力部15を介して出力される。
The
駆動制御部25は、ユーザが話し方の練習を楽しんで行うことができるように、音声合成部24によって音声が出力される際に、各駆動部35を動かしてもよい。駆動制御部25は、ロボット型の携帯端末である情報処理装置10が、音声操作に適した話し方についてのアドバイスをユーザに提示する場合に、各駆動部35を駆動させてもよい。
The
このように、情報処理装置10の制御部20は、ユーザに対して発話を要求する内容を音声出力部15を介して出力し、音声情報取得部11を介して取得したユーザの音声と、当該ユーザに対して発話を要求した内容とを比較し、比較した結果に応じて、ユーザに対するアドバイスを切り替える。ユーザは、情報処理装置10から受け取ったアドバイスに従って、音声入力の練習を繰り返し行うことができる。これにより、ユーザは、音声入力の認識率を向上させるため練習を効率的に行うことができる。
As described above, the
〔情報処理装置10の処理の流れについて〕
図6は、ユーザによる音声入力の練習開始の指示を受け、ユーザに対して発話を要求する内容を出力するまでの情報処理装置10の処理の流れを示す図である。
[Regarding Processing Flow of Information Processing Device 10]
FIG. 6 is a diagram showing a flow of processing of the
(ステップS1)
制御部20は、音声情報取得部11を介して、ユーザの発話に基づく音声情報を取得したか否かを判定する。制御部20は、音声情報を取得したと判定するまで、音声情報を取得したか否かを継続して監視する。制御部20は、音声情報を取得したと判定すると(ステップS1でYES)、ステップS2に進む。
(Step S1)
The
(ステップS2)
制御部20は、取得した音声情報から音声認識部21の機能によりテキストを抽出する。
(Step S2)
The
(ステップS3)
制御部20は、音声認識部21の機能により、取得した音声情報がユーザによる音声入力の練習開始の指示か否かを判定する。制御部20は、取得した音声情報がユーザによる音声入力の練習開始の指示であると判定すると(ステップS3でYES)、ステップS4に進む。制御部20は、取得した音声情報がユーザによる音声入力の練習開始の指示ではないと判定すると(ステップS3でNO)、ステップS1に戻り音声情報を取得したか否かの監視を継続する。
(Step S3)
The
(ステップS4)
制御部20は、発話決定部22の機能により音声入力の練習問題を決定し、ユーザに対して発話を要求する内容の音声を音声合成部24の機能により生成する。
(Step S4)
The
(ステップS5)
制御部20は、音声出力部15を介してユーザに対して発話を要求する内容の音声を発話する。
(Step S5)
The
ユーザは、情報処理装置10がユーザに対して発話を要求する内容の音声を聞き、当該音声を真似るようにして回答音声を発話することで、音声入力の練習を行う。
The user practices the voice input by listening to the voice of the content that the
図7は、ユーザに対して発話を要求する内容の音声に対する回答音声がユーザによって入力されてから、回答音声に対するアドバイスを音声出力するまでの情報処理装置10の処理の流れを示す図である。
FIG. 7 is a diagram showing a flow of processing of the
(ステップS11)
制御部20は、ユーザによって発話された回答音声が音声情報取得部11を介して入力されたか否かを判定する。制御部20は、回答音声が入力されたと判定するまで、回答音声が入力されたか否かを継続して監視する。制御部20は、回答音声が入力されたと判定すると(ステップS11でYES)、ステップS12に進む。
(Step S11)
The
(ステップS12)
制御部20は、入力された回答音声から音声認識部21の機能によりテキストを抽出する。
(Step S12)
The
(ステップS13)
制御部20は、回答判定部23の機能により、入力された回答音声を判定する。
(Step S13)
The
(ステップS14)
制御部20は、回答判定部23の判定結果に応じて、発話決定部22の機能によりユーザの回答音声に応じたアドバイスを決定する。
(Step S14)
The
(ステップS15)
制御部20は、発話決定部22によって決定されたアドバイスを、音声合成部24の機能により音声合成する。
(Step S15)
The
(ステップS16)
制御部20は、音声合成部24によって音声合成されたアドバイスを、音声出力部15を介して発話する。
(Step S16)
The
これにより、ユーザは、音声入力の練習のために発話した回答音声に対する適切なアドバイスを受け取ることができ、アドバイスに従って発話することで、音声入力による指示の認識率を向上させるための話し方の練習を効率よく行うことができる。 As a result, the user can receive appropriate advice for the answer voice uttered for practicing voice input, and by speaking according to the advice, the user can practice speaking to improve the recognition rate of the instruction by voice input. It can be done efficiently.
〔実施形態2〕
本発明の実施形態2について、以下に説明する。なお、説明の便宜上、上記実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。図8は、実施形態2に係る情報処理装置の要部構成を示すブロック図である。図8に示すように、情報処理装置は、端末装置150と、サーバ110とを含んで構成され、実施形態1にて説明した情報処理を、端末装置150と、サーバ110との協働で実行する構成であってもよい。端末装置150は、スマートフォン及びロボット型の携帯端末装置等の端末である。端末装置150は、サーバ110と通信し、ユーザによる端末装置150に対する音声入力に基づく音声情報をサーバ110に送信する。また、端末装置150は、サーバ110で処理されたユーザの音声入力に応じた応答を、サーバ110から受信して音声出力する。
[Embodiment 2]
The second embodiment of the present invention will be described below. For convenience of description, members having the same functions as those described in the first embodiment will be designated by the same reference numerals, and the description thereof will not be repeated. FIG. 8 is a block diagram showing the main configuration of the information processing apparatus according to the second embodiment. As illustrated in FIG. 8, the information processing device includes a
〔端末装置150の構成〕
端末装置150は、通信部151、制御部160、マイク152、スピーカ153を備えている。また、端末装置150は、ロボット型の携帯端末装置である場合には、駆動部35を備えている。
[Configuration of terminal device 150]
The
通信部151は、サーバ110を含む他の装置と通信可能に構成されており、例えばWi−Fi(登録商標)などの無線通信回路を備えている。
The
制御部160は、端末装置150の各部を統括的に制御する機能を備えた演算装置である。制御部160は、例えば1つ以上のプロセッサ(例えばCPUなど)が、1つ以上のメモリ(例えばRAMやROMなど)に記憶されているプログラムを実行することで端末装置150の各構成要素を制御する。
The
マイク152は、周囲の音を集音する集音装置である。 The microphone 152 is a sound collecting device that collects ambient sounds.
スピーカ153は、音声信号を人の耳が認識できる音波範囲の物理振動に変換して出力する。 The speaker 153 converts the audio signal into physical vibration in a sound wave range that can be recognized by a human ear and outputs the physical vibration.
〔制御部160の構成〕
制御部160は、音声情報取得部161、音声出力部162、駆動制御部25を備えている。
[Structure of control unit 160]
The
音声情報取得部161は、マイク152によって集音された音声をAD変換し、デジタル信号化した音声情報を通信部151を介してサーバ110に送信する。
The voice
音声出力部162は、通信部151を介してサーバ110から受信した音声情報をDA変換して、スピーカ153を介して出力する。
The
〔サーバ110の構成〕
サーバ110は、サーバ通信部111、サーバ制御部120、記憶部30を備えている。
[Configuration of Server 110]
The
サーバ通信部111は、端末装置150を含む他の装置と通信可能に構成されており、例えばWi−Fi(登録商標)などの無線通信回路を備えている。
The
サーバ制御部120は、サーバ110の各部を統括的に制御する機能を備えた演算装置である。サーバ制御部120は、例えば1つ以上のプロセッサ(例えばCPUなど)が、1つ以上のメモリ(例えばRAMやROMなど)に記憶されているプログラムを実行することでサーバ110の各構成要素を制御する。
The
サーバ制御部120は、音声認識部21、発話決定部22、回答判定部23、音声合成部24を含んでいる。サーバ制御部120は、サーバ通信部111を介して端末装置150からユーザの発話に基づく音声情報を取得する。サーバ制御部120は、ユーザに対して発話を要求する内容を決定し、発話を要求する内容の音声を端末装置150に提供する。サーバ制御部120は、ユーザによる回答音声を判定し、判定結果に応じてユーザに対するアドバイスを切り替え、ユーザに対するアドバイを端末装置150に提供する。
The
このように、情報処理装置は、端末装置150と、サーバ110との協働により、ユーザが音声入力による指示の認識率を向上させるための話し方の練習を効率よく行うことができる機能を提供する構成であってもよい。
As described above, the information processing apparatus provides a function that allows the user to efficiently practice speaking in order to improve the recognition rate of instructions by voice input, in cooperation with the
〔実施形態3〕
上記実施形態2では、1つのサーバ110を用いる例を説明したが、サーバ110の有する各機能が、個別のサーバにて実現されていてもよい。そして、複数のサーバを適用する場合においては、各サーバは、同じ事業者によって管理されていてもよいし、異なる事業者によって管理されていてもよい。
[Embodiment 3]
In the second embodiment, the example in which one
〔実施形態4〕
情報処理装置10の各ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。後者の場合、情報処理装置10のそれぞれを、図9に示すようなコンピュータ(電子計算機)を用いて構成することができる。
[Embodiment 4]
Each block of the
図9は、情報処理装置10として利用可能なコンピュータ910の構成を例示したブロック図である。コンピュータ910は、バス911を介して互いに接続された演算装置912と、主記憶装置913と、補助記憶装置914と、入出力インターフェース915と、通信インターフェース916とを備えている。演算装置912、主記憶装置913、および補助記憶装置914は、それぞれ、例えばプロセッサ(例えばCPU:Central Processing Unit等)、RAM(random access memory)、ハードディスクドライブであってもよい。入出力インターフェース915には、ユーザがコンピュータ910に各種情報を入力するための入力装置920、および、コンピュータ910がユーザに各種情報を出力するための出力装置930が接続される。入力装置920および出力装置930は、コンピュータ910に内蔵されたものであってもよいし、コンピュータ910に接続された(外付けされた)ものであってもよい。例えば、入力装置920は、キーボード、マウス、タッチセンサなどであってもよく、出力装置930は、ディスプレイ、プリンタ、スピーカなどであってもよい。また、タッチセンサとディスプレイとが一体化されたタッチパネルのような、入力装置920および出力装置930の双方の機能を有する装置を適用してもよい。そして、通信インターフェース916は、コンピュータ910が外部の装置と通信するためのインターフェースである。
FIG. 9 is a block diagram illustrating the configuration of a
補助記憶装置914には、コンピュータ910を情報処理装置10として動作させるための各種のプログラムが格納されている。そして、演算装置912は、補助記憶装置914に格納された上記プログラムを主記憶装置913上に展開して該プログラムに含まれる命令を実行することによって、コンピュータ910を、情報処理装置10が備える各部として機能させる。なお、補助記憶装置914が備える、プログラム等の情報を記録する記録媒体は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などであってもよい。また、記録媒体に記録されているプログラムを、主記憶装置913上に展開することなく実行可能なコンピュータであれば、主記憶装置913を省略してもよい。なお、上記各装置(演算装置912、主記憶装置913、補助記憶装置914、入出力インターフェース915、通信インターフェース916、入力装置920、および出力装置930)は、それぞれ1つであってもよいし、複数であってもよい。
The
また、上記プログラムは、コンピュータ910の外部から取得してもよく、この場合、任意の伝送媒体(通信ネットワークや放送波等)を介して取得してもよい。そして、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
Further, the program may be acquired from outside the
〔まとめ〕
本発明の態様1に係る情報処理装置(10)は、音声情報取得部(11)と、音声出力部(15)と、制御部(20)とを備えている情報処理装置(10)において、上記制御部(20)は、ユーザに対して発話を要求する内容を、上記音声出力部(15)を介して出力し、上記音声情報取得部(11)を介して取得したユーザの音声と、当該ユーザに対して発話を要求した内容とを比較し、上記比較した結果に応じて、上記ユーザに対するアドバイスを切り替える構成である。
[Summary]
An information processing device (10) according to aspect 1 of the present invention is an information processing device (10) including a voice information acquisition unit (11), a voice output unit (15), and a control unit (20), The control unit (20) outputs, via the voice output unit (15), the content requesting the user to speak, and the user's voice acquired via the voice information acquisition unit (11). This is a configuration in which the content requested to speak to the user is compared and the advice to the user is switched according to the result of the comparison.
上記の構成によれば、ユーザは、要求された発話内容に応じて話し方の練習を行うことができる。また、制御部20は、発話を要求した内容と、ユーザの音声とを比較して、ユーザに対するアドバイスを切り替えるため、ユーザに対して、音声入力による指示の認識率を向上させるための話し方に係る適切なアドバイスを行うことができる。また、ユーザは、アドバイスに応じて、発話を要求された内容を繰り返し練習することができ、音声入力による指示の認識率を向上させるための話し方の練習を効率よく行うことができる。
According to the above configuration, the user can practice speaking in accordance with the requested utterance content. In addition, the
本発明の態様2に係る情報処理装置(10)は、上記の態様1において、上記ユーザに対して発話を要求する内容は、音声操作に係る内容であり、上記制御部(20)は、上記ユーザの要望に応じて、上記発話を要求する内容を決定する構成としてもよい。 In the information processing apparatus (10) according to the second aspect of the present invention, in the first aspect, the content for requesting the user to speak is content related to a voice operation, and the control unit (20) is configured as described above. The content requesting the utterance may be determined according to the user's request.
上記の構成によれば、ユーザは、音声操作に係る内容の話し方の練習を効率よく行うことができ、音声操作に係る音声入力による指示の認識率を向上させることができる。 According to the above configuration, the user can efficiently practice how to speak the content related to the voice operation, and can improve the recognition rate of the instruction by the voice input related to the voice operation.
本発明の態様3に係る情報処理装置(10)は、上記の態様1又は2において、上記音声情報取得部(11)は、音声を集音するマイク(152)を備えている構成としてもよい。 The information processing device (10) according to the third aspect of the present invention may be configured such that, in the first or second aspect, the voice information acquisition section (11) includes a microphone (152) that collects a voice. ..
上記の構成によれば、ユーザの音声を精度良く集音することができる。 According to the above configuration, the voice of the user can be accurately collected.
本発明の態様4に係る情報処理装置(10)は、上記の態様1から3において、上記音声出力部(15)は、音声を出力するスピーカを備えている構成としてもよい。 The information processing apparatus (10) according to the fourth aspect of the present invention may be configured such that, in the first to third aspects, the voice output section (15) includes a speaker that outputs a voice.
上記の構成によれば、ユーザに対して発話を要求する内容、及びユーザに対するアドバイスをユーザにとって聞き取り易い音波範囲のおとにより出力することができる。 According to the above configuration, the content requesting the user to speak and the advice to the user can be output in the sound wave range that is easy for the user to hear.
本発明の態様5に係る情報処理装置(10)は、上記の態様1から4において、1又は複数の駆動部(35)を更に備え、上記制御部(20)は、上記アドバイスをユーザに提示する場合、上記駆動部(35)を駆動する構成としてもよい。 The information processing apparatus (10) according to the fifth aspect of the present invention further comprises one or a plurality of drive sections (35) in the first to fourth aspects, and the control section (20) presents the advice to the user. In this case, the drive unit (35) may be driven.
上記の構成によれば、ユーザが楽しく音声入力による指示の認識率を向上させるための話し方の練習を行うことができるように、ロボット型の情報処理装置10において、手足、胴体、頭部、発光部、バイブレータ等の複数の駆動部(35)のそれぞれを駆動させることができる。
With the above configuration, in the robot-type
本発明の各態様に係る情報処理装置10は、コンピュータによって実現してもよく、この場合には、コンピュータを上記情報処理装置10が備える各部(ソフトウェア要素)として動作させることにより上記情報処理装置10をコンピュータにて実現させる情報処理装置10の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
The
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。 The present invention is not limited to the above-described embodiments, and various modifications can be made within the scope of the claims, and the embodiments obtained by appropriately combining the technical means disclosed in the different embodiments. Is also included in the technical scope of the present invention. Furthermore, new technical features can be formed by combining the technical means disclosed in each of the embodiments.
10 情報処理装置
11、161 音声情報取得部
15、162 音声出力部
20、160 制御部
21 音声認識部
22 発話決定部
23 回答判定部
24 音声合成部
25 駆動制御部
35 駆動部
152 マイク
153 スピーカ
10
Claims (7)
上記制御部は、
ユーザに対して発話を要求する内容を、上記出力部を介して出力し、
上記音声情報取得部を介して取得したユーザの音声と、当該ユーザに対して発話を要求した内容とを比較し、
上記比較した結果に応じて、上記ユーザに対するアドバイスを切り替える
ことを特徴とする情報処理装置。 In an information processing device including a voice information acquisition unit, an output unit, and a control unit,
The control unit is
The content requesting the user to speak is output via the output unit,
The user's voice acquired via the voice information acquisition unit is compared with the content requested to speak to the user,
An information processing apparatus, characterized in that advice is switched to the user according to a result of the comparison.
上記制御部は、
上記ユーザの要望に応じて、上記発話を要求する内容を決定する
ことを特徴とする請求項1に記載の情報処理装置。 The contents requesting the user to speak are contents relating to voice operation,
The control unit is
The information processing apparatus according to claim 1, wherein the content for requesting the utterance is determined according to the request of the user.
上記制御部は、
上記アドバイスをユーザに提示する場合、上記駆動部を駆動する
ことを特徴とする請求項1から4の何れか1項に記載の情報処理装置。 Further comprising one or more drive units,
The control unit is
The information processing apparatus according to any one of claims 1 to 4, wherein when presenting the advice to the user, the drive unit is driven.
取得したユーザの音声と、当該ユーザに対して発話を要求した内容とを比較するステップと、
上記比較した結果に応じて、上記ユーザに対するアドバイスを切り替えるステップと、
を含んでいることを特徴とする情報処理方法。 Outputting the content requesting the user to speak,
A step of comparing the acquired voice of the user with the content requested to speak to the user,
Switching the advice to the user according to the result of the comparison,
An information processing method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018214995A JP2020085942A (en) | 2018-11-15 | 2018-11-15 | Information processing apparatus, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018214995A JP2020085942A (en) | 2018-11-15 | 2018-11-15 | Information processing apparatus, information processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020085942A true JP2020085942A (en) | 2020-06-04 |
Family
ID=70907715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018214995A Pending JP2020085942A (en) | 2018-11-15 | 2018-11-15 | Information processing apparatus, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020085942A (en) |
-
2018
- 2018-11-15 JP JP2018214995A patent/JP2020085942A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10276164B2 (en) | Multi-speaker speech recognition correction system | |
JP4837917B2 (en) | Device control based on voice | |
CN106898340B (en) | Song synthesis method and terminal | |
US9293134B1 (en) | Source-specific speech interactions | |
US8768701B2 (en) | Prosodic mimic method and apparatus | |
JPH096390A (en) | Voice recognition interactive processing method and processor therefor | |
US20100145696A1 (en) | Method, system and apparatus for improved voice recognition | |
JP6725006B2 (en) | Control device and equipment control system | |
US10170122B2 (en) | Speech recognition method, electronic device and speech recognition system | |
JP2019090942A (en) | Information processing unit, information processing system, information processing method and information processing program | |
JP2007140200A (en) | Language learning device and program | |
TW201903755A (en) | Electronic device capable of adjusting output sound and method of adjusting output sound | |
US20160210982A1 (en) | Method and Apparatus to Enhance Speech Understanding | |
JP2009178783A (en) | Communication robot and its control method | |
US10424292B1 (en) | System for recognizing and responding to environmental noises | |
US20060247921A1 (en) | Speech dialog method and system | |
JP2019184809A (en) | Voice recognition device and voice recognition method | |
US10592204B2 (en) | User interface device and method, and sound-enabled operation system | |
JP2003163951A (en) | Sound signal recognition system, conversation control system using the sound signal recognition method, and conversation control method | |
JP2020140029A (en) | Voice recognition device, voice recognition method and program | |
JP2020085942A (en) | Information processing apparatus, information processing method, and program | |
JP6811865B2 (en) | Voice recognition device and voice recognition method | |
JP2016186646A (en) | Voice translation apparatus, voice translation method and voice translation program | |
US10854196B1 (en) | Functional prerequisites and acknowledgments | |
JP6918471B2 (en) | Dialogue assist system control method, dialogue assist system, and program |