JP2012215673A - Speech processing device and speech processing method - Google Patents
Speech processing device and speech processing method Download PDFInfo
- Publication number
- JP2012215673A JP2012215673A JP2011080026A JP2011080026A JP2012215673A JP 2012215673 A JP2012215673 A JP 2012215673A JP 2011080026 A JP2011080026 A JP 2011080026A JP 2011080026 A JP2011080026 A JP 2011080026A JP 2012215673 A JP2012215673 A JP 2012215673A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- utterance
- processing apparatus
- unit
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明の実施形態は、音声処理装置、及び音声処理方法に関する。 Embodiments described herein relate generally to an audio processing apparatus and an audio processing method.
従来から、ユーザが携帯するモバイル機器等のコンピュータも高性能化する傾向にある。そして、ユーザがコンピュータを快適に利用するためには、インタフェースが重要となる。そこで、近年、コンピュータに様々なセンサを内蔵し、これらセンサの検出結果をユーザの操作等として利用する技術が提案されている。 2. Description of the Related Art Conventionally, computers such as mobile devices carried by users tend to have higher performance. An interface is important for the user to use the computer comfortably. Therefore, in recent years, a technique has been proposed in which various sensors are built in a computer and the detection results of these sensors are used as user operations or the like.
例えば、コンピュータが、ユーザの音声に対して音声認識処理を施すことで、生成された音声命令に従って処理を行う技術が提案されている。 For example, a technique has been proposed in which a computer performs processing in accordance with a generated voice command by performing voice recognition processing on a user's voice.
しかしながら、ユーザが発話する際、発話の様式には様々な種類がある。従来技術において、発話の様式を制限することで音声認識を向上させる等の技術は提案されているが、発話の様式の違いをユーザのインタフェースとして利用することは考慮されていない。 However, when a user utters, there are various types of utterances. In the prior art, techniques such as improving speech recognition by restricting the utterance style have been proposed, but use of the difference in the utterance style as a user interface is not considered.
本発明は、上記に鑑みてなされたものであって、ユーザの発話の様式の違いに基づいて実行する処理を異ならせる音声処理装置、及び音声処理方法を提供することを目的とする。 This invention is made in view of the above, Comprising: It aims at providing the audio processing apparatus and audio | voice processing method which change the process performed based on the difference in the style of a user's utterance.
実施形態の音声処理装置は、音声変換手段と、発話判定手段と、処理判定手段と、実行手段と、を備える。音声変換手段は、入力された音声から、当該音声で発せられた内容を示した文字列情報に変換する。発話判定手段は、前記入力された音声を分析して、当該音声が発せられた際のユーザの発話の様式を判定する。処理判定手段は、前記発話の様式に基づいて、実行する処理を判定する。実行手段は、前記処理判定手段により判定された処理を、前記文字列情報を用いて実行する。
を備える音声処理装置
The speech processing apparatus according to the embodiment includes speech conversion means, speech determination means, process determination means, and execution means. The voice conversion means converts the input voice into character string information indicating the content uttered by the voice. The utterance determination means analyzes the input voice and determines the user's utterance style when the voice is uttered. The process determining means determines a process to be executed based on the utterance style. The execution means executes the process determined by the process determination means using the character string information.
Speech processing apparatus comprising
実施の形態として、音声処理装置を情報処理装置に適用した例について説明する。図1は、本実施形態にかかる情報処理装置の外観を模式的に示す図である。この情報処理装置100は、表示画面を備えた情報処理装置であり、例えばスレート端末(タブレット端末)や電子書籍リーダ、デジタルフォトフレーム等として実現されている。
As an embodiment, an example in which a voice processing device is applied to an information processing device will be described. FIG. 1 is a diagram schematically illustrating the appearance of the information processing apparatus according to the present embodiment. The
情報処理装置100は、薄い箱状の筐体Bを備え、この筐体Bの上面に表示部111が配置されている。表示部111は、ユーザによってタッチされた表示画面上の位置を検知するためのタッチセンサ112を備えている。
The
また、情報処理装置100は、筐体Bの上面に、外部環境の音声を収集するためのマイクロフォン113を備えている。このマイクロフォン113から入力されたアナログの音声は、内部の処理により音声(オーディオ)信号に変換される。さらには、情報処理装置100は、筐体Bの上面に、各種ボタンスイッチ114が配置されている。これらボタンスイッチ114を押下することで、様々な操作を行うことができる。
In addition, the
図2は、実施形態にかかる情報処理装置100の構成の一例を示すブロック図である。図2に示すように、情報処理装置100は、上述した表示部111、タッチセンサ112、マイクロフォン113、ボタンスイッチ114の他、CPU210(Central Processing Unit)、ROM211(Read Only Memory)、RAM212(Random Access Memory)、記憶部213、計時部214、ジャイロセンサ215、通信I/F216を備える。
FIG. 2 is a block diagram illustrating an example of the configuration of the
CPU210は、情報処理装置100の動作を中央制御する。具体的には、CPU210は、ROM211や記憶部213に記憶された各種プログラムを読み出し、RAM212の作業領域に展開して順次実行することで、バスラインを介して接続する情報処理装置100の各部に制御信号を出力する。ROM211は、各種プログラムや設定データを記憶する。RAM212は、CPU210の作業領域を提供する。記憶部213は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等の大容量記憶装置であり、CPU210が実行するアプリケーションプログラム、文字、動画像、静止画像、音声などの各種データを読み書き可能に記憶する。計時部214は、RTC(Real Time Clock)機能およびネットワークを介して時刻の同期を行う機能を有し、時刻の同期および計時を行う。計時部214が同期および計時した時刻はCPU10に通知される。
The
ジャイロセンサ215(ジャイロスコープ)は、MEMS技術を用いた振動型の角速度センサなどであり、XYZの3軸方向の情報処理装置100の姿勢を検出し、検出結果をCPU210へ出力する。通信I/F216は、CPU210の制御の下、所定の通信プロトコルに従い、有線又は無線の通信を行うインタフェースである。例えば、通信I/F216は、CPU210の制御の下、ルータ等を介した無線LANの通信を行う。
The gyro sensor 215 (gyroscope) is a vibration type angular velocity sensor using MEMS technology, detects the attitude of the
ここで、CPU210が音声処理プログラムを順次実行することで実現する機能構成について説明する。図3は、情報処理装置100で実行されるプログラムで実現される機能構成を示した図である。図3に示すように、情報処理装置100は、音声認識部301と、発話様式判定部302と、動作対象抽出部303と、処理判定部304と、処理実行部305と、入力部306と、出力部307と、を備える。これら機能構成は、動作対象キーワードリスト記憶部308と、対応リスト記憶部309と、を用いる。なお、動作対象キーワードリスト記憶部308、及び対応リスト記憶部309は、図2の記憶部213内に設けられている。
Here, a functional configuration realized by the
音声認識部301は、マイクロフォン113に入力された音声から、当該音声で発せられた内容を自然言語で示したテキストデータ(文字列情報)に変換する。
The
発話様式判定部302は、マイクロフォン113に入力された音声に対して信号処理解析(分析)して、当該音声が発せられた際のユーザの発話の様式を判定する。発話様式判定部302は、ユーザの発話の様式として、予め定められた音を基準として、入力された音声が、抑揚の無い声、抑揚の激しい声、高い声、低い声、かすれ声、及びささやき声のうち、いずれであるかを判定する。なお、判定される発話の様式は、1つ又は複数であっても良い。
The utterance
動作対象キーワードリスト記憶部308は、処理実行部305で処理の対象として用いられるキーワードを記憶する。キーワードとしては、例えば、記憶部213に記憶されている音楽データの曲名や、演奏者の名前等でもよい。
The operation target keyword
動作対象抽出部303は、音声認識部301により変換されたテキストデータから、処理実行部305で実行される処理の対象となるキーワード(識別情報)を抽出する。このキーワードとしては、例えば、音楽データの曲名や、演奏者の名前等の検索キーワードなどが考えられる。さらには、情報処理装置100に記憶されているファイル名や、メタデータなどであっても良い。これら検索キーワード、ファイル名、又はメタデータなどのキーワードが、処理実行部305による処理の対象として判定される。なお、音声認識部301により変換されたテキストデータから、キーワードを抽出する際に、記憶されているファイル名等と同一である必要はなく、所定の基準以上類似しているものであればよい。
The operation
また、動作対象抽出部303は、変換されたテキストデータから、処理対象として判定されなかった部分、又は処理対象として判定されなかった部分から先頭と末尾の助詞を取り除いたテキストを、処理対象となるキーワードとして抽出しても良い。
Further, the operation
対応リスト記憶部309は、ユーザの発話の様式と、実行する処理と、を対応付けて記憶する。なお、対応リスト記憶部309は、実行する処理と対応付ける対象を、ユーザの発話の様式のみに制限するものではない。例えば、対応リスト記憶部309において、動作対象抽出部303において抽出された検索キーワードと、実行する処理と、を対応付けても良い。他の例としては、検索キーワードと、ユーザの発話の様式と、実行する処理と、を対応付けても良い。なお、対応リスト記憶部309が記憶する対応関係は、情報処理装置100の出荷時に予め登録したものでも良いし、ユーザが事後的に自由に登録したものでも良い。
The correspondence
処理判定部304は、発話様式判定部302により判定された発話の様式に基づいて、変換されたテキストデータから抽出された識別情報を利用する処理を判定する。本実施形態にかかる処理判定部304は、対応リスト記憶部309に記憶された対応関係に基づいて判定する。例えば、処理判定部304は、ユーザの発話の様式と、対応リスト記憶部309で対応付けられていた処理を、処理実行部305で実行される処理として判定する。
The
また、処理判定部304は、発話の様式のみを判定の基準として用いるのではなく、動作対象抽出部303により抽出されたキーワードと、対応リスト記憶部309で対応付けられている処理を、実行する処理として判定しても良い。
In addition, the
さらに、本実施形態にかかる処理判定部304は、発話様式判定部302により判定された発話の様式、及び動作対象抽出部303により抽出されたキーワードと、対応リスト記憶部309で対応付けられている処理を、処理実行部305が実行する処理として判定しても良い。
Furthermore, the
本実施形態にかかる処理判定部304は、判定された処理として、当該処理を行うアプリケーションを特定してもよい。この場合、処理実行部305が、特定されたアプリケーションの起動制御を行い、当該アプリケーションに対して処理の実行を要求する。
The
処理実行部305は、動作対象抽出部303により抽出されたキーワードを用いて、処理判定部304により判定された処理を実行する。なお、処理対象として用いる情報は、動作対象抽出部303により抽出されたキーワードに制限するものではなく、例えば音声認識部301により変換されたテキストデータに基づく情報であってもよい。
The
本実施形態にかかる処理実行部305は、処理判定部304により特定されたアプリケーションを起動し、当該アプリケーションに対して処理の実行を要求すると共に、当該アプリケーションに対してキーワードを受け渡す。
The
なお、本実施形態にかかる処理実行部305は、処理判定部304により判定された処理と、動作対象抽出部303により抽出されたキーワードと、を表示部111に表示するだけでも良い。さらに、このような表示を行って、処理を実行するための許可をユーザに促しても良い。
Note that the
入力部306は、通信I/F216等やジャイロセンサ215等から入力された入力情報を、処理実行部305に出力する。出力部307は、処理実行部305から出力された情報を表示部111に表示制御したり、外部装置に通信I/F216を介して送信しても良い。
The
上述した構成で実現される情報処理装置100で行われる処理について説明する。例えば、ユーザが「○○××(歌手)、キョク1(曲名)」と発話したものとする。この場合、情報処理装置100が、マイクロフォン113により当該発話の入力処理を行い、当該発話に基づいた処理を行う。この発話に基づいた処理としては例えば、音楽再生などが考えられる。
Processing performed by the
ところで、従来から、音声認識により得られたテキストを用いて、データベース検索を自動的に実行する情報処理装置が存在していた。つまり、ユーザが何語かを発話すると、これら発話の内容を認識し、テキストデータに変換し、当該テキストデータを検索キーワードとして用いて、検索を行う技術が存在する。このような従来技術では、行われる処理がWeb検索に一意に設定されていたため、処理に自由度がなかった。上述した例では、「○○××(歌手)、キョク1(曲名)」を検索キーワードとした検索結果が表示されるに留まっていた。 By the way, conventionally, there has been an information processing apparatus that automatically performs a database search using text obtained by speech recognition. That is, when the user speaks several words, there is a technique for recognizing the contents of these utterances, converting them into text data, and performing a search using the text data as a search keyword. In such a conventional technique, since the processing to be performed is uniquely set in the Web search, the processing has no degree of freedom. In the above-described example, the search results using “XXXXX (singer), Kyoku 1 (song name)” as search keywords have been displayed.
そこで、本実施形態にかかる情報処理装置100では、音声認識からテキストを生成する際に、発話の様式を認識し、認識した発話の様式に基づいて処理を切り替えることとした。
Therefore, in the
図4は、認識された発話の様式が通常の抑揚の場合に、情報処理装置100が行う処理の例を示した図である。図4に示すように、情報処理装置100のマイクロフォン113が入力した音声に基づいて、音声認識部301がテキストデータ「○○××(歌手) キョク1(曲名)」に変換すると共に、発話様式判定部302が音声から、発話の様式として通常の抑揚である(矢印で示したように起伏に富んでいる)と判定したものとする。この場合、処理判定部304が、通常の抑揚と、対応リスト記憶部309で対応付けられている、Web検索を、実行する処理として判定する。これにより、実行処理部305が、Webブラウザを起動する。当該Webブラウザは、動作対象抽出部303により抽出された「○○××(歌手)」と「キョク1(曲名)」とが検索キーワードとして設定された検索画面401を表示する。その後、情報処理装置100はタッチセンサ112が、開始ボタン402の押下を受け付けることで、Webブラウザによる検索が開始される。
FIG. 4 is a diagram illustrating an example of processing performed by the
図5は、認識された発話の様式が抑揚のない場合に、情報処理装置100が行う処理の例を示した図である。図5に示すように、情報処理装置100のマイクロフォン113が入力した音声に基づいて、音声認識部301がテキストデータ「○○××(歌手) キョク2(曲名)」に変換すると共に、発話様式判定部302が音声から、発話の様式として抑揚がない(矢印で示したようにフラット)と判定したものとする。この場合、処理判定部304が、抑揚がない場合と、対応リスト記憶部309で対応付けられている、音楽アプリケーション(楽曲プレーヤー)による曲の再生を、実行する処理として判定する。これにより、実行処理部305が、音楽アプリケーション501を起動する。当該音楽アプリケーションの表示画面501では、動作対象抽出部303により抽出された「○○××(歌手)」と「キョク1(曲名)」とに基づいた音楽データが選択された状態で表示される。その後、音楽アプリケーションが、選択された音楽データを自動再生する。
FIG. 5 is a diagram illustrating an example of processing performed by the
他の例としては、情報処理装置100のマイクロフォン113が入力した音声に基づいて、音声認識部301がテキストデータ「○○××(歌手) キョク3(曲名)」に変換すると共に、発話様式判定部302が音声から、ささやき声と判定したものとする。このささやき声であるか否かの判定は、例えばNAM(Non-Audible Murmur)技術を用いることで実現可能とする。
As another example, based on the voice input by the
そして、処理判定部304が、ささやき声と、対応リスト記憶部309で対応付けられている、動画投稿サイトの検索、再生を、実行する処理として判定する。これにより、実行処理部305が、Webブラウザを起動する。そして当該Webブラウザを起動する際に、接続先として動画投稿サイトのURLを設定する。その後、実行処理部305がWebブラウザ上に表示された動画投稿サイトに対して、動作対象抽出部303により抽出された「○○××(歌手)」及び「キョク3(曲名)」を検索キーワードとして受け渡す。これにより、ささやき声で入力された発話内容を検索キーワードとして、動画投稿サイトで検索、再生を行うことができる。
Then, the
このように、本実施形態にかかる情報処理装置100は、発話の様式により処理を異ならせることに制限するものではなく、動作対象抽出部303により抽出されたキーワードに従って、処理実行部305が処理を異ならせても良い。例えば、キーワードとして「うえーーー」が認識された際、「うえ」をトリガーとして処理実行部305が上スクロールを開始し、語尾「え」を伸ばしているのが継続している間、処理実行部305が上スクロールし続ける処理を行う。
As described above, the
他の例として「したーーー」が認識された際、「した」をトリガーとして処理実行部305が下スクロールを開始し、語尾「た」を伸ばしているのが継続している間、処理実行部305が、下スクロールし続ける処理を行う。なお、発話延ばしていることの検出は、HMM(隠れマルコフモデル)を用いることで可能なものとして、説明を省略する。なお、これらの処理は、上述した発話の様式と組み合わせても良い。
As another example, when “do” is recognized, the
この発話様式によるコマンドの入力はあらゆる言語に適用できる。例えば英語の場合、「upperrrrrrr」が認識された際、「up」をトリガーとして処理実行部305が上スクロールを開始し、語尾「r」を伸ばしているのが継続している間、処理実行部305が上スクロールし続ける処理を行う。また、下スクロールする場合も同様に、「lowerrrr」と語尾「r」を伸ばしている間、下スクロールが継続するものとする。
Command input in this utterance style can be applied to any language. For example, in the case of English, when “upperrrrrrr” is recognized, the
次に、本実施形態にかかる情報処理装置100における、全体的なの処理について説明する。図6は、本実施形態にかかる情報処理装置100における上述した処理の手順を示すフローチャートである。なお、図6に示す処理を行う際、情報処理装置100による音声認識の準備が完了しているものとする。
Next, overall processing in the
まず、情報処理装置100のマイクロフォン113が、ユーザの発話を音声信号として入力処理する(ステップS601)。次に、音声認識部301が、入力処理された音声信号を音声認識し、認識結果が含まれたテキストデータ(以下、認識結果テキストデータ)を生成する(ステップS602)。
First, the
一方、発話様式判定部302が、音声信号から、ユーザの発話様式を判定する(ステップS603)。
On the other hand, the speech
そして、動作対象抽出部303が、ステップS602で生成された認識結果テキストデータから、処理の対象となるキーワード等を抽出する(ステップS604)。
Then, the operation
また、処理判定部304が、発話様式から実行する処理を特定する(ステップS605)。その際、実行する処理を行うためのアプリケーションを特定する。また、起動するアプリケーションがWebブラウザの場合には、接続先のURLも特定しても良い。
In addition, the
その後、処理実行部305が、特定された処理に対応するアプリケーションを起動する(ステップS606)。そして、処理実行部305が、起動したアプリケーション上で、抽出されたキーワードを用いて処理を実行する(ステップS607)。その後、処理実行部305が、処理結果を、表示部111に表示する(ステップS608)。
Thereafter, the
上述した処理により、発話様式に従った処理がなされることになり、ユーザが処理を実行する際の操作負担を軽減することができる。なお、上述した処理手順に制限するものではなく、各ステップの順序を入れ替えても良い。例えば、ステップS602より先にステップS603を実行しても良いし、ステップS602及びステップS603を同時に実行しても良い。 With the processing described above, processing according to the utterance style is performed, and the operation burden when the user executes the processing can be reduced. In addition, it does not restrict | limit to the process sequence mentioned above, You may replace the order of each step. For example, step S603 may be executed prior to step S602, or step S602 and step S603 may be executed simultaneously.
また、本実施形態にかかる情報処理装置100は、上述した処理に制限するものではなく様々な態様が考えられる。例えば、発話様式が所定の様式の場合には、発話した内容をテキストとしてメモする処理などを行っても良い。
Further, the
また、情報処理装置100では、アプリケーションを起動した後に、発話の態様に基づいて処理を切り替えても良い。例えば、ブログの文章を音声入力する場合、発話様式に従って入力文字の大きさや色やフォントを変更することが考えられる。
Further, in the
また、ユーザの発話様式に従って、情報処理装置100で実行する処理としては、どのような処理を行っても良いが、Web検索、楽曲再生、楽曲検索、お気に入り閲覧、ブログ執筆、メール閲覧、動画投稿サイトの閲覧、電子ブックの閲覧、アプリ検索、カメラ起動、カメラ撮影、インターネット回線を介した電話などを実行しても良い。
In addition, the processing executed by the
(第1の実施形態の変形例)
なお、音声認識結果テキストデータから抽出されるキーワードに音声コマンドが含まれていても良い。そこで、本変形例にかかる情報処理装置100の動作対象抽出部303では、テキストデータから、音声コマンドを抽出する例とする。例えば、楽曲「楽曲A」を音声コマンドで再生したい時、ユーザが「楽曲Aを再生」と抑揚のない声で発話すればよい。この場合、対応リスト記憶部309で“再生”というキーワード及び抑揚のない声が、音楽アプリケーション(楽曲プレーヤー)と、対応付けられているものとする。そして、記憶部213に“楽曲A”という楽曲が存在すれば、楽曲Aを楽曲プレーヤーで再生できる。
(Modification of the first embodiment)
Note that a voice command may be included in a keyword extracted from the voice recognition result text data. Therefore, the operation
一方、抑揚のある発話はWeb検索と対応リスト記憶部309に予め設定しておく。これにより、「楽曲A 再生」と抑揚のある発話で行った場合、音声コマンドが含まれていても、本実施形態にかかる情報処理装置100では、Web検索を優先して行うことになる。
On the other hand, utterances with intonation are preset in the Web search and correspondence
本実施形態にかかる発話様式判定部302の判定対象となる発話様式は上述した声に制限するものではなく、他の発話態様を判定基準として用いても良い。例えば、声の高さが上がり続ける発話や、声の高さが下がり続ける発話などを判定基準として用いても良い。
The speech style to be determined by the speech
このように、発話内容のみならず発話の仕方からも、音声コマンド意図を判定するので、より適切にユーザが意図したコマンドを実行することができる。 Thus, since the voice command intention is determined not only from the utterance content but also from the utterance method, the command intended by the user can be executed more appropriately.
本変形例では、発話の態様と、ユーザの発話に基づく音声コマンドと、を組み合わせることとした。これにより、従来の情報処理装置では、当該処理を特定するために上位から階層を辿って実行する処理を選択していたが(例えば、[メニュー]->[プレーヤー]->[再生選択]->[再生])、音声コマンドと発話の態様との組み合わせで、実行する処理を特定できるため、従来技術と比べて、実行する処理の特定精度を向上させることができる。 In this modification, the speech mode is combined with the voice command based on the user's speech. As a result, in the conventional information processing apparatus, in order to specify the processing, the processing to be executed by tracing the hierarchy from the top is selected (for example, [Menu]-> [Player]-> [Playback selection]- > [Playback]), the process to be executed can be specified by the combination of the voice command and the utterance mode, so that the accuracy of the process to be executed can be improved as compared with the prior art.
本実施形態及び変形例では、ユーザは発話の態様を異ならせるだけで、情報処理装置100で実行する処理を指定できる。これにより、情報処理装置100において、ユーザが意図しない処理を行うことを軽減できる。これにより、便利な音声コマンド処理を行うことができる。
In the present embodiment and the modification, the user can specify processing to be executed by the
さらには、ユーザが、水気のある場所(例えばキッチン)に、情報処理装置100を配置し、当該情報処理装置100に対して実行する処理を特定する場合に、発話の態様で実行する処理を切り替えることができるため、操作性を向上させることができる。
Furthermore, when the user places the
本実施形態及び変形例の情報処理装置で実行される音声処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。 The audio processing program executed in the information processing apparatus according to the present embodiment and the modification is a file in an installable format or an executable format, and is a CD-ROM, a flexible disk (FD), a CD-R, a DVD (Digital Versatile Disk). And the like recorded on a computer-readable recording medium.
また、本実施形態の情報処理装置で実行される音声処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の情報処理装置で実行される音声処理プログラムプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。 The voice processing program executed by the information processing apparatus of the present embodiment may be stored on a computer connected to a network such as the Internet and provided by being downloaded via the network. The voice processing program program executed by the information processing apparatus according to the present embodiment may be provided or distributed via a network such as the Internet.
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。 Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Moreover, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, the constituent elements over different embodiments may be appropriately combined.
100…情報処理装置、111…表示部、112…タッチセンサ、113…ボタンスイッチ、113…マイクロフォン、114…ボタンスイッチ、211…ROM、212…RAM、213…記憶部、214…計時部、215…ジャイロセンサ、216…通信I/F、301…音声認識部、302…発話様式判定部、303…動作対象抽出部、304…処理判定部、305…実行処理部、305…処理実行部、306…入力部、307…出力部、308…動作対象キーワードリスト記憶部、309…対応リスト記憶部
DESCRIPTION OF
実施形態の音声処理装置は、音声変換手段と、発話判定手段と、処理判定手段と、実行手段と、を備える。音声変換手段は、入力された音声から、当該音声で発せられた内容を示した文字列情報に変換する。発話判定手段は、前記入力された音声を分析して、当該音声が発せられた際のユーザの発話の様式を判定する。処理判定手段は、前記発話の様式に基づいて、実行する処理を判定する。実行手段は、前記処理判定手段により判定された処理であり、且つ前記文字列情報により認識された処理を、前記文字列情報に変換する前の音声が継続している期間に応じて実行する。
実施形態の音声処理装置は、音声変換手段と、実行手段と、を備える。音声変換手段は、入力された音声から、当該音声で発せられた内容を示した文字列情報に変換する。実行手段は、前記文字列情報により認識された処理を、前記文字列情報に変換する前の音声が継続している期間に応じて実行する。
The speech processing apparatus according to the embodiment includes speech conversion means, speech determination means, process determination means, and execution means. The voice conversion means converts the input voice into character string information indicating the content uttered by the voice. The utterance determination means analyzes the input voice and determines the user's utterance style when the voice is uttered. The process determining means determines a process to be executed based on the utterance style. Executing means, a process determined by the processing determination unit, and the processing recognized by the character string information, executed according to the period in which the voice is continuing before conversion to the character string information.
The speech processing apparatus according to the embodiment includes speech conversion means and execution means. The voice conversion means converts the input voice into character string information indicating the content uttered by the voice. The execution means executes the process recognized by the character string information according to a period during which the voice before being converted into the character string information is continued.
Claims (6)
前記入力された音声を分析して、当該音声が発せられた際のユーザの発話の様式を判定する発話判定手段と、
前記発話の様式に基づいて、実行する処理を判定する処理判定手段と、
前記処理判定手段により判定された処理を、前記文字列情報を用いて実行する実行手段と、
を備える音声処理装置。 Voice conversion means for converting the input voice into character string information indicating the content uttered by the voice;
An utterance determination unit that analyzes the input voice and determines a user's utterance style when the voice is uttered;
Processing determination means for determining processing to be executed based on the utterance style;
Execution means for executing the processing determined by the processing determination means using the character string information;
A speech processing apparatus comprising:
請求項1に記載の音声処理装置。 The apparatus further comprises storage means for storing the user's utterance style and the process to be executed in association with each other.
The speech processing apparatus according to claim 1.
前記実行手段は、前記対象抽出手段により抽出された前記識別情報を、前記処理に用いる、
請求項1又は2に記載の音声処理装置。 A target extraction unit that extracts identification information that is a target of the process executed by the execution unit from the character string information converted by the voice conversion unit;
The execution means uses the identification information extracted by the target extraction means for the processing.
The speech processing apparatus according to claim 1 or 2.
前記実行手段として、前記処理判定手段により判定されたアプリケーションを起動し、当該アプリケーションに対して前記文字列情報を受け渡す、
請求項1乃至3のいずれか1つに記載の音声処理装置。 The process determination means determines an application that executes the process,
As the execution means, start the application determined by the processing determination means, and pass the character string information to the application,
The speech processing apparatus according to any one of claims 1 to 3.
請求項1乃至4のいずれか1つに記載の音声処理装置。 The utterance determination means determines any one of a voice without inflection, a voice with intense inflection, a high voice, a low voice, a faint voice, and a whisper as a user's utterance style.
The speech processing apparatus according to claim 1.
音声変換手段が、入力された音声から、当該音声で発せられた内容を示した文字列情報に変換する音声変換ステップと、
発話判定手段が、前記入力された音声を分析して、当該音声が発せられた際のユーザの発話の様式を判定する発話判定ステップと、
処理判定手段が、前記発話の様式に基づいて、実行する処理を判定する処理判定ステップと、
実行手段が、前記処理判定ステップにより判定された処理を、前記文字列情報を用いて実行する実行ステップと、
を含む音声処理方法。 A speech processing method executed by a speech processing apparatus,
A voice conversion step in which the voice conversion means converts the input voice into character string information indicating the content uttered by the voice;
An utterance determination unit analyzes the input voice and determines an utterance mode of the user when the voice is uttered;
A process determining step for determining a process to be executed based on the utterance style;
An execution step in which execution means executes the process determined in the process determination step using the character string information;
An audio processing method including:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011080026A JP2012215673A (en) | 2011-03-31 | 2011-03-31 | Speech processing device and speech processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011080026A JP2012215673A (en) | 2011-03-31 | 2011-03-31 | Speech processing device and speech processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012215673A true JP2012215673A (en) | 2012-11-08 |
Family
ID=47268497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011080026A Pending JP2012215673A (en) | 2011-03-31 | 2011-03-31 | Speech processing device and speech processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012215673A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10114604B2 (en) | 2014-12-26 | 2018-10-30 | Seiko Epson Corporation | Head-mounted display device, control method for head-mounted display device, and computer program |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11506845A (en) * | 1995-09-11 | 1999-06-15 | ダイムラー−ベンツ エーロスペイス アクチエンゲゼルシャフト | Automatic control method of one or more devices by voice dialogue or voice command in real-time operation and device for implementing the method |
JP2000057325A (en) * | 1998-08-17 | 2000-02-25 | Fuji Xerox Co Ltd | Voice detector |
JP2003263308A (en) * | 2002-12-27 | 2003-09-19 | Nec Infrontia Corp | Screen control device and method |
JP2004265376A (en) * | 2002-09-30 | 2004-09-24 | Mitsubishi Electric Research Laboratories Inc | Method and device for selecting recorded object from database stored in memory |
JP2009521745A (en) * | 2005-12-22 | 2009-06-04 | マイクロソフト コーポレーション | Network operation triggered by voice |
-
2011
- 2011-03-31 JP JP2011080026A patent/JP2012215673A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11506845A (en) * | 1995-09-11 | 1999-06-15 | ダイムラー−ベンツ エーロスペイス アクチエンゲゼルシャフト | Automatic control method of one or more devices by voice dialogue or voice command in real-time operation and device for implementing the method |
JP2000057325A (en) * | 1998-08-17 | 2000-02-25 | Fuji Xerox Co Ltd | Voice detector |
JP2004265376A (en) * | 2002-09-30 | 2004-09-24 | Mitsubishi Electric Research Laboratories Inc | Method and device for selecting recorded object from database stored in memory |
JP2003263308A (en) * | 2002-12-27 | 2003-09-19 | Nec Infrontia Corp | Screen control device and method |
JP2009521745A (en) * | 2005-12-22 | 2009-06-04 | マイクロソフト コーポレーション | Network operation triggered by voice |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10114604B2 (en) | 2014-12-26 | 2018-10-30 | Seiko Epson Corporation | Head-mounted display device, control method for head-mounted display device, and computer program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4175390B2 (en) | Information processing apparatus, information processing method, and computer program | |
JP6280312B2 (en) | Minutes recording device, minutes recording method and program | |
JP2009505321A (en) | Method and system for controlling operation of playback device | |
JP2014219614A (en) | Audio device, video device, and computer program | |
WO2012145365A1 (en) | Voice assignment for text-to-speech output | |
JP5770770B2 (en) | Input device | |
JP5106608B2 (en) | Reading assistance apparatus, method, and program | |
JP6417104B2 (en) | Text editing apparatus, text editing method, and program | |
US20100017381A1 (en) | Triggering of database search in direct and relational modes | |
KR101567449B1 (en) | E-Book Apparatus Capable of Playing Animation on the Basis of Voice Recognition and Method thereof | |
CN111813301B (en) | Content playing method and device, electronic equipment and readable storage medium | |
JP5396530B2 (en) | Speech recognition apparatus and speech recognition method | |
JP5404726B2 (en) | Information processing apparatus, information processing method, and program | |
JP5160594B2 (en) | Speech recognition apparatus and speech recognition method | |
US11606629B2 (en) | Information processing apparatus and non-transitory computer readable medium storing program | |
JP2005345616A (en) | Information processor and information processing method | |
JP5819147B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP2012215673A (en) | Speech processing device and speech processing method | |
JP5693834B2 (en) | Speech recognition apparatus and speech recognition method | |
JP2012008375A (en) | Voice recording apparatus, data processing method thereof, and program | |
JP2009283020A (en) | Recording apparatus, reproducing apparatus, and program | |
JP6962849B2 (en) | Conference support device, conference support control method and program | |
JP2016212374A (en) | Voice output device, voice output method, and program | |
JP2006267934A (en) | Minutes preparation device and minutes preparation processing program | |
JP2002268667A (en) | Presentation system and control method therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121120 |