JP2015184487A - Voice processor and voice processing method - Google Patents
Voice processor and voice processing method Download PDFInfo
- Publication number
- JP2015184487A JP2015184487A JP2014060862A JP2014060862A JP2015184487A JP 2015184487 A JP2015184487 A JP 2015184487A JP 2014060862 A JP2014060862 A JP 2014060862A JP 2014060862 A JP2014060862 A JP 2014060862A JP 2015184487 A JP2015184487 A JP 2015184487A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice recognition
- recognition
- speech
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
本発明の実施形態は、音声処理装置および音声処理方法に関する。 Embodiments described herein relate generally to a voice processing apparatus and a voice processing method.
在宅医療・介護など現場においては、医療・介護職の複数の職員が、患者や被介護者のケアや日常生活の世話にかかわっている。複数の職員は、その中で、患者や被介護者の状態を観察したり診断したりする。一人の職員が連続的・継続的に患者を観察するわけではなく、多職種の複数の職員が、それぞれ異なる日時、異なる間隔で、患者を訪問し、観察する。このため、各職員が、患者についての情報を共有するため、電子カルテシステムや看護・介護記録システム、あるいはSNSに、患者の観察結果を登録することが行われている。 In the field of home medical care and nursing care, several staff members of medical and nursing care staff are involved in the care of patients and care recipients and the care of daily life. A plurality of staff members observe and diagnose the condition of the patient and the cared person. A single staff member does not observe the patient continuously or continuously, but multiple staff members from various occupations visit and observe patients at different times and intervals. For this reason, in order for each staff member to share information about a patient, the observation result of the patient is registered in an electronic medical record system, a nursing / nursing care recording system, or an SNS.
患者について観察結果を共有するためのシステムとして、音声メッセージを用いた情報共有システム(以降、音声つぶやきシステムと呼ぶ)が知られている。音声つぶやきシステムでは、各職員が、スマートフォン等の携帯端末のマイクに、患者の観察結果を発話し、携帯端末に搭載された音声つぶやき登録アプリケーションでこれを記録することで、音声メッセージを生成する。各職員は、生成した音声メッセージをサーバに送信し、職員間で共有されるよう登録する。この際、音声メッセージを音声認識により変換してテキストとし、当該テキスト、発話対象となった患者のIDや、発話者の職員ID、発話時刻、発話場所、音声メッセージから抽出したキーワードなどのタグを、当該音声メッセージに添付する。このようにテキストやタグが添付された音声メッセージを、音声つぶやきと呼ぶ。各職員は、サーバに蓄積された音声つぶやきを、携帯端末やパソコンから、閲覧あるいは視聴することができる。 As a system for sharing observation results for patients, an information sharing system using a voice message (hereinafter referred to as a voice tweet system) is known. In the voice tweet system, each staff member utters a patient's observation result to a microphone of a portable terminal such as a smartphone, and records the result with a voice tweet registration application installed in the portable terminal, thereby generating a voice message. Each staff member sends the generated voice message to the server and registers it to be shared among the staff members. At this time, the voice message is converted into a text by voice recognition, and the tags such as the text, the patient ID to be uttered, the staff ID of the utterer, the utterance time, the utterance place, the keyword extracted from the voice message, etc. Attached to the voice message. Such a voice message to which text or a tag is attached is called a voice tweet. Each staff member can browse or view the voice tweets stored on the server from a portable terminal or a personal computer.
音声つぶやきシステムの場合に、職員は、音声認識したテキストをサーバに送信する前に、テキストの内容が発話した音声に一致しているか事前に確認したい場合がある。また、一般的に、発話した内容をテキスト化してユーザ端末に保存する場合も、発話した内容が正しく音声認識されているか、確認したい場合がある。この際、音声認識したテキストを出来るだけ速く確認できるようにしつつ、ユーザ端末の低消費電力・低コストを図ることが望まれる。 In the case of a voice tweet system, the staff member may want to confirm in advance whether the content of the text matches the spoken voice before sending the voice-recognized text to the server. In general, when the uttered content is converted into text and stored in the user terminal, it may be desired to confirm whether the uttered content is correctly recognized. At this time, it is desired to reduce the power consumption and cost of the user terminal while making it possible to confirm the speech-recognized text as quickly as possible.
ここで、音声メッセージをテキストに変換する音声認識は、端末内部で行うことや、外部の音声認識システムを利用する方法がある。また、発話を録音した音声ファイルを音声認識するバッチ音声認識や、発話中に音声認識をするリアルタイム音声認識がある。上記したような音声認識を出来るだけ速く確認しつつ、ユーザ端末の低消費電力・低コストを図る観点から、外部の音声認識システムを利用したリアルタイム音声認識を用いることが考えられる。 Here, voice recognition for converting a voice message into text can be performed inside the terminal or using an external voice recognition system. In addition, there are batch speech recognition for recognizing sound files in which utterances are recorded, and real-time speech recognition for performing speech recognition during utterances. It is conceivable to use real-time speech recognition using an external speech recognition system from the viewpoint of reducing power consumption and cost of the user terminal while confirming speech recognition as described above as quickly as possible.
しかしながら、リアルタイム音声認識の場合、発話の途中で通信が途絶えた場合や、音声認識システムが多数のユーザの音声を音声認識してリソースが逼迫している場合には、音声認識が失敗する可能性が高い。音声認識が失敗した場合、ユーザは一から発話をし直さなければならず、ユーザの負荷が大きい。 However, in the case of real-time speech recognition, speech communication may fail if communication is interrupted in the middle of an utterance or if the speech recognition system recognizes many users' voices and resources are tight. Is expensive. When voice recognition fails, the user has to start speaking again from the beginning, and the load on the user is great.
本発明の実施形態は、ユーザの発話中に音声認識を行う場合に、途中で音声認識に失敗した場合でも、ユーザが発話をし直すことなく、当該発話した内容のテキストを取得可能にすることを目的とする。 Embodiments of the present invention make it possible to acquire the text of the uttered content without re-speaking the user even if the speech recognition fails during the speech recognition when performing the speech recognition during the user's utterance. With the goal.
本発明の実施形態として音声処理装置は、取得部、送信部、記憶部、受信部、および制御部を備える。 As an embodiment of the present invention, a speech processing apparatus includes an acquisition unit, a transmission unit, a storage unit, a reception unit, and a control unit.
前記取得部は、ユーザが発話した内容を表す音声データを順次取得する。 The acquisition unit sequentially acquires audio data representing the content uttered by the user.
前記送信部は、前記取得部により取得された音声データの音声認識依頼を、音声認識システムに送信する。 The transmission unit transmits a voice recognition request for the voice data acquired by the acquisition unit to a voice recognition system.
前記記憶部は、前記取得部により取得された音声データを記憶する。 The said memory | storage part memorize | stores the audio | voice data acquired by the said acquisition part.
前記受信部は、前記音声認識システムから、前記音声データを音声認識により変換したテキストまたは前記音声データの音声認識の失敗を示す情報、を含む音声認識応答を受信する。 The receiving unit receives, from the voice recognition system, a voice recognition response including text converted from the voice data by voice recognition or information indicating a voice recognition failure of the voice data.
前記制御部は、前記音声認識応答に基づき前記音声認識に失敗した音声データを特定し、前記記憶部に記憶された音声データに基づき、前記音声認識に失敗した音声データを含むデータの音声認識依頼を、前記音声認識システムへ送信するよう制御する。 The control unit identifies voice data that has failed in the voice recognition based on the voice recognition response, and requests voice recognition of data including the voice data that has failed in voice recognition based on the voice data stored in the storage unit Is transmitted to the voice recognition system.
以下、図面を参照しながら、本発明の実施形態について説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(第1の実施形態)
図1は、本発明の実施形態に係る音声処理装置の機能ブロック図である。音声処理装置101が、ネットワーク301を介して、音声認識システム201に接続されている。
(First embodiment)
FIG. 1 is a functional block diagram of a speech processing apparatus according to an embodiment of the present invention. A
音声処理装置101は、録音部(取得部)11、ファイル記憶部12、送信部13、受信部14、認識結果記憶部15、制御部16、表示部17、入力部18を備える。
The
音声処理装置101は、スマートフォン、携帯端末、タブレット、PCなどのユーザ端末に実装されることができる。音声処理装置101が備える各処理部の機能は、ユーザ端末が一般的に備えるCPU、メモリ、補助記憶装置、通信装置、入出力インタフェースを利用して実現できる。音声処理装置101が搭載されるユーザ端末には、ユーザが発話した音声を収集して電気信号に変換するマイクが備え付けられているか、外部接続によりマイクを取り付け可能であるとする。マイクが、音声処理装置101に組み込まれることも可能である。
The
図1の各処理部の動作は、一例として、CPU上で稼働するオペレーティングシステム(OS)と、OS上で稼働するアプリケーションにより達成される動作として実現できる。 The operation of each processing unit in FIG. 1 can be realized as an operation achieved by an operating system (OS) running on a CPU and an application running on the OS, for example.
入力部18は、ユーザが各種指示を入力する入力インタフェースである。例えば、タッチパネル、入力ボタン、マウス、キーボードなどがある。入力部18で入力された情報は、制御部16へ送られる。
The
表示部17は、外部から入力される画像信号に基づき、画像を表示する出力インタフェースである。表示部17は、例えば、液晶パネル、有機ELパネル、電子インクパネルなどがある。
The
上述のように音声処理装置が搭載されるユーザ端末には、マイクが搭載されているか、マイクを外部接続可能である。このマイクでは、ユーザが発話した音声を収集し、当該音声をアナログの電気信号に変換する。電気信号はさらに所定の形式の音声デジタルデータに変換され、録音部11に入力される。音声デジタルデータへの変換は、例えば、ユーザ端末のCPUや、マイク内部、または別の処理回路により行われる。
As described above, the user terminal on which the voice processing device is mounted has a microphone or can be externally connected. This microphone collects voices spoken by the user and converts the voices into analog electrical signals. The electrical signal is further converted into audio digital data of a predetermined format and input to the
録音部11は、入力される音声デジタルデータの先頭から一定サイズごとに、データを音声データとして取得する取得部(図示せず)を備える。録音部11は、取得部により取得した音声データを順次、メモリ(図示せず)に格納する。メモリへ格納する際、当該音声データを、1つ前に取得された音声データに後続するように配置する。これにより、メモリ上では、録音開始から終了までに取得された各音声データが時系列に結合される。録音部11は、これらの結合された音声データにファイルヘッダ等を付加することで、予め定めた形式の音声ファイルを作成する。ファイル形式は任意でよい。一例として、WAVE(RIFF waveform Audio Format)形式やPCM(Pulse Code Modulation)形式がある。非可逆の圧縮フォーマットであるmp3形式などでもよい。なお、音声ファイルを所定の形式で可逆圧縮し、圧縮した音声ファイルを、代わりに格納してもよい。録音部11は、メモリ上に作成した音声ファイルを、ファイル記憶部12に格納する。メモリとファイル記憶部12が同一の媒体であれば、この格納動作は省略できる。
The
また、録音部11は、上記のように一定サイズごとに取り出した音声データに、識別子を付与する。識別子として、音声データの取得時刻を付与してもよい。時刻は、図示しないシステム時計から取得すればよい。取得時刻の代わりに、順次増加するシーケンス番号など、別の種類の識別子を付与してもよい。また、音声データには、音声認識システム201が提供する音声認識サービスのプロトコルに応じた情報(ヘッダ等)を付加してもよい。このヘッダ内の所定フィールドに上記識別子を含めても良い。録音部11は、識別子を付与した音声データを、送信部13に送る。ユーザが発話中であれば、ユーザの発話と並行して、音声データが送信部13に送られることになる。
In addition, the
ファイル記憶部12は、録音部11により生成された音声ファイルを内部に記憶する。ファイル記憶部12は、例えばOSに搭載されているファイルシステムによって管理されている。ファイル記憶部12は、ハードディスク、SSD、メモリなど、任意の記憶媒体で構成できる。
The
送信部13は、所定の通信プロトコルに基づき、音声認識システム201と通信する。使用する通信プロトコルは任意でよいが、例えばTCP(またはUDP)/IPベースのプロトコル処理を行う。TCP/IPベースのプロトコル処理として、TCP/IPより上位のhttpを利用することも可能である。また、送信部13は、ネットワーク301との通信用のプロトコルも処理する。例えば、無線LAN規格に従ったプロトコル、3Gなどのセルラー方式対応のプロトコル、または、イーサーネットプロトコル等が挙げられる。
The
送信部13は、録音部11から入力される一定サイズごとの音声データとその識別子から、当該音声データの音声認識を要求する音声認識依頼を生成する。音声認識依頼は、音声データとその識別子を含む。送信部13は、生成した音声認識依頼のデータをパケット化し、音声認識システム201に、ネットワーク301を介して送信する。ユーザが発話中であれば、音声認識依頼が発話中に音声認識システム201に送信されることになる。
The
音声認識システム201は、音声処理装置101から音声認識依頼を受信し、音声認識依頼から音声データと識別子を抽出する。音声認識システム201は、当該音声データを音声認識によりテキストに変換する。このテキストとは、任意の文字列のことである。音声認識システム201は、音声認識に成功した場合は、生成したテキストと、抽出した識別子とを含む音声認識結果を生成する。音声認識結果に、音声認識が成功したことを表す成功情報を含めても良い。
The
一方、音声認識システム201は、音声認識に失敗した場合は、音声認識に失敗したことを示す失敗情報と識別子とを含む音声認識結果を生成する。音声認識に失敗する場合としては、音声認識システム201が多数の音声データを処理中でリソースに余裕がない場合や、システムトラブルにより音声認識そのものができない状態である場合がある。または、当該音声データ自体に異常がある場合(処理できない値が含まれる場合)などがある。
On the other hand, when the
音声認識システム201は、音声認識に成功した場合、および失敗した場合のいずれの場合も、音声認識結果を生成し、音声認識結果を含む音声認識応答を、音声処理装置101に送信する。
The
受信部14は、所定の通信プロトコルに基づき、音声認識システム201と通信する。また、受信部14は、ネットワーク301と、無線または有線用の通信プロトコルの処理を行う。これらの通信プロトコルは、送信部13の場合と同様である。受信部14は、音声認識システム201から音声認識応答を、ネットワーク301を介して受信する。受信部14は、音声認識応答から音声認識結果を取り出す。音声認識結果には、音声認識が成功した場合は、音声データを変換したテキストと、識別子が含まれる。さらに、音声認識が成功したことを示す成功情報が含まれても良い。一方、音声データの音声認識に失敗した場合には、音声認識結果には、音声認識に失敗したことを示す失敗情報と識別子が含まれる。
The receiving
制御部16は、録音部11の開始および終了を含む動作を制御する。例えば、入力部18からのユーザ指示により録音部11を起動して、音声録音を開始する。また、入力部18からのユーザ指示により、録音部11を停止することで、音声録音を終了する。
The
また、制御部16は、各音声データの送信時に、各音声データに付加された識別子を認識結果記憶部15あるいは別のメモリに、リストとして格納することで、送信済みの音声データを管理する。また、受信部14で取得された各音声認識結果を認識結果記憶部15あるいは別のメモリに、リストとして格納することで、受信済みの音声認識結果を管理する。制御部16は、送信済みの音声データに付加した識別子と、受信済みの音声認識結果内の識別子を比較することで、送信した音声データのうち、どの音声データの音声認識結果が受信されているかを把握できる。
The
制御部16は、各音声認識結果に基づき、今回のユーザの発話に対する音声認識が成功したか否かを決定する。具体的に、音声認識システム201に送信した音声データのうち、少なくともH(Hは1以上の整数)個の音声データの音声認識に失敗した場合は、今回の発話に対する音声認識は失敗したと決定する。一方、失敗した音声データの個数がH個未満のときは、成功したと決定する。例えば、H=1の場合、送信したすべての音声データに対する音声認識が成功した場合は、今回の発話の音声認識は成功したと決定し、1つの音声データでも音声認識に失敗した場合は、今回の発話の音声認識は失敗したと決定する。以下では、H=1の場合を想定して説明を行うが、本実施形態はこれに限定されない。
Based on each voice recognition result, the
制御部16は、今回の発話に関し、成功の決定をした場合は、各音声データから変換されたテキストを時系列に結合して発話テキストを生成し、発話テキストを画面に表示する。
When the
例えば、ユーザが「山田さんを訪問しました。顔色はよいです。しかし念のため解熱薬を処方しておきます。以上です。」と発話した場合を考える。この発話に基づき音声データが複数個(ここでは4つ)順次、取得され、それぞれを含む音声認識依頼が、音声認識システム201に送信され、4つの音声認識結果が返されたとする。1番目の音声認識結果には、「山田さんを訪問しました。」のテキストが含まれ、2番目の音声認識結果には「顔色はよいです。」のテキストが含まれ、3番目の音声認識結果には、「しかし念のため解熱薬を処方しておきます。」のテキストが含まれ、4番目の音声認識結果には、「以上です。」のテキストが含まれていたとする。この場合、すべての音声データの音声認識が成功したため、成功の決定がなされ、これらのテキストを結合した発話テキスト「山田さんを訪問しました。顔色はよいです。しかし念のため解熱薬を処方しておきます。以上です。」を画面に表示する。
For example, consider a case where a user utters “I visited Mr. Yamada. The complexion is good, but I prescribe antipyretic drugs just in case. It is assumed that a plurality (four in this case) of voice data are sequentially acquired based on this utterance, a voice recognition request including each is transmitted to the
一方、失敗の決定をした場合は、音声認識失敗のメッセージを画面に表示する。その際、今回発話した内容を再度発話する必要がないことをユーザに通知するメッセージを、アプリケーション画面に表示してもよい。または、音声認識システム201に音声認識を(自発的に)再依頼する旨をユーザに通知するメッセージを、当該画面に表示してもよい。これは、発話開始から終了までの音声のデータを音声ファイルに保存してあるため、後にこの音声ファイルを用いて、音声認識システム201に音声認識を依頼できるためである。音声認識失敗の場合に画面に表示するメッセージの例として、「リアルタイムの音声認識に失敗したが、発話開始から終了までの音声を録音した音声ファイルにより、再度音声認識を試みる」旨を表示してもよい。これによりユーザは、一度発話した内容を再度発話する必要がないことを把握できる。上述した今回発話した内容を再度発話する必要がないことをユーザに通知するメッセージは、音声データの取得が完了した直後や、音声ファイルを生成した直後や、音声認識依頼の送信が完了した直後など、音声データの取得が完了した後の任意の時点で表示してもよい。
On the other hand, when the failure is determined, a voice recognition failure message is displayed on the screen. At that time, a message for notifying the user that it is not necessary to speak again the content uttered this time may be displayed on the application screen. Alternatively, a message for notifying the user that the
認識結果記憶部15は、ユーザの発話と、発話に対する音声認識結果と、音声ファイルとの対応を管理するための対応情報を記憶している。対応情報は、例えばテーブル形式など任意の形式で保持することができる。ここでは、対応情報はテーブル形式を有し、このテーブルを認識結果テーブルと呼ぶ。認識結果記憶部15は、ハードディスク、SSD、メモリなど、任意の記憶媒体で構成できる。ファイル記憶部12と同じ装置であっても、異なる装置であってもよい。
The recognition
図4に、認識結果テーブルの例を示す。認識結果テーブルは、例えばテキストファイル、またはデータベースとして保持されることができる。認識結果テーブルは、「発話日時」、「認識結果」、「音声ファイル」の列を有する。ユーザの発話ごと(録音の1単位ごと)に、制御部16により1つのエントリーが追加される。
FIG. 4 shows an example of the recognition result table. The recognition result table can be held as a text file or a database, for example. The recognition result table has columns of “utterance date / time”, “recognition result”, and “voice file”. One entry is added by the
「発話日時」列は、ユーザの発話日時を特定する情報を保持する。例えば、アプリケーションの画面上の「登録ボタン」を選択(タッチ、クリックなど)した日時、もしくは発話を開始した日時を格納する。発話を開始した日時は、最初に取得される音声データの先頭のタイミングの日時である。発話日時により、ユーザの発話が識別される。なお、発話ごとに、発話の識別情報(発話ID)を発番する場合は、その発話IDを保持する列を設けても良い。 The “speech date / time” column holds information for specifying the user's utterance date / time. For example, the date and time when the “registration button” on the application screen is selected (touch, click, etc.) or the date and time when the utterance is started is stored. The date and time when the utterance is started is the date and time at the beginning of the voice data acquired first. The user's utterance is identified by the utterance date and time. When utterance identification information (utterance ID) is issued for each utterance, a column for holding the utterance ID may be provided.
「認識結果」列は、ユーザの発話に対して、各音声データから変換されたテキストを結合した発話テキスト、または、音声認識が未完了であることを示す情報を保持する。音声認識が未完了であることを示す情報の例として、音声認識に失敗したことを示す情報がある。図4では<失敗>という情報がこれに相当する。 The “recognition result” column holds speech text obtained by combining text converted from each speech data with respect to the user speech, or information indicating that speech recognition is not completed. As an example of information indicating that the speech recognition is incomplete, there is information indicating that the speech recognition has failed. In FIG. 4, the information <failure> corresponds to this.
「音声ファイル」列は、ファイル記憶部12に記憶されている音声ファイルへのパスを保持する。パスとは、音声ファイルの格納場所を特定する情報である。この情報は、ファイル記憶部12を管理するファイルシステムから取得できる。
The “voice file” column holds a path to the voice file stored in the
制御部16は、上述のように、今回の発話に関し、音声認識の成功または失敗の決定をしたら、認識結果テーブルに、エントリーを追加する。具体的に、成功または失敗のいずれを決定した場合も、「発話日時」列に、発話日時を特定する情報を格納し、「音声ファイル」列には、今回のユーザの発話に関する音声ファイルへのパスを格納する。「認識結果」列には、成功の場合は、発話テキストを格納し、失敗の場合は、音声認識の未完了または失敗を表す情報(ここでは、<失敗>)を格納する。
As described above, the
また、制御部16は、一定時間間隔で、この認識結果テーブルに基づき、音声認識に失敗した発話をチェックする。例えば、「認識結果」列が「<失敗>」になっているエントリーを特定する。制御部16は、特定した発話に対応する音声ファイルを、「音声ファイル」列に保持されているファイルパスに従って、ファイル記憶部12から読み出す。音声ファイルが、音声認識システム201が対応しないデータ形式で圧縮して記憶されている場合は、読み出した音声ファイルを、音声認識システム201が対応するデータ形式に復号する。
Moreover, the
制御部16は、当該音声ファイルに含まれる音声データ全体を取り出し、当該音声データ全体の音声認識依頼を、音声認識システム201に送信する。音声データ全体でなく、一定サイズごとに音声データ全体を分割して、ファイルの先頭側から順番に、送信してもよい。この場合も、各音声データには識別子を付与して送信することで、受信部14で取得される音声認識結果との対応付けが可能である。なお、音声認識システム201が、音声ファイルそのものに対応している場合は、音声ファイルから音声データを取り出さずに、音声ファイル自体を送信することも可能である。
The
受信部14は、音声認識システム201から、音声認識結果を含む音声認識応答を受信する。音声データ全体を一括で送信した場合で、音声認識が成功だった場合、音声認識結果内のテキスト(発話テキスト)は、該当するエントリーの「認識結果」列に追加(<失敗>を上書き)される。音声データを分割して送信した場合は、すべての音声データの音声認識が成功した場合のみ、各音声データに対応するテキストを結合した発話テキストが、「認識結果」列に格納される。1つでも音声データの音声認識に失敗した場合は、失敗を表す情報(<失敗>等)が格納される。
The receiving
再音声認識に成功した場合、制御部16は、その旨のメッセージを、表示部17に出力することで、ユーザに通知してもよい。また、音声認識された発話テキストを、当該メッセージと同じ画面または別の画面で、表示部17に表示してもよい。発話テキストを、ユーザから指示された時点で表示部17に表示してもよい。なお、メッセージの出力時に、スピーカから通知音を鳴らしたり、またはバイブを振動させたりしてもよい。
When the re-speech recognition is successful, the
一方、再度の音声認識に失敗した場合、その旨のメッセージを、表示部17に出力してもよい。このとき、通知音を鳴らしたり、バイブを振動させたりしてもよい。成功の場合と失敗の場合とで、通知音のパターンや音量、バイブの振動パターンや強さを変えても良い。
On the other hand, when speech recognition again fails, a message to that effect may be output to the
制御部16は、上述した処理以外にも、各種の制御を行うことができる。例えば、ユーザに各種入力を促すための画面を表示部17に表示し、入力された指示に応じた動作を行う。
The
また、制御部16は、認識結果テーブルに基づき、発話日時の一覧等を表示部17に表示し、ユーザにより選択された発話日時に対応する発話テキストを表示してもよい。また、ユーザから、表示された発話テキストに対する編集の指示を受けて、テキストを修正してもよい。これにより、発話テキストに、ユーザの発話内容と異なる部分があった場合に、ユーザが正しい表現に修正できる。また、制御部16は、ユーザから音声ファイルの再生指示を受け付け、ユーザから指示された音声ファイルを、スピーカを用いて再生してもよい。
Further, the
また制御部16は、認識結果テーブルに格納されている各発話の発話テキスト、またはファイルパスに示される音声ファイルを、別途設けたサーバに送信してもよい。このサーバは、複数のユーザ端末(音声処理装置)から発話テキストまたは音声ファイルを収集して、ユーザ別、発話日時別など様々な属性に分類して、発話テキストまたは音声ファイルを管理する。サーバは、各ユーザ端末からの問い合わせに対して、要求された属性の発話テキストまたは音声ファイルをユーザ端末に送信してもよい。
Further, the
図2および図3に、本音声処理装置101の動作のフローチャートを示す。
2 and 3 show flowcharts of the operation of the
(ステップS101)制御部16が、アプリケーションの画面を表示部17に表示する。ユーザが、入力部18を介して、アプリケーション画面上の「登録ボタン」をタッチすると、制御部16はこれを検知して、画面上に、発話を促すメッセージ(「お話し下さい」)を表示する。これと同時に、制御部16は、録音部11を起動する。ユーザは、音声を入力可能な状態となる。
(Step S <b> 101) The
このとき、制御部16は、アプリケーション画面上に、音声入力中であることを示す表示を行っても良い。表示内容としては、例えば、ユーザの発話音量を示すバーや、波形がある。
At this time, the
ユーザは、ユーザ端末に搭載されているマイクに向かって、発話を開始する。録音部11には、発話の冒頭から、音声信号を所定形式でデジタル化したデジタルデータが入力される。録音部11は、デジタルデータの先頭から一定サイズに達するごとに、一定サイズ分のデータを、音声データとして切り出す。
The user starts speaking toward the microphone mounted on the user terminal. From the beginning of the utterance, digital data obtained by digitizing the audio signal in a predetermined format is input to the
(ステップS102)録音部11は、一定サイズの音声データを取得するごとに、メモリ上に音声データを追加し、発話時刻順に音声データを後続するように結合する。すべての音声データを結合したら、ファイルヘッダ等の情報を設定することで、音声ファイルを生成する。
(Step S <b> 102) Each time the
(ステップS103)また、録音部11は、一定サイズの音声データを取得するごとに、識別子を付与する。送信部13は、音声データと識別子を含む音声認識依頼を、音声認識システム201に送信する。このとき、制御部16は、音声データに付加した識別子をメモリに格納して、リスト管理する。
(Step S103) The
受信部14は、音声認識システム201から、音声認識結果を含む音声認識応答を、ネットワーク301を介して受信する。制御部16は、音声認識結果を認識結果記憶部15に格納して、リスト管理する。音声認識結果には、音声認識が成功の場合は、音声データを変換したテキストと識別子が含まれ、失敗の場合は、音声認識に失敗したことを示す失敗情報と識別子が含まれる。音声認識が成功の場合に、音声認識結果内に、成功を示す情報がさらに含まれてもよい。
The receiving
(ステップS104)制御部16は、認識結果記憶部15を定期的に確認し、送信部13から送信した音声認識依頼に対応する音声認識結果が取得されているかを調べる。制御部16は、音声データに付加したのと同じ識別子を有する音声認識結果が、認識結果記憶部15に存在するかで確認を行う。
(Step S <b> 104) The
(ステップS105)制御部16は、認識結果記憶部15に音声認識結果が存在する場合は、その音声認識結果の内容を調べる。
(Step S105) When the speech recognition result exists in the recognition
(ステップS106)音声認識結果に失敗情報が含まれる場合は、今回の発話の音声認識は失敗したことを決定する。すなわち、音声認識システム201に送信する音声データのうち1つでも音声認識に失敗した場合は、今回のユーザの発話に対する音声認識は失敗したと決定する。このとき、制御部16は、この失敗の決定を記憶するため、認識結果記憶部15の所定領域、またはメモリ上の領域に予め所定のフラグを格納しておき、このフラグに、失敗を示す値を設定する(ステップS107)。フラグの初期値は、成功を示す値が設定されているとする。
(Step S106) When failure information is included in the speech recognition result, it is determined that speech recognition of the current utterance has failed. That is, when at least one of the voice data transmitted to the
(ステップS108)ステップS107で失敗を記録した後、ユーザの発話が終了したかを判断する。ステップS105で音声認識結果にテキスト(または成功を示す情報)が含まれる場合、または、ステップS105で音声認識結果がないと判断された場合も、ユーザの発話が終了したかを判断する。ユーザは、発話を終了した時点で、アプリケーション画面上の「発話終了ボタン」を押し、制御部16は、このボタンの押下を検知することで、発話終了を判定する。制御部16は、発話終了を判定したら、録音部11の処理状態を確認する。録音部11の処理が完了していれば、録音部11を停止させる。録音部11がまだ動作中であれば、処理が完了するまで待機する。これにより、録音が終了する。
(Step S108) After recording the failure in step S107, it is determined whether or not the user's speech has ended. When the text (or information indicating success) is included in the speech recognition result in step S105, or when it is determined that there is no speech recognition result in step S105, it is determined whether the user's speech has ended. When the user ends the utterance, the user presses the “utterance end button” on the application screen, and the
なお、ユーザが録音を明示的に終了させる以外に、制御部16が、発話の空白を検出することで、自動的に録音を終了することもできる。発話の空白は、例えば、音量が閾値以下の区間が一定時間以上、継続した場合がある。ユーザの発話がまだ終了していない場合は、ステップS101に戻り、音声データの取得処理を行う。
Note that, in addition to the user explicitly ending the recording, the
(ステップS109)制御部16は、ユーザの発話が終了したと判定したら、未送信の音声データが残っているかを調べる。例えば送信部13の送信バッファに、未送信の音声確認依頼が残っている場合(音声認識システム201から送達確認応答(ACK)が返ってきていない場合も含む)、未送信の音声データが残っていると判断する。または、ユーザの発話が終了したが、録音部11の動作が継続している場合も、未送信の音声データが残っていると判断する。未送信の音声データが残っていれば、ステップS103に戻り、送信処理を引き続き行う。
(Step S109) When it is determined that the user's utterance has ended, the
(ステップS110)未送信の音声データが残っていなければ、すなわち、すべての音声データが送信済みであれば、すべての音声データに対応する音声認識結果が、受信済みかを判断する。まだ受信していない音声認識結果が存在する場合は、ステップS104に戻る。 (Step S110) If unsent audio data does not remain, that is, if all audio data has been transmitted, it is determined whether or not the audio recognition results corresponding to all audio data have been received. If there is a voice recognition result that has not yet been received, the process returns to step S104.
(ステップS111)すべての音声データに対応する音声認識結果が受信済みであれば、前述した所定のフラグを確認する。なお、この時点では、ユーザの発話は完了し、全ての音声データが送信済みであり、全ての音声データに対する音声認識結果が受信済みである (Step S111) If the voice recognition results corresponding to all the voice data have been received, the predetermined flag described above is checked. At this point, the user's utterance has been completed, all voice data has been transmitted, and voice recognition results for all voice data have been received.
(ステップS112)所定のフラグに失敗を示す値が設定されている場合、これは、ユーザによる発話の開始から終了までの全ての音声データのうち、少なくとも1つの音声データの音声認識に失敗したことを意味する。この場合は、音声認識失敗のメッセージを画面に表示する。その際、上述したように、今回の発話と同じ内容を再度発話する必要がないことをユーザに通知するメッセージを、アプリケーション画面上に表示してもよい。 (Step S112) When a value indicating failure is set in the predetermined flag, this means that voice recognition of at least one voice data among all voice data from the start to the end of the utterance by the user has failed. Means. In this case, a voice recognition failure message is displayed on the screen. At that time, as described above, a message notifying the user that the same content as the current utterance does not need to be uttered again may be displayed on the application screen.
(ステップS113)一方、所定のフラグに失敗を示す値が設定されていない場合、これは、ユーザによる発話の開始から終了までの全ての音声データに対して音声認識が成功したことを意味する。この場合は、音声認識結果に含まれるテキストを時系列に結合した発話テキストを生成し、生成した発話テキストを画面に表示する。 (Step S113) On the other hand, when a value indicating failure is not set in the predetermined flag, this means that the voice recognition has succeeded for all the voice data from the start to the end of the utterance by the user. In this case, an utterance text in which the text included in the speech recognition result is combined in time series is generated, and the generated utterance text is displayed on the screen.
(ステップS114)制御部16は、認識結果記憶部15内の認識結果テーブルに、今回の発話に関するエントリーを追加する。すなわち、制御部16は、「発話日時」列に、今回の発話日時、「音声ファイル」列に、今回の発話に関する音声ファイルへのパスを格納する。「認識結果」列に、今回の発話の音声認識が成功の場合は、発話テキストを格納し、失敗の場合は、失敗を表す情報(ここでは、<失敗>)を格納する。
(Step S114) The
ここで、ネットワーク301の状況によっては、音声認識依頼の送信に時間がかかる場合や、音声認識システム201からすべての音声認識応答が届くまでに時間がかかる場合もあり得る。そこで、発話の日時から一定時間以内にすべての音声認識依頼の送信が完了しない場合、またはすべての音声認識応答が届かない場合は、今回の音声認識は失敗と決定し、図2および図3のフローにおいて、失敗と決定した場合と同様の処理を行っても良い。ここでは、発話の日時を一定時間の起点にしたが、任意の日時を起点にしてもよい。
Here, depending on the situation of the network 301, it may take time to transmit a voice recognition request, or it may take time to receive all voice recognition responses from the
図5は、音声認識に失敗した発話に対する再音声認識(バッチ音声認識)の制御のフローチャートである。 FIG. 5 is a flowchart of control of re-speech recognition (batch speech recognition) for an utterance in which speech recognition has failed.
(S201)制御部16は、一定時間間隔で、認識結果記憶部15に保持された認識結果テーブルに基づき、音声認識に失敗した発話をチェックする。
(S201) The
(S202)制御部16は、特定した発話に対応する音声ファイルを、「音声ファイル」列に保持されているファイルパスに従って、ファイル記憶部12から読み出す。
(S202) The
(S203)制御部16は、読み出した音声ファイルに含まれる音声データを取り出し、当該音声データの音声認識依頼を、音声認識システム201に送信する。上述したように、 音声データの送信方法として、音声データの全体を一括で送信してもよいし、一定サイズごとに音声データを分割して、ファイルの先頭側から順番に、送信してもよい。
(S203) The
(S204)受信部14は、音声認識システム201から、音声認識結果を含む音声認識応答を受信する。音声データ全体を一括で送信した場合で、音声認識が成功だった場合は、音声認識結果内のテキストを、発話テキストとして、エントリーの「認識結果」列に書き込む。音声データを分割して送信した場合は、図2および図3に示した処理と同様に、すべての音声データの音声認識が成功した場合のみ、各音声データに対応するテキストを結合して発話テキストとし、「認識結果」列に書き込む。1つでも音声データの音声認識に失敗した場合は、失敗を表す情報(<失敗>等)を格納する。
(S204) The receiving
(S205)再音声認識に成功した場合、制御部16は、その旨のメッセージを、表示部17に出力することで、ユーザに通知してもよい。また、音声認識された発話テキストを、当該メッセージと同じ画面、または別の画面で、表示部17に表示してもよい。または、発話テキストを、ユーザから指示された時点で表示してもよい。再度の音声認識に失敗した場合、その旨のメッセージを、表示部17に出力してもよい。
(S205) When the re-speech recognition is successful, the
なお、ステップS202で音声ファイルを取り出してから、音声認識依頼の送信を開始し、音声認識結果が返ってくるまでの間、認識結果テーブルの「認識結果」列に、音声認識中を示す情報を格納しておいてもよい。音声認識中を示す情報として、例えば、「音声認識中」の文字を格納してもよい。制御部16は、ステップS201でのチェック時に、「認識結果」列に、音声認識中を示す情報が含まれるエントリーについては、音声ファイルの取り出しを行わないようにする。これにより、同じ音声ファイルが、重複して再音声認識依頼されることを防止できる。
Note that information indicating that speech recognition is being performed is displayed in the “recognition result” column of the recognition result table after the voice file is extracted in step S202 until transmission of the voice recognition request is started and the voice recognition result is returned. It may be stored. As information indicating that speech recognition is in progress, for example, a character “under speech recognition” may be stored. At the time of the check in step S201, the
なお、本フローの処理は、図2および図3のフローの処理が行われている間、すなわち、ユーザが発話して、発話中にこれに基づく音声認識のための処理が行われている間は、行わなくてもよい。これにより、音声処理装置101および音声認識システム201の負荷を下げて、リアルタイム音声認識の成功の可能性を高めることができる。
The processing of this flow is performed while the processing of the flow of FIG. 2 and FIG. 3 is performed, that is, while the processing for speech recognition based on the speech is performed while the user is speaking. Is not necessary. Thereby, the load of the
上述した認識結果テーブルは、種々のバリエーションが可能である。例えば、一つの端末を複数のユーザが使い、アプリケーションへのログインID、パスワードにより、ユーザを切り替える場合は、認識結果テーブルにユーザIDを保持する列を設けても良い。 The above-described recognition result table can be variously modified. For example, when a plurality of users use one terminal and switch users by login ID and password to the application, a column for holding the user ID may be provided in the recognition result table.
また、別の例として、認識結果テーブルから「認識結果」の列を削除して、「発話日時」と「音声ファイル」列のみを含むテーブルを作成してもよい。このテーブルには、発話に対する音声認識に失敗したときのみ、エントリーを追加する。成功したときは、発話テキストをユーザに画面で提示し、所定の手続を経た後、音声処理装置から消去する。所定の手続として、例えば「確認ボタン」などをユーザがタッチすることで、テキストを確認したことを表明した場合や、発話テキストを、他の装置(例えば前述したサーバ)に送信することなどがある。 As another example, the “recognition result” column may be deleted from the recognition result table to create a table including only the “utterance date” and “voice file” columns. An entry is added to this table only when speech recognition for an utterance fails. If successful, the utterance text is presented to the user on the screen, and after a predetermined procedure, it is erased from the speech processing apparatus. As a predetermined procedure, for example, when the user touches a “confirmation button” or the like, the user confirms that the text has been confirmed, or the utterance text is transmitted to another device (for example, the server described above). .
本実施形態では、音声処理装置101は、ネットワーク301を介して音声認識システム201と通信したが、音声認識システムが音声処理装置101内に組み込まれても良い。この場合、音声認識システムは、CPUと同じバス、またはチップセット等を介して別のバスに接続されてもよい。または、音声認識システムの機能が、CPUによるプログラム実行として実現されてもよい。
In this embodiment, the
以上、本実施形態によれば、ユーザの発話中に、発話と並行して音声認識システムに音声認識を依頼するとともに、発話内容を音声ファイルとして記憶しておく。音声認識に失敗した場合は、この音声ファイルに基づき再度、音声認識を依頼する。よって、再度ユーザに発話させることなく、音声認識を依頼でき、ユーザの負荷を低減することができる。また、音声認識に失敗した場合に、再度の発話は不要である旨のメッセージをユーザに通知することにより、ユーザは再度の発話は不要であると把握できる。よって、ユーザは、その場での音声認識の成功を確認できなくとも、安心してその後の作業を行うことができる。 As described above, according to the present embodiment, during the user's speech, the speech recognition system is requested to perform speech recognition in parallel with the speech, and the speech content is stored as a speech file. If the voice recognition fails, the voice recognition is requested again based on the voice file. Therefore, voice recognition can be requested without letting the user speak again, and the load on the user can be reduced. In addition, when voice recognition fails, the user can grasp that a second utterance is unnecessary by notifying the user that a second utterance is unnecessary. Therefore, even if the user cannot confirm the success of the voice recognition on the spot, the user can perform the subsequent work with peace of mind.
(第2の実施形態)
本実施形態では、ユーザの発話状況、音声認識システム201に送信した音声データに対する音声認識結果の到達状況、および音声認識結果の内容に応じて、ユーザに通知するメッセージを制御する。
(Second Embodiment)
In the present embodiment, a message to be notified to the user is controlled according to the user's utterance status, the arrival status of the speech recognition result for the speech data transmitted to the
ここでは、音声認識中であることを通知するメッセージ、音声認識が成功したことを通知するメッセージ、音声認識に失敗したことを通知するメッセージの表示を制御する場合を示す。 Here, a case is shown in which the display of a message notifying that voice recognition is in progress, a message notifying that voice recognition has been successful, and a message notifying that voice recognition has failed have been controlled.
音声認識中であることを通知するメッセージは、少なくとも1つの音声データに対する音声認識結果が受信されておらず、かつ、失敗を示す情報を含む音声認識結果が1つも受信されていないときに、表示する。具体的に、以下の2つの条件が満たされる場合に表示する。
(条件1)送信したいずれかの音声データに対する音声認識結果が返ってきていない
(条件2)送信したいずれの音声データについても失敗が返ってきていない
メッセージの具体例として、たとえば「音声認識中」の文字を表示することがある。
A message notifying that voice recognition is in progress is displayed when no voice recognition result for at least one voice data has been received and no voice recognition result including information indicating failure has been received. To do. Specifically, it is displayed when the following two conditions are satisfied.
(Condition 1) No voice recognition result is returned for any transmitted voice data (Condition 2) No failure is returned for any transmitted voice data As a specific example of a message, for example, “During voice recognition” May be displayed.
音声認識が成功したことを通知するメッセージは、音声認識システム201に送信したすべての音声データの音声認識が成功した場合に表示する。具体的に、以下の条件3〜5を全て満たす場合に、表示する。
(条件3)発話が終了している
(条件4)未送信の音声データはない
(条件5)送信した全ての音声データについての音声認識に成功した
メッセージの具体例として、たとえば「音声認識成功」の文字を表示することがある。
The message notifying that the voice recognition is successful is displayed when the voice recognition of all the voice data transmitted to the
(Condition 3) Speech has ended (Condition 4) There is no untransmitted voice data (Condition 5) Voice recognition succeeded for all transmitted voice data As a specific example of a message, for example, “successful voice recognition” May be displayed.
音声認識に失敗したことを通知するメッセージは、音声認識システム201に送信した音声データのうち、少なくとも1つが音声認識に失敗した場合に表示する。具体的に、上記の条件3、4と、以下の条件6を全て満たす場合に表示する。
(条件6)送信したいずれかの音声データについて音声認識に失敗した
メッセージの具体例として、たとえば「音声認識失敗」の文字を表示することがある。
The message notifying that the voice recognition has failed is displayed when at least one of the voice data transmitted to the
(Condition 6) As a specific example of a message in which voice recognition has failed for any of the transmitted voice data, for example, a character “speech recognition failure” may be displayed.
上述した3つのメッセージは、いずれも2つ以上が同時に表示されることはない。つまり、条件1と条件5は同時には成立しないので、「音声認識中」と「音声認識成功」が同時に表示されることはない。条件2と条件6は同時には成立しないので、「音声認識中」と「音声認識失敗」が同時に表示されることはない。また条件5と条件6は同時には成立しないので、「音声認識成功」と「音声認識失敗」が同時に表示されることはない。 Two or more of the above three messages are not displayed simultaneously. That is, since the conditions 1 and 5 are not satisfied at the same time, “speech recognition in progress” and “successful speech recognition” are not displayed at the same time. Since condition 2 and condition 6 are not satisfied at the same time, “voice recognition in progress” and “voice recognition failure” are not displayed at the same time. Since conditions 5 and 6 are not satisfied at the same time, “speech recognition success” and “speech recognition failure” are not displayed simultaneously.
以上により「音声認識中」、「音声認識成功」、「音声認識失敗」のいずれか1個しか表示されない。これにより発話中には「音声認識失敗」を表示せず、ユーザに最後まで発話させることができる。なお、発話中に条件6が成立した場合に、「音声認識失敗」を表示する場合は、途中で音声認識に失敗したが発話を最後まで継続するよう促すメッセージを表示しても良い。 As described above, only one of “during speech recognition”, “successful speech recognition”, and “speech recognition failure” is displayed. As a result, it is possible to let the user speak to the end without displaying “speech recognition failure” while speaking. Note that when “speech recognition failure” is displayed when the condition 6 is satisfied during the utterance, a message may be displayed prompting the utterance to continue to the end although the speech recognition has failed in the middle.
(第3の実施形態)
第1の実施形態では、発話の音声認識に成功した場合は、発話の全体テキストを表示し、一部の音声データの音声認識に失敗した場合は、音声認識の失敗を示すメッセージを表示した。
(Third embodiment)
In the first embodiment, when the speech recognition of the utterance is successful, the entire text of the utterance is displayed, and when the speech recognition of a part of the speech data fails, a message indicating the failure of the speech recognition is displayed.
本実施形態では、音声認識に成功した音声データについては、そのテキストを表示し、音声認識に失敗した音声データについては、音声認識が未完了であることを示すテキストを表示する。音声認識が未完了であることを示すテキストの例として、音声認識が失敗したことを示すテキスト(例えば<失敗>)がある。これらのテキストを発話時刻順に並べて表示する。これにより、ユーザは、自分が発話した内容の一部のテキストだけでも迅速に確認できる。 In the present embodiment, the text is displayed for voice data that has been successfully recognized, and the text that indicates that voice recognition has not been completed is displayed for the voice data that has failed. As an example of text indicating that speech recognition has not been completed, there is text (for example, <failure>) indicating that speech recognition has failed. These texts are displayed side by side in utterance time order. As a result, the user can quickly confirm even a part of the text of the content he / she uttered.
例えば、ユーザが「山田さんを訪問しました。顔色はよいです。しかし念のため解熱薬を処方しておきます。以上です。」と発話したとする。この発話に基づき、4つの音声データが順次、取得され、それぞれを含む音声認識依頼が、音声認識システム201に送信され、4つの音声認識結果が返されたとする。1番目の音声認識結果には、「山田さんを訪問しました。」のテキストが含まれ、2番目の音声認識結果には、失敗を示す情報が含まれ、3番目の音声認識結果には、「しかし念のため解熱薬を処方しておきます。」のテキストが含まれ、4番目の音声認識結果には、失敗を示す情報が含まれていたとする。
For example, suppose that the user utters "I visited Mr. Yamada. The complexion is good. But just in case I prescribe antipyretic drugs. That's it." Based on this utterance, it is assumed that four voice data are sequentially acquired, a voice recognition request including each is transmitted to the
このとき、音声認識に成功した音声データについては、そのテキスト、音声認識に失敗した音声データについては、失敗を示すテキスト(例えば<失敗>)を、互いに結合して、表示する。この結果、表示されるテキストは、「山田さんを訪問しました。<失敗>しかし念のため解熱薬を処方しておきます。<失敗>」のようになる。認識結果テーブルの「認識結果」列には、このような結合されたテキストを格納する。 At this time, the speech data that has been successfully recognized by the speech is displayed as a text, and the speech data that has failed the speech recognition is displayed by combining the text indicating the failure (for example, <failure>). As a result, the text that appears is like “I visited Mr. Yamada. <Failure> But prescribe antipyretic drugs just in case. <Failure>”. Such combined text is stored in the “recognition result” column of the recognition result table.
ここで、各音声認識結果と、表示されるテキスト全体との対応関係を明確にするため、各音声認識結果に対応するテキストを、適当な記号(例えば#)で結合してもよい。このとき、表示されるテキストは、「山田さんを訪問しました。#<失敗>#しかし念のため解熱薬を処方しておきます。#<失敗>#」のようになる。ユーザは、表示されたテキストを見ることで、音声データが4つ取得され、2番目と4番目の音声データの音声認識に失敗したことが分かる。 Here, in order to clarify the correspondence between each speech recognition result and the entire displayed text, the text corresponding to each speech recognition result may be combined with an appropriate symbol (for example, #). At this time, the displayed text is like "I visited Mr. Yamada. # <Failure> # but prescribe antipyretic drugs just in case. # <Failure> #". By viewing the displayed text, the user can recognize that four pieces of voice data have been acquired and voice recognition of the second and fourth voice data has failed.
本実施形態でも、第1の実施形態と同様に、一部の音声データの音声認識に失敗した場合、発話に対する音声認識は失敗と判断する。この判断を記録するため、認識結果テーブルに、「認識結果」列とは別に、列を1つ追加し、失敗を示す情報(たとえば<失敗>)を格納してもよい。成功の場合には、この列の値はヌルにするか、成功を示す情報(たとえば<成功>)を格納してもよい。この列に「<失敗>」があるか否かで、失敗の有無を判断できる。もちろん、このような列を追加することなく、「認識結果」列のテキスト内に<失敗>の文字が含まれるかを検索することで、失敗の有無を検出してもよい。 Also in the present embodiment, as in the first embodiment, when the voice recognition of a part of the voice data fails, it is determined that the voice recognition for the utterance has failed. In order to record this determination, one column may be added to the recognition result table in addition to the “recognition result” column, and information indicating failure (for example, <failure>) may be stored. In the case of success, the value of this column may be null, or information indicating success (for example, <success>) may be stored. Whether or not there is a failure can be determined by whether or not “<failure>” exists in this column. Of course, without adding such a column, the presence or absence of failure may be detected by searching for a <failure> character in the text of the “recognition result” column.
再音声認識を依頼する場合、第1の実施形態と同様に、音声認識が失敗の発話に対応する音声ファイルから、発話の音声データを取得し、音声認識システム201に音声認識を依頼する。取得した音声データ全体を一括して依頼してもよいし、あるいは、一定サイズごとに分割して依頼してもよい。
When requesting re-speech recognition, as in the first embodiment, speech data of an utterance is acquired from a speech file corresponding to an utterance for which speech recognition has failed, and the
または、音声認識に失敗した音声データのみについて、再音声認識を依頼してもよい。具体的に、音声ファイルから取得した音声データを一定サイズごとに分割し、このうちの何番目が音声認識に失敗したかを、上記の記号(例えば#)に基づき特定する。 Alternatively, re-speech recognition may be requested only for speech data that has failed speech recognition. Specifically, the audio data acquired from the audio file is divided into fixed sizes, and the number of these is specified based on the above-mentioned symbol (for example, #).
上述した例「山田さんを訪問しました。#<失敗>#しかし念のため解熱薬を処方しておきます。#<失敗>#」では、2番目と4番目の音声データが音声認識に失敗したと判断できる。よって、2番目と4番目の音声データのみ、再音声認識依頼を行うことになる。 In the example above, “I visited Mr. Yamada. # <Failure> # But prescribe antipyretic drugs just in case. # <Failure> #”, the second and fourth voice data fail to recognize the voice. It can be judged that. Therefore, only the second and fourth voice data are requested to be re-spoken.
仮に2番目の音声データの再音声認識が成功し、4番目の音声データの再音声認識が失敗した場合、表示されるテキスト(「認識結果」列に格納されるテキスト)は、「山田さんを訪問しました。#顔色はよいです。#しかし念のため解熱薬を処方しておきます。#<失敗>#」となる。この場合も、再音声認識に失敗した音声データが存在するため、発話に対する音声認識結果は、失敗と判断される。 If the re-speech recognition of the second sound data succeeds and the re-speech recognition of the fourth sound data fails, the displayed text (the text stored in the “recognition result” column) is “Yamada-san. #Visit color is good #But prescribe antipyretic drugs just in case. # <Failure> # ". Also in this case, since there is voice data in which re-speech recognition has failed, it is determined that the voice recognition result for the utterance has failed.
この後、さらに再音声認識を行う場合は、4番目の音声データのみ、再音声認識を依頼する。この音声データの音声認識が成功した場合は、表示されるテキストは、「山田さんを訪問しました。#顔色はよいです。#しかし念のため解熱薬を処方しておきます。#以上です。」のようになる。 Thereafter, when re-speech recognition is performed, re-speech recognition is requested only for the fourth sound data. If the voice recognition of this voice data is successful, the text displayed is "Visit Yamada-san. # The complexion is good. # But just in case you prescribe antipyretic drugs. "become that way.
図6に、音声認識に失敗した音声データのみ、再音声認識の依頼を行う場合の動作のフローを示す。図5のフローチャートのS202とS203の間にステップS206が追加されている。ステップS202で音声認識に失敗した発話の音声ファイルを取得した後、ステップS206では、音声認識に失敗した音声データのみを音声ファイルから切り出する。ステップS203では、切り出した音声データのみについて、音声認識を音声認識システムに依頼する。他のステップは図5と同様であるため、説明を省略する。 FIG. 6 shows an operation flow when a request for re-speech recognition is made only for speech data that has failed in speech recognition. Step S206 is added between S202 and S203 in the flowchart of FIG. After obtaining the speech file of the speech that failed in speech recognition in step S202, in step S206, only the speech data that failed in speech recognition is cut out from the speech file. In step S203, the voice recognition system is requested for voice recognition only for the cut out voice data. The other steps are the same as in FIG.
本実施形態のように、一部の音声データについてのみ、音声認識を行う際、音声認識システム201は、その前の成功した部分のテキストも参照したほうが、音声認識精度がよくなる可能性がある。そこで、その一部の音声データの1つもしくは複数前までの音声データを変換したテキストを、認識結果テーブルから読み出して、当該一部の音声データとともに、送信してもよい。
As in the present embodiment, when performing speech recognition only for a part of speech data, the
または、当該一部の音声データの1つまたは複数前までの音声データを送信して、当該一部の音声データの音声認識精度を向上させてもよい。このように、本実施形態は、音声認識に失敗した音声データのみを送る場合、当該音声データとその1つまたは複数前までの音声データを送る場合、上述したような音声データすべてを送る場合のいずれも含む。つまり、音声認識に失敗した音声データを含むデータである限り、送信する音声データは任意である。当該音声認識に失敗した音声データの次の音声データを含めることも当然に可能である。 Alternatively, the voice recognition accuracy of the part of the voice data may be improved by transmitting one or more pieces of voice data before the part of the voice data. As described above, in the present embodiment, when only voice data that has failed in voice recognition is sent, when the voice data and one or more previous voice data are sent, all voice data as described above is sent. Both are included. That is, as long as the data includes voice data that has failed in voice recognition, the voice data to be transmitted is arbitrary. Of course, it is possible to include the next voice data after the voice data that failed to be recognized.
また、上述した説明では、各音声データの音声認識の成功または失敗が確定した後で、表示部17の画面へのテキスト表示を行ったが、音声認識結果が取得されるごとに、順次、画面に表示してもよい。これにより、音声認識から結果表示までの時間をより短時間にすることができ、リアルタイム性を高めた表示が可能となる。
In the above description, after the success or failure of the voice recognition of each voice data is confirmed, the text is displayed on the screen of the
(第4の実施形態)
第1の実施形態では、音声認識に失敗した場合、録音した音声ファイルに基づき、音声認識システムに再音声認識を依頼する。しかしながら、一定回数、音声認識を再依頼しても、音声認識に成功しない場合もあり得る。また、最初に音声認識を依頼して失敗した後、定期的に再音声認識を行っているにもかかわらず、長い間、音声認識に成功しない場合もあり得る。このような場合は、音声データそのものに問題がある可能性があると考えられるため、音声認識をこれ以上、行わないようにしてもよい。以下、本実施形態について詳細に説明する。
(Fourth embodiment)
In the first embodiment, when voice recognition fails, the voice recognition system is requested to perform re-voice recognition based on the recorded voice file. However, even if the voice recognition is requested again a certain number of times, the voice recognition may not succeed. In addition, there may be a case where the speech recognition is not successful for a long time even though the re-speech recognition is periodically performed after the first request for the speech recognition is unsuccessful. In such a case, it is considered that there is a possibility that the voice data itself has a problem, so that voice recognition may not be performed any more. Hereinafter, this embodiment will be described in detail.
制御部16は、音声認識に失敗した発話について、音声認識の再依頼を行った回数が一定値に達したかを判断する。一定値に達した発話については、音声認識をこれ以上行わないように制御する。音声認識の依頼を行った回数を記憶するため、一例として、図4の認識結果テーブルに、「再音声認識回数」という列を別途設けてもよい。この列には、音声認識結果が<失敗>の発話について、音声ファイルによる音声認識の依頼を行った回数を格納する。
The
制御部16は、この回数が一定値に達した発話については、再音声認識を依頼しないように制御する。この場合、制御部16は、この発話に関する音声認識はもはや行わないことをユーザに通知するメッセージを、表示部17に表示してもよい。例えば、「規定の回数を超えて音声認識に失敗した。再度の音声認識は行わない。」のようなメッセージを表示してもよい。
The
同様に、制御部16は、最初の発話日時から一定時間内に音声認識に成功しない場合は、音声認識の依頼を、これ以上行わないように制御する。例えば、図4の認識結果テーブルにおいて、認識結果が<失敗>である発話の中で、「発話日時」の値と、現在日時の間隔が、一定時間(例えば3時間)以上のものを検出する。検出した発話については、これ以上、音声認識を依頼しないように制御する。その場合、この発話に関する音声認識はもはや行わないことをユーザに通知するメッセージを、表示部17に表示してもよい。例えば、「発話時から規定の時間を超えても音声認識に成功しない。再度の音声認識は行わない」といったメッセージを表示してもよい。ここでは、発話日時を一定時間の起点にしたが、任意の日時を起点にしてもよい。
Similarly, when the voice recognition is not successful within a certain time from the first utterance date and time, the
以上、本実施形態によれば、音声認識に成功する可能性が低いと考えられる発話については、これ以上音声認識を行わないようにすることで、音声処理装置101の処理負荷を低減できる。また、ユーザは音声認識の成功を待つ時間を短くできるため、ユーザの負荷を低減できる。また、ユーザが発話内容を忘れない内に、再度の発話を行うことが可能となる。
As described above, according to the present embodiment, it is possible to reduce the processing load of the
(第5の実施形態)
第1〜第4の実施形態では、音声処理装置が音声認識システムに音声認識の依頼を行ったが、本実施形態では、音声処理装置と音声認識システムとの間に配置した管理サーバが代理で行う。これにより、音声処理装置の負荷を下げるとともに、音声処理装置の記憶領域を節約する。
(Fifth embodiment)
In the first to fourth embodiments, the voice processing apparatus requests the voice recognition system to perform voice recognition. However, in this embodiment, a management server arranged between the voice processing apparatus and the voice recognition system is acting as a proxy. Do. This reduces the load on the voice processing device and saves the storage area of the voice processing device.
図7は、本実施形態に係るシステムの全体構成図である。 FIG. 7 is an overall configuration diagram of a system according to the present embodiment.
音声処理装置401と、音声ファイル管理サーバ501(以下、管理サーバ501と呼ぶ)と、音声認識システム201が示される。これらは互いにネットワークを介して接続されている。ネットワークは、無線、有線またはこれらのハイブリッドのネットワークである。音声処理装置401と管理サーバ501間のネットワークと、管理サーバ501と音声認識システム201間のネットワークは、互いに異なるネットワークであっても、同じネットワークであってもよい。
A
音声認識システム201は、第1〜第4の実施形態に係る音声認識システム201と同様であるため説明を省略する。
Since the
音声処理装置401の機能ブロック図は、図1と同じものを用いることができる。ただし、各ブロックの動作は一部、変更または拡張されている。以下では、第1の実施形態との差分を中心に説明を行う。
The functional block diagram of the
録音部11は、第1の実施形態と同様、一定サイズごとに取得した音声データを結合して音声ファイルを生成し、ファイル記憶部12に記憶する。ただし、各音声データは送信部13へは送らない。つまり、各音声データの音声認識依頼は、音声認識システム201へ送信しない。
As in the first embodiment, the
制御部16は、ファイル記憶部12から音声ファイルを読み出し、送信部13へ渡す。送信部13は、音声ファイルを管理サーバ301に送信する。制御部16は、音声ファイルの送信が成功した時点で、音声ファイルをファイル記憶部12から削除してもよい。これにより、データ記憶領域を節約できる。制御部16は、音声ファイルの送信後、または音声ファイルの作成後、ユーザに同じ内容の発話を再度行う必要はないことを通知するメッセージを、表示部17に出力してもよい。
The
管理サーバ501は、音声処理装置401から音声ファイルを受信する。管理サーバ501は、音声処理装置401と同様に、サーバ側のファイル記憶装置および認識結果記憶装置を備える。管理サーバ501は、受信した音声ファイルを、サーバ側ファイル記憶装置に格納する。管理サーバ501は、ファイル記憶装置内の音声ファイルに基づき、音声認識システム201に、音声ファイルに含まれる音声データについて、音声認識依頼を送信する。管理サーバ501は、音声認識システム201から、音声認識結果を含む音声認識応答を受信する。音声認識結果は、音声認識に成功した場合は、音声データを音声認識により変換したテキストを含み、音声認識に失敗した場合は、音声認識に失敗したことを示す情報を含む。音声認識に成功した場合に、成功を示す情報が音声認識結果に追加で含まれても良い。管理サーバ501は、受信した音声認識応答に含まれる音声認識結果に基づき、第1の実施形態と同様、サーバ側認識結果記憶部15に、図4に示した形式の認識結果テーブルを生成してもよい。
The
音声認識の依頼は、第1の実施形態と同様に、音声ファイル内の音声データ全体に対して一括して行っても良いし、音声データ全体を、一定サイズごとに分割して行っても良い。また、音声認識システム201が音声ファイルそのものに対応している場合は、音声ファイルそのものを送信してもよい。音声ファイルが、音声認識システム201が対応しない形式に圧縮されている場合は、音声認識システム201が対応可能な形式に復号するものとする。
Similar to the first embodiment, the request for speech recognition may be performed collectively for the entire audio data in the audio file, or the entire audio data may be divided into predetermined sizes. . Further, when the
管理サーバ501は、第1〜第4実施形態の音声処理装置101の動作と同様に、音声認識に失敗した発話について、再音声認識依頼の制御を行う。管理サーバ501は、一定の時間間隔で、認識結果記憶部15に保持されたテーブルに基づき、音声認識に失敗した発話をチェックする。管理サーバ501は、音声認識に失敗した発話に対応する音声ファイルを取り出し、音声ファイル内の音声データに対する音声認識依頼を、音声認識システム201に再度送信する。音声認識システム201から、音声認識結果を含む音声認識応答を受信する。音声認識応答に含まれる音声認識結果の内容に応じて、認識結果テーブルを更新する。
Similar to the operation of the
管理サーバ501は、音声ファイルの音声認識が成功した場合、音声処理装置401に音声認識に成功した旨のメッセージを通知してもよい。管理サーバ501は、予め音声処理装置401のユーザとメールアドレスの対応表を管理している。管理サーバ501は、この対応表に基づき、該当する音声処理装置401のユーザのメールアドレスを特定し、特定したアドレス宛に、成功のメッセージを送信する。成功のメッセージには、音声認識されたテキスト(発話テキスト)を追加してもよいし、発話テキストを、添付ファイルとして送信してもよい。あるいは、成功のメッセージは、メールではなく、アプリケーションの画面にプッシュ表示する形で、送信してもよい。この場合、発話テキストも同時にアプリケーションの画面に表示してもよい。発話テキストは、アプリケーション画面上の成功のメッセージを確認したユーザの端末から、送信要求を受けて送信してもよい。
When the voice recognition of the voice file is successful, the
管理サーバ501は、初回またはそれ以降の音声認識に失敗した場合は、失敗した旨のメッセージを音声処理装置401に送信してもよい。この際、再度、音声認識の依頼を自発的に行う旨のメッセージを送信してもよい。第4の実施形態と同様、一定回数、音声認識に失敗した場合や、一定時間内に音声認識が成功しなかった場合は、音声認識が不可能である旨のメッセージを送信してもよい。
The
音声処理装置401の受信部14は、管理サーバ501から成功のメッセージと発話テキストを受信した場合、成功のメッセージを表示部17に表示し、また発話テキストを、成功のメッセージと同じ、または別の画面で、表示部17に表示する。受信した発話テキストは、認識結果記憶部に格納する。この際、図4の認識結果テーブルに準じた形式で、発話日時とともに格納してもよい。ファイル記憶部12から音声ファイルを消去する構成の場合は、「音声ファイル」列は、削除してもよい。
When receiving the success message and the utterance text from the
受信部14が、管理サーバ501から失敗のメッセージを受信した場合は、失敗のメッセージを表示部17に表示する。この場合、制御部16は、失敗を示す情報を「認識結果」列に記録してもよい。また、受信部14は、音声認識の依頼を自発的に行う旨のメッセージ、または音声認識が不可能の旨のメッセージを受信した場合は、当該メッセージを表示部17に表示する。
When the
音声処理装置401の制御部16は、定期的に管理サーバ501に、音声ファイルの音声認識に成功したか否かを、問い合わせてもよい。問い合わせ対象となる発話は、まだ成功のメッセージを受信してない発話である。失敗のメッセージを受信した後、成功のメッセージをまだ受信していない発話も、これに相当する。この場合、管理サーバ501は、当該音声ファイルの音声認識に成功していれば、その旨のメッセージを音声処理装置401に送信してもよい。当該音声ファイルの音声認識に、まだ成功していなければ、再音声認識中の旨のメッセージを、音声処理装置401に送信してもよい。
The
以上に述べた管理サーバ501の動作は、一例であり、第1〜第4の実施形態における音声処理装置401の各種動作を組み合わせることも可能である。例えば第3の実施形態で示したように、発話の一部の音声データのみ音声認識が成功した場合は、成功した部分のテキストと、失敗を示すテキストを結合したテキストを、音声処理装置401に送信することも可能である。また、再音声認識依頼の制御の際も、失敗した音声データのみを切り出して、音声認識システム201に、再音声認識を依頼してもよい。
The operation of the
(第6の実施形態)
第5の実施形態では、管理サーバから音声認識システムへ音声認識の依頼および再依頼を行ったが、本実施形態では、音声認識の依頼は音声処理装置が行い、音声認識の再依頼は管理サーバが行う形態を示す。
(Sixth embodiment)
In the fifth embodiment, a voice recognition request and re-request are made from the management server to the voice recognition system. In this embodiment, the voice recognition request is made by the voice processing device, and the voice recognition re-request is sent to the management server. Shows a form to be performed.
図8は、本実施形態に係るシステムの全体構成図である。音声処理装置601と、音声ファイル管理サーバ701(以下、管理サーバ701と呼ぶ)と、音声認識システム201が示される。これらは互いにネットワークを介して接続されている。ネットワークは、無線、有線またはこれらのハイブリッドのネットワークである。音声処理装置601と音声処理システム201間のネットワークと、音声処理装置601と管理サーバ701間のネットワークと、管理サーバ701と音声認識システム201間のネットワークとは、互いに異なるネットワークであっても、同じネットワークであってもよい。
FIG. 8 is an overall configuration diagram of a system according to the present embodiment. A
音声認識システム201は、第1〜第5の実施形態に係る音声認識システム201と同様である。また音声処理装置601の機能ブロック図は、図1と同じものを用いることができる。ただし、各ブロックの動作は一部、変更または拡張されている。以下では、第1および第5の実施形態との差分を中心に説明を行う。
The
音声処理装置601は、第1の実施形態と同様に、図2および図3のステップS101〜S113の処理を行う。すなわち、録音部11で音声データが取得されるごとに、当該音声データを、送信部13を介して音声認識システム201に送信し、音声認識システム201から音声認識結果を取得する。音声認識システム201に送信したすべての音声データに対する音声認識結果を取得したら、今回の発話に対する音声認識が成功または失敗したかを判断する。成功の場合は、各音声認識結果に含まれるテキストを結合した発話テキストを画面に表示し、失敗の場合は、失敗のメッセージ等を画面に表示する。第1の実施形態では、この後、認識結果テーブル(図4参照)にエントリーを追加したが、本実施形態では、この代わりに、管理サーバ701に、発話日時と、音声認識結果と、音声ファイルとを一組の情報として送信する。つまり、図4の1エントリーに相当する情報(ただしファイルパスではなく、音声ファイル本体)を管理サーバ701に送信する。音声処理装置601は管理サーバ701への上記情報の送信に成功したら、音声処理装置601内の音声ファイルを削除してもよい。なお、音声処理装置601は、発話日時と認識結果のエントリーを認識結果テーブルに追加してもよい。
The
管理サーバ701は、上記情報(発話日時と、音声認識結果と、音声ファイル)に含まれる音声ファイルを、サーバ側のファイル記憶部に格納し、格納した位置を特定するファイルパスを取得する。また、管理サーバ701は、サーバ側の認識結果記憶部内に保持する認識結果テーブルに、上記情報に含まれる発話日時および音声認識結果と、取得したファイルパスとを含むエントリーを追加する。
The
管理サーバ701は、認識結果テーブルの「認識結果」列に基づき、音声認識に失敗した発話について、再音声認識依頼の制御を行う。すなわち、管理サーバ701は、一定の時間間隔で、認識結果記憶部に保持されたテーブルに基づき、音声認識に失敗した発話をチェックする。管理サーバ701は、音声認識に失敗した発話に対応する音声ファイルを取り出し、音声ファイル内の音声データに対する音声認識依頼を、音声認識システム201に再度送信する。音声認識システム201から、音声認識結果を含む音声認識応答を受信する。音声認識応答に含まれる音声認識結果の内容に応じて、認識結果テーブルを更新する。
The
管理サーバ701は、音声ファイルの音声認識が成功した場合、音声処理装置601に音声認識に成功した旨のメッセージを通知してもよい。成功のメッセージには、音声認識されたテキスト(発話テキスト)を追加してもよいし、発話テキストを、添付ファイルとして送信してもよい。あるいは、成功のメッセージは、メールではなく、アプリケーションの画面にプッシュ表示する形で、送信してもよい。この場合、発話テキストも同時にアプリケーションの画面に表示してもよい。発話テキストは、アプリケーション画面上の成功のメッセージを確認したユーザの端末から、送信要求を受けて送信してもよい。
When the voice recognition of the voice file is successful, the
管理サーバ701は、音声認識が失敗した場合は、失敗した旨のメッセージを音声処理装置601に送信してもよい。この際、再度、音声認識の依頼を自発的に行う旨のメッセージを送信してもよい。第4の実施形態と同様、一定回数、音声認識に失敗した場合や、一定時間内に音声認識が成功しなかった場合は、音声認識が不可能である旨のメッセージを送信してもよい。
When the voice recognition fails, the
音声処理装置601の受信部14は、管理サーバ701から成功のメッセージと発話テキストを受信した場合、成功のメッセージを表示部17に表示し、また発話テキストを、成功のメッセージと同じ、または別の画面で、表示部17に表示する。受信した発話テキストは、認識結果記憶部15に格納する。この際、図4の認識結果テーブルに準じた形式で、発話日時とともに発話テキストを格納してもよい。ファイル記憶部12から音声ファイルを消去する構成の場合は、「音声ファイル」列は、削除してもよい。
When receiving the success message and the utterance text from the
受信部14が、管理サーバ701から失敗のメッセージを受信した場合は、失敗のメッセージを表示部17に表示する。この場合、制御部16は、失敗を示す情報を「認識結果」列に記録してもよい。また、受信部14は、音声認識の再依頼を自発的に行う旨のメッセージ、または音声認識が不可能の旨のメッセージを受信した場合は、当該メッセージを表示部17に表示する。
When the
また、音声処理装置601の制御部16は、定期的に管理サーバ701に、音声ファイルの音声認識に成功したか否かを、問い合わせてもよい。問い合わせ対象となる発話は、まだ成功のメッセージを受信してない発話である。音声認識の失敗のメッセージを受信した後、成功のメッセージをまだ受信していない発話も、これに相当する。この場合、管理サーバ701は、当該音声ファイルの音声認識に成功していれば、その旨のメッセージを音声処理装置601に送信してもよい。当該音声ファイルの音声認識に、まだ成功していなければ、音声認識中の旨のメッセージを、音声処理装置601に送信してもよい。
Further, the
以上、本実施形態によれば、初回の音声認識依頼は音声処理装置から行うとともに、再音声認識依頼は、管理サーバから行うことにより、音声認識依頼から結果表示までの時間を短時間にできると同時に、再認識依頼に起因する処理負荷を削減または低減できる。 As described above, according to the present embodiment, the first speech recognition request is made from the speech processing apparatus, and the re-speech recognition request is made from the management server, so that the time from the speech recognition request to the result display can be shortened. At the same time, the processing load due to the re-recognition request can be reduced or reduced.
なお、第1〜第6の実施形態の音声処理装置および管理サーバは、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音声処理装置および管理サーバが備えるブロックの処理は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声処理装置よび管理サーバは、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、音声処理装置および管理サーバが備える記憶手段は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスク、SSDもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。 Note that the voice processing devices and management servers of the first to sixth embodiments can also be realized by using, for example, a general-purpose computer device as basic hardware. That is, the processing of the blocks provided in the voice processing device and the management server can be realized by causing the processor mounted on the computer device to execute the program. At this time, the voice processing device and the management server may be realized by installing the above program in the computer device in advance, or may be stored in a storage medium such as a CD-ROM or via the network. And may be realized by installing this program on a computer device as appropriate. The storage means included in the voice processing device and the management server is a storage medium such as a memory, a hard disk, an SSD or a CD-R, a CD-RW, a DVD-RAM, a DVD-R, etc. incorporated in or externally attached to the computer device It can be realized by appropriately using the above.
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.
11:録音部
12:ファイル記憶部
13:送信部
14:受信部
15:認識結果記憶部
16:制御部
17:表示部
18:入力部
101、401:音声処理装置
301:ネットワーク
201:音声認識システム
11: recording unit 12: file storage unit 13: transmission unit 14: reception unit 15: recognition result storage unit 16: control unit 17: display unit 18:
Claims (10)
前記取得部により取得された音声データの音声認識依頼を、音声認識システムに送信する送信部と、
前記取得部により取得された音声データを記憶する記憶部と、
前記音声認識システムから、前記音声データを音声認識により変換したテキストまたは前記音声データの音声認識の失敗を示す情報、を含む音声認識応答を受信する受信部と、
前記音声認識応答に基づき前記音声認識に失敗した音声データを特定し、前記記憶部に記憶された音声データに基づき、前記音声認識に失敗した音声データを含むデータの音声認識依頼を、前記音声認識システムへ送信するよう制御する制御部と
を備えた音声処理装置。 An acquisition unit for sequentially acquiring audio data representing the content spoken by the user;
A transmission unit that transmits a voice recognition request of the voice data acquired by the acquisition unit to a voice recognition system;
A storage unit for storing voice data acquired by the acquisition unit;
A receiving unit that receives a voice recognition response including text converted from the voice data by voice recognition or information indicating a voice recognition failure of the voice data from the voice recognition system;
Based on the voice recognition response, the voice data that has failed in the voice recognition is identified, and on the basis of the voice data stored in the storage unit, a voice recognition request for data including the voice data that has failed in the voice recognition And a control unit that controls transmission to the system.
請求項1に記載の音声処理装置。 The control unit determines success or failure of speech recognition for the user's utterance based on the speech recognition response, and if the failure is determined, the control unit re-requests the speech recognition system to perform speech recognition again. The voice processing device according to claim 1, wherein the voice processing device is controlled to display a message to be notified.
請求項1または2に記載の音声処理装置。 The control unit controls to display a message notifying the user that it is not necessary to perform the same utterance again after the acquisition unit completes acquisition of all voice data for the user's utterance. Item 3. The voice processing device according to Item 1 or 2.
請求項1ないし3のいずれか一項に記載の音声処理装置。 When the voice recognition response for at least one voice data is not received and no voice recognition response including information indicating the failure is received, the control unit indicates that voice recognition is in progress. The voice processing apparatus according to any one of claims 1 to 3, wherein a message for notifying the user of a message is controlled to be displayed.
請求項1ないし4のいずれか一項に記載の音声処理装置。 The control unit indicates the text included in the voice recognition response for the voice data for which the voice recognition has been successful, and indicates that the voice recognition has not been completed for the voice data for which the voice recognition has not yet been successful. The speech processing apparatus according to any one of claims 1 to 4, wherein text is controlled to be arranged and displayed according to an order of acquisition of the speech data by the acquisition unit.
請求項1ないし5のいずれか一項に記載の音声処理装置。 The speech processing apparatus according to any one of claims 1 to 5, wherein the transmission unit transmits the speech recognition request to the speech recognition system via a network.
前記記憶部は、前記音声ファイルを記憶し、
前記制御部は、前記ユーザが発話した日時と、前記ユーザの発話に対する音声認識結果と、前記記憶部において前記音声ファイルが格納された位置とを対応づけた対応情報を生成し、
前記音声認識結果は、前記音声データのすべての音声認識が成功している場合は、各音声データに対応するテキストを前記音声データの取得順に並べた発話テキスト、少なくとも1つの音声認識データの音声認識が成功していない場合は、音声認識がまだ完了していないことを示す情報である
請求項1ないし6のいずれか一項に記載の音声処理装置。 The acquisition unit combines the audio data acquired by the acquisition unit in the acquisition order to generate an audio file,
The storage unit stores the audio file,
The control unit generates correspondence information in which the date and time when the user utters, the voice recognition result for the user's utterance, and the position where the voice file is stored in the storage unit,
The speech recognition result indicates that if all speech recognition of the speech data is successful, the speech text in which the text corresponding to each speech data is arranged in the order of acquisition of the speech data, speech recognition of at least one speech recognition data The speech processing apparatus according to any one of claims 1 to 6, which is information indicating that speech recognition has not yet been completed when is not successful.
請求項1ないし7のいずれか一項に記載の音声処理装置。 If the voice recognition is not successful even if the voice recognition request for the data including the voice data that has failed in the voice recognition is performed a predetermined number of times, or the voice recognition has failed within a predetermined time from a predetermined time. 8. If re-speech recognition of data including speech data is not successful, control is performed so as to display a message notifying the user that speech recognition for the user's utterance is no longer performed. The speech processing apparatus according to the item.
前記音声ファイルを、音声認識システムと通信する管理サーバに、ネットワークを介して送信する送信部と、
前記管理サーバから、前記音声ファイルに含まれる音声データを音声認識により変換したテキストを受信する受信部と、
前記音声ファイルが生成された後、または前記音声ファイルの前記管理サーバへの送信が完了した後、前記ユーザに前記発話と同じ内容の発話を再度行う必要がない旨を通知するメッセージを表示するよう制御する制御部と
を備えた音声処理装置。 An acquisition unit that sequentially acquires audio data representing the content spoken by the user, generates an audio file by combining the acquired audio data in order of acquisition, and
A transmitter that transmits the voice file to a management server that communicates with the voice recognition system via a network;
A receiving unit that receives text obtained by converting voice data included in the voice file by voice recognition from the management server;
After the audio file is generated or after the transmission of the audio file to the management server is completed, a message is displayed to notify the user that it is not necessary to perform the same utterance as the utterance again. A voice processing device comprising a control unit for controlling.
前記取得ステップにより取得された音声データの音声認識依頼を、音声認識システムに送信する送信ステップと、
前記取得ステップにより取得された音声データを記憶装置に記憶する記憶ステップと、
前記音声認識システムから、前記音声データを音声認識により変換したテキストまたは前記音声データの音声認識の失敗を示す情報、を含む音声認識応答を受信する受信ステップと、
前記音声認識応答に基づき前記音声認識に失敗した音声データを特定し、前記記憶装置に記憶された音声データに基づき、前記音声認識に失敗した音声データを含むデータの音声認識依頼を、前記音声認識システムへ送信するよう制御する制御ステップと
を備えた音声処理方法。 An acquisition step of sequentially acquiring audio data representing the content spoken by the user;
A transmission step of transmitting a voice recognition request of the voice data acquired by the acquisition step to a voice recognition system;
A storage step of storing the voice data acquired by the acquisition step in a storage device;
Receiving from the voice recognition system a voice recognition response including text converted from the voice data by voice recognition or information indicating a voice recognition failure of the voice data;
Based on the voice recognition response, the voice data that has failed in the voice recognition is identified, and based on the voice data stored in the storage device, a voice recognition request for data including the voice data that has failed in the voice recognition is received. A voice processing method comprising: a control step for controlling transmission to a system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014060862A JP5802784B2 (en) | 2014-03-24 | 2014-03-24 | Audio processing apparatus and audio processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014060862A JP5802784B2 (en) | 2014-03-24 | 2014-03-24 | Audio processing apparatus and audio processing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015184487A true JP2015184487A (en) | 2015-10-22 |
JP5802784B2 JP5802784B2 (en) | 2015-11-04 |
Family
ID=54351077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014060862A Active JP5802784B2 (en) | 2014-03-24 | 2014-03-24 | Audio processing apparatus and audio processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5802784B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017182417A (en) * | 2016-03-30 | 2017-10-05 | ホーチキ株式会社 | Disaster prevention monitoring facility |
JP2018045193A (en) * | 2016-09-16 | 2018-03-22 | 株式会社リコー | Communication terminal, voice conversion method, and program |
CN109325239A (en) * | 2018-11-05 | 2019-02-12 | 北京智启蓝墨信息技术有限公司 | Student classroom expression mannage method and system |
JP2020077427A (en) * | 2020-01-14 | 2020-05-21 | ホーチキ株式会社 | Disaster prevention monitoring facility |
CN112906358A (en) * | 2019-12-04 | 2021-06-04 | 株式会社东芝 | Information processing apparatus, information processing method, and recording medium |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000122685A (en) * | 1998-10-09 | 2000-04-28 | Denso Corp | Navigation system |
JP2003219201A (en) * | 2001-11-19 | 2003-07-31 | Matsushita Electric Ind Co Ltd | Remote-controlled object apparatus, remote control system and image-processing apparatus |
JP2004109563A (en) * | 2002-09-19 | 2004-04-08 | Fujitsu Ltd | Speech interaction system, program for speech interaction, and speech interaction method |
JP2005037615A (en) * | 2003-07-18 | 2005-02-10 | Omron Corp | Client device, voice recognition server, distributed voice recognition system, voice recognition program, and computer-readable recording medium |
JP2006113439A (en) * | 2004-10-18 | 2006-04-27 | Ntt Data Corp | Speech automatic responding apparatus and program |
JP2007072351A (en) * | 2005-09-09 | 2007-03-22 | Mitsubishi Electric Corp | Speech recognition device |
JP2007264126A (en) * | 2006-03-27 | 2007-10-11 | Toshiba Corp | Speech processing device, speech processing method and speech processing program |
JP2008250035A (en) * | 2007-03-30 | 2008-10-16 | Matsushita Electric Works Ltd | Voice recognition device |
JP2008256802A (en) * | 2007-04-02 | 2008-10-23 | Fujitsu Ten Ltd | Voice recognition device and voice recognition method |
JP2011145610A (en) * | 2010-01-18 | 2011-07-28 | Fujitsu Toshiba Mobile Communications Ltd | Communication apparatus |
-
2014
- 2014-03-24 JP JP2014060862A patent/JP5802784B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000122685A (en) * | 1998-10-09 | 2000-04-28 | Denso Corp | Navigation system |
JP2003219201A (en) * | 2001-11-19 | 2003-07-31 | Matsushita Electric Ind Co Ltd | Remote-controlled object apparatus, remote control system and image-processing apparatus |
JP2004109563A (en) * | 2002-09-19 | 2004-04-08 | Fujitsu Ltd | Speech interaction system, program for speech interaction, and speech interaction method |
JP2005037615A (en) * | 2003-07-18 | 2005-02-10 | Omron Corp | Client device, voice recognition server, distributed voice recognition system, voice recognition program, and computer-readable recording medium |
JP2006113439A (en) * | 2004-10-18 | 2006-04-27 | Ntt Data Corp | Speech automatic responding apparatus and program |
JP2007072351A (en) * | 2005-09-09 | 2007-03-22 | Mitsubishi Electric Corp | Speech recognition device |
JP2007264126A (en) * | 2006-03-27 | 2007-10-11 | Toshiba Corp | Speech processing device, speech processing method and speech processing program |
JP2008250035A (en) * | 2007-03-30 | 2008-10-16 | Matsushita Electric Works Ltd | Voice recognition device |
JP2008256802A (en) * | 2007-04-02 | 2008-10-23 | Fujitsu Ten Ltd | Voice recognition device and voice recognition method |
JP2011145610A (en) * | 2010-01-18 | 2011-07-28 | Fujitsu Toshiba Mobile Communications Ltd | Communication apparatus |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017182417A (en) * | 2016-03-30 | 2017-10-05 | ホーチキ株式会社 | Disaster prevention monitoring facility |
JP2018045193A (en) * | 2016-09-16 | 2018-03-22 | 株式会社リコー | Communication terminal, voice conversion method, and program |
CN109325239A (en) * | 2018-11-05 | 2019-02-12 | 北京智启蓝墨信息技术有限公司 | Student classroom expression mannage method and system |
CN112906358A (en) * | 2019-12-04 | 2021-06-04 | 株式会社东芝 | Information processing apparatus, information processing method, and recording medium |
JP2021089576A (en) * | 2019-12-04 | 2021-06-10 | 株式会社東芝 | Information processor, information processing method and program |
US11538475B2 (en) | 2019-12-04 | 2022-12-27 | Kabushiki Kaisha Toshiba | Information processing apparatus and information processing method |
JP7225082B2 (en) | 2019-12-04 | 2023-02-20 | 株式会社東芝 | Information processing device, information processing method and program |
JP2020077427A (en) * | 2020-01-14 | 2020-05-21 | ホーチキ株式会社 | Disaster prevention monitoring facility |
Also Published As
Publication number | Publication date |
---|---|
JP5802784B2 (en) | 2015-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5802784B2 (en) | Audio processing apparatus and audio processing method | |
US10244111B1 (en) | System for providing data to an interactive response system | |
US10505886B2 (en) | Method and system of operating a social networking application via an external device | |
JP7059929B2 (en) | Information processing equipment | |
JP2017003611A (en) | Voice recognition device, voice recognition system, terminal used in voice recognition system and method for generating speaker identification model | |
JP6154489B2 (en) | Terminal device, program, and server device for providing information in response to user data input | |
US20190164556A1 (en) | Master-slave personal digital assistant data and knowledge exchange system and method | |
CN106713111B (en) | Processing method for adding friends, terminal and server | |
KR20170066410A (en) | Computer based translation system and method | |
US9524717B2 (en) | System, method, and computer program for integrating voice-to-text capability into call systems | |
JP6074999B2 (en) | Suspicious communication destination warning system, suspicious communication destination warning method, and program | |
JP6179971B2 (en) | Information providing apparatus and information providing method | |
TW200824408A (en) | Methods and systems for information retrieval during communication, and machine readable medium thereof | |
JP7095684B2 (en) | Information processing equipment, information processing method, program | |
WO2020022079A1 (en) | Speech recognition data processor, speech recognition data processing system, and speech recognition data processing method | |
JP6669374B1 (en) | Setting device, setting method and setting program | |
JP6523974B2 (en) | COMMUNICATION SUPPORT DEVICE, COMMUNICATION SUPPORT METHOD, AND PROGRAM | |
WO2020026360A1 (en) | Computer system, screen sharing method, and program | |
JP6115304B2 (en) | Communication terminal device, safety information transmission method, and safety information transmission program | |
US20160316062A1 (en) | Voice communication supporting device, voice communication supporting method, and computer program product | |
JP2018054926A (en) | Voice interactive apparatus and voice interactive method | |
WO2016006354A1 (en) | Information processing device, and translation-data provision method | |
JP7199991B2 (en) | Monitoring system, monitoring method and program | |
US10003932B2 (en) | Participation request messaging to members of a conversation group | |
JP2021173880A (en) | Information processing unit, program and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150804 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150831 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5802784 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |