JP6866731B2 - Speech recognition device, speech recognition method, and program - Google Patents

Speech recognition device, speech recognition method, and program Download PDF

Info

Publication number
JP6866731B2
JP6866731B2 JP2017071168A JP2017071168A JP6866731B2 JP 6866731 B2 JP6866731 B2 JP 6866731B2 JP 2017071168 A JP2017071168 A JP 2017071168A JP 2017071168 A JP2017071168 A JP 2017071168A JP 6866731 B2 JP6866731 B2 JP 6866731B2
Authority
JP
Japan
Prior art keywords
situation
voice recognition
voice
conversation
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017071168A
Other languages
Japanese (ja)
Other versions
JP2018173522A (en
Inventor
松本 征二
征二 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2017071168A priority Critical patent/JP6866731B2/en
Publication of JP2018173522A publication Critical patent/JP2018173522A/en
Application granted granted Critical
Publication of JP6866731B2 publication Critical patent/JP6866731B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声認識装置、音声認識方法、及びプログラムに関し、詳細には、音声認識精度を向上するための技術に関する。 The present invention relates to a voice recognition device, a voice recognition method, and a program, and more particularly to a technique for improving voice recognition accuracy.

従来より、スマートフォンやカーナビゲーションシステム等のユーザインターフェースとして音声入力を用いるものが利用されている。また、AI(Artificial Intelligence;人工知能)や対話型ロボットが普及し始め、機器と人とが音声によってコミュニケーションをとる機会が増加している。そのため、精度のよい音声認識システムが要望されている。例えば、特許文献1には、ユーザが発話する言葉に含まれるユーザの意図や感情を推定することで、ユーザとの間の対話をより円滑にする機能を有する音声対話装置について記載されている。 Conventionally, a user interface such as a smartphone or a car navigation system that uses voice input has been used. In addition, AI (Artificial Intelligence) and interactive robots have begun to spread, and opportunities for devices and humans to communicate by voice are increasing. Therefore, there is a demand for an accurate voice recognition system. For example, Patent Document 1 describes a voice dialogue device having a function of smoothing a dialogue with a user by estimating the intention and emotion of the user included in the words spoken by the user.

また、従来の音声認識処理では、音声認識の結果、複数の変換候補がある場合にはシステムが第1候補を自動的に選択する方法等が一般的である。例えば、「おすすめのたいけんはありますか」という音声が入力された際の音声認識結果としては、「No.1:おすすめの大剣は何ですか」、「No.2:おすすめの体験は何ですか」、「No.3:お勧めの体験はなんですか」、「No.4:お奨めの体験は何ですか」、「No.5:おすすめの大剣はなんですか」のような複数の変換候補が得られる。この場合、観光のシーンであればNo.2、3、4が正しい変換候補となるが、ゲームについての会話中であれば、No.1、あるいは5が正しい変換となる。したがって適切な音声の文書変換を行うには、シーンや会話の流れ等の状況を把握し、それに応じた候補を出力する必要がある。 Further, in the conventional voice recognition process, when there are a plurality of conversion candidates as a result of voice recognition, a method in which the system automatically selects the first candidate is common. For example, when the voice "Do you have a recommended sword?" Is input, the voice recognition result is "No. 1: What is the recommended big sword?", "No. 2: What is the recommended experience?" "No. 3: What is the recommended experience?", "No. 4: What is the recommended experience?", "No. 5: What is the recommended big sword?" Conversion candidates are obtained. In this case, if it is a sightseeing scene, No. 2, 3 and 4 are correct conversion candidates, but if you are talking about the game, No. 1 or 5 is the correct conversion. Therefore, in order to perform appropriate audio document conversion, it is necessary to grasp the situation such as the scene and the flow of conversation, and output the candidates accordingly.

特開2006−313287号公報Japanese Unexamined Patent Publication No. 2006-313287

例えば、上述の特許文献1には、ユーザの感情や生理状態等を音声、画像、生理信号等の非言語情報を用いて入力音声の意図(質問、詰問、疑い)を推定し判断する技術について開示されている。しかしながら、特許文献1は、ユーザの感情や生理状態によるユーザ情報のみから対話内容を推定するため、簡単な応答文など2者択一形式の認識には対応できるものの、前述のように多義的であって複雑な会話内容に対しては適切な認識を行うことが困難である。 For example, the above-mentioned Patent Document 1 describes a technique for estimating and determining the intention (question, question, suspicion) of input voice by using non-verbal information such as voice, image, and physiological signal for the user's emotion and physiological state. It is disclosed. However, since Patent Document 1 estimates the dialogue content only from the user information based on the user's emotions and physiological states, it can correspond to the recognition of the alternative form such as a simple response sentence, but it is ambiguous as described above. Therefore, it is difficult to properly recognize complicated conversation contents.

本発明は、このような課題に鑑みてなされたもので、会話のシーンやコンテキストといった状況に適した音声認識結果を得ることが可能な音声認識装置、音声認識方法、及びプログラムを提供することを目的とする。 The present invention has been made in view of such a problem, and provides a voice recognition device, a voice recognition method, and a program capable of obtaining a voice recognition result suitable for a situation such as a conversation scene or a context. The purpose.

前述した課題を解決するため第1の発明は、音声データを取得する音声取得手段と、取得した音声データを認識し、音声認識結果として複数の変換候補を求める音声認識手段と、音声データ取得時の状況を判定する状況判定手段と、前記音声認識手段により求めた複数の変換候補の中から前記状況判定手段により判定した状況に適した変換候補を抽出する抽出手段と、状況と関連付けられた単語を記憶する記憶手段を備え、前記状況判定手段は、前記単語を音声データから抽出し、前記単語に基づいて前記状況を判定することを特徴とする音声認識装置である。 In order to solve the above-mentioned problems, the first invention comprises a voice acquisition means for acquiring voice data, a voice recognition means for recognizing the acquired voice data and obtaining a plurality of conversion candidates as a voice recognition result, and a voice data acquisition time. A situation determination means for determining the situation of the above, an extraction means for extracting a conversion candidate suitable for the situation determined by the situation determination means from a plurality of conversion candidates obtained by the voice recognition means , and a word associated with the situation. comprising storage means for storing said status determining means, the word extracted from the speech data, a speech recognition apparatus according to claim and this determines the status based on the word.

第1の発明によれば、会話の音声データを認識し、音声認識結果として複数の変換候補を求め、会話の状況(シーンやコンテキスト)を判定し、複数の変換候補の中から会話の状況に適した変換候補を抽出する。これにより、シーンやコンテキストといった会話の状況に適した音声認識結果を得ることが可能となり、音声認識精度の高い音声認識装置を提供できる。前記状況判定手段は、会話の内容に基づいて前記状況を求めるので、会話の内容そのものから状況を推定し、適切な音声認識結果を抽出可能となる。 According to the first invention, the voice data of the conversation is recognized, a plurality of conversion candidates are obtained as the voice recognition result, the conversation situation (scene or context) is determined, and the conversation situation is selected from the plurality of conversion candidates. Extract suitable conversion candidates. As a result, it becomes possible to obtain a voice recognition result suitable for a conversation situation such as a scene or a context, and it is possible to provide a voice recognition device having high voice recognition accuracy. Since the situation determination means obtains the situation based on the content of the conversation, it is possible to estimate the situation from the content of the conversation itself and extract an appropriate voice recognition result.

第1の発明において、前記状況判定手段は、更に、取得される周囲の音に基づいて前記状況を求めてもよい。これにより、会話が行われている状況を周囲の音の特徴から取得できるため、より正確に音声認識結果を得ることができる。 Te first invention smell, before Symbol status determination unit may further determine the said status on the basis of the ambient sound to be acquired. As a result, the situation in which the conversation is taking place can be obtained from the characteristics of the surrounding sounds, so that the voice recognition result can be obtained more accurately.

また、前記状況判定手段は、更に、取得される画像に基づいて前記状況を求めてもよい。更に、前記状況判定手段は、更に、取得される位置情報に基づいて前記状況を求めてもよい。音の特徴のみならず、画像や位置情報等からも会話の状況を求めることで、状況を正確に求めることが可能となり、これにより正確な音声認識結果を得ることが可能となる。 Further, the situation determination means may further obtain the situation based on the acquired image. Further, the situation determination means may further obtain the situation based on the acquired position information. By obtaining the situation of conversation not only from the characteristics of sound but also from images, position information, etc., it is possible to accurately obtain the situation, and thereby it is possible to obtain an accurate voice recognition result.

第2の発明は、音声データを取得する音声取得手段と、取得した音声データを認識し、音声認識結果として複数の変換候補を求める音声認識手段と、音声データ取得時の状況を判定する状況判定手段と、前記音声認識手段により求めた複数の変換候補の中から前記状況判定手段により判定した状況に適した変換候補を抽出する抽出手段と、前記状況判定手段により判定した会話の状況の履歴を記憶する記憶手段と、を備え、前記抽出手段は、前記記憶手段に記憶された会話の状況の履歴に基づき、前記音声認識手段により求めた複数の変換候補の中から会話の状況に適した変換候補を抽出することを特徴とする音声認識装置である。
第2の発明によれば、会話の音声データを認識し、音声認識結果として複数の変換候補を求め、会話の状況(シーンやコンテキスト)を判定し、複数の変換候補の中から会話の状況に適した変換候補を抽出する。これにより、シーンやコンテキストといった会話の状況に適した音声認識結果を得ることが可能となり、音声認識精度の高い音声認識装置を提供できる。また、会話の状況の履歴から、話の流れを認識することが可能となり、コンテキストに適した音声認識結果をより正確に得ることが可能となる。
The second invention is a voice acquisition means for acquiring voice data, a voice recognition means for recognizing the acquired voice data and obtaining a plurality of conversion candidates as a voice recognition result, and a situation determination for determining a situation at the time of voice data acquisition. means and extraction means and the status of the history of the conversation was determined by pre-Symbol status determination means for extracting a conversion candidates for the situations determined by the condition determining means from among a plurality of conversion candidates obtained by the speech recognition means Bei example and a storage means to store, the extraction means, based on the status of the conversation history stored in the storage means, the status of the conversation from the plurality of conversion candidates obtained by the speech recognition means Rukoto to extract appropriate conversion candidate is a speech recognition apparatus according to claim.
According to the second invention, the voice data of the conversation is recognized, a plurality of conversion candidates are obtained as the voice recognition result, the conversation situation (scene or context) is determined, and the conversation situation is selected from the plurality of conversion candidates. Extract suitable conversion candidates. As a result, it becomes possible to obtain a voice recognition result suitable for a conversation situation such as a scene or a context, and it is possible to provide a voice recognition device having high voice recognition accuracy. In addition, it is possible to recognize the flow of the conversation from the history of the conversation situation, and it is possible to obtain a voice recognition result suitable for the context more accurately.

の発明は、コンピュータが、会話の音声データを取得するステップと、取得した音声データを認識し、音声認識結果として複数の変換候補を求めるステップと、会話の状況を判定するステップと、前記複数の変換候補の中から前記会話の状況に適した変換候補を抽出するステップと、状況と関連付けられた単語を記憶する記憶するステップと、を含み、前記状況を判定するステップは、前記単語を音声データから抽出し、前記単語に基づいて前記状況を判定することを特徴とする音声認識方法である。 A third invention includes a step in which a computer acquires voice data of a conversation, a step of recognizing the acquired voice data and obtaining a plurality of conversion candidates as a voice recognition result, and a step of determining a conversation situation. The step of determining the situation includes the step of extracting a conversion candidate suitable for the situation of the conversation from a plurality of conversion candidates and the step of memorizing the word associated with the situation, and the step of determining the situation includes the word. extracted from the voice data, a voice recognition method characterized by and this determines the status based on the word.

の発明によれば、コンピュータは、会話の音声データを認識し、音声認識結果として複数の変換候補を求め、会話の状況を判定し、複数の変換候補の中から会話の状況に適した変換候補を抽出する。これにより、シーンやコンテキストといった会話の状況に適した音声認識結果を得ることが可能となり、音声認識精度を向上させることが可能となる。前記状況を判定するステップは、会話の内容に基づいて前記状況を求めるので、会話の内容そのものから状況を推定し、適切な音声認識結果を抽出可能となる。 According to the third invention, the computer recognizes the voice data of the conversation, obtains a plurality of conversion candidates as the voice recognition result, determines the conversation situation, and is suitable for the conversation situation from the plurality of conversion candidates. Extract conversion candidates. As a result, it becomes possible to obtain a voice recognition result suitable for a conversation situation such as a scene or a context, and it is possible to improve the voice recognition accuracy. Since the step of determining the situation obtains the situation based on the content of the conversation, it is possible to estimate the situation from the content of the conversation itself and extract an appropriate voice recognition result.

の発明は、コンピュータを、会話の音声データを取得する音声取得手段、
取得した音声データを認識し、音声認識結果として複数の変換候補を求める音声認識手段、会話の状況を判定する状況判定手段、前記音声認識手段により求めた複数の変換候補の中から前記状況判定手段により判定した会話の状況に適した変換候補を抽出する抽出手段、状況と関連付けられた単語を記憶する記憶手段、として機能させるためのプログラムであって、前記状況判定手段は、前記単語を音声データから抽出し、前記単語に基づいて前記状況を判定することを特徴とするプログラムである。
A fourth invention is a voice acquisition means for acquiring voice data of conversation by using a computer.
The voice recognition means that recognizes the acquired voice data and obtains a plurality of conversion candidates as the voice recognition result, the situation determination means that determines the conversation situation, and the situation determination means from among the plurality of conversion candidates obtained by the voice recognition means. It is a program for functioning as an extraction means for extracting conversion candidates suitable for a conversation situation determined by the above, and a storage means for storing a word associated with the situation, and the situation determination means converts the word into voice data. It is a program characterized by extracting from and determining the situation based on the word.

の発明により、コンピュータを第1の発明の音声認識装置として機能させることが可能となる。 According to the fourth invention, the computer can function as the voice recognition device of the first invention.

本発明により、シーンやコンテキストといった状況に適した音声認識結果を得ることが可能な音声認識装置、音声認識方法、及びプログラムを提供できる。 INDUSTRIAL APPLICABILITY According to the present invention, it is possible to provide a voice recognition device, a voice recognition method, and a program capable of obtaining a voice recognition result suitable for a situation such as a scene or a context.

音声認識装置1の構成図Configuration diagram of voice recognition device 1 音声認識装置1として機能するコンピュータ10の構成図Configuration diagram of the computer 10 that functions as the voice recognition device 1. 音声認識装置1が実行する音声認識処理の流れを示すフローチャートA flowchart showing the flow of the voice recognition process executed by the voice recognition device 1. 音声認識の変換候補と会話のジャンルとを関連づけたデータであるジャンルデータ5の例Example of genre data 5 which is data that associates speech recognition conversion candidates with conversation genres 会話内容による状況判定結果、及び音による状況判定結果の具体例Specific examples of situation judgment results based on conversation content and situation judgment results based on sound 本発明に係る音声認識装置1を利用した音声認識システム100の例An example of a voice recognition system 100 using the voice recognition device 1 according to the present invention.

以下、図面に基づいて本発明の好適な実施形態について詳細に説明する。 Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明に係る音声認識装置1の構成を示す図である。音声認識装置1は、音声取得部21、音声認識部22、状況判定部23、音声認識結果抽出部24、出力部25、及び音解析部26を備える。また、これらの構成に加え、画像取得部27、画像解析部28、及び位置情報取得部29を備えてもよい。 FIG. 1 is a diagram showing a configuration of a voice recognition device 1 according to the present invention. The voice recognition device 1 includes a voice acquisition unit 21, a voice recognition unit 22, a situation determination unit 23, a voice recognition result extraction unit 24, an output unit 25, and a sound analysis unit 26. Further, in addition to these configurations, an image acquisition unit 27, an image analysis unit 28, and a position information acquisition unit 29 may be provided.

図2は、音声認識装置1として機能させるコンピュータ10の構成例を示す図である。図2に示すように、コンピュータ10は、制御部11、記憶部12、メディア入出力部13、周辺機器I/F部14、入力部15、表示部16、通信制御部17、マイク18等がバス19を介して接続されて構成される。コンピュータ10を音声認識装置1として機能させる場合、コンピュータ10の制御部11は、図1に示す音声認識装置1の各部(音声取得部21、音声認識部22、状況判定部23、音声認識結果抽出部24、出力部25、音解析部26、画像取得部27、画像解析部28、及び位置情報取得部29)の機能を記述したプログラムを実行する。 FIG. 2 is a diagram showing a configuration example of a computer 10 that functions as a voice recognition device 1. As shown in FIG. 2, the computer 10 includes a control unit 11, a storage unit 12, a media input / output unit 13, a peripheral device I / F unit 14, an input unit 15, a display unit 16, a communication control unit 17, a microphone 18, and the like. It is configured by being connected via a bus 19. When the computer 10 functions as the voice recognition device 1, the control unit 11 of the computer 10 uses each part (voice acquisition unit 21, voice recognition unit 22, situation determination unit 23, voice recognition result extraction) of the voice recognition device 1 shown in FIG. A program describing the functions of the unit 24, the output unit 25, the sound analysis unit 26, the image acquisition unit 27, the image analysis unit 28, and the position information acquisition unit 29) is executed.

制御部11は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access
Memory)等により構成される。
CPUは、記憶部12、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス19を介して接続された各部を駆動制御する。ROMは、コンピュータ10のブートプログラムやBIOS等のプログラム、データ等を恒久的に保持する。RAMは、ロードしたプログラムやデータを一時的に保持するとともに、制御部11が各種処理を行うために使用するワークエリアを備える。制御部11は、上記プログラムを読み出して実行することにより、図1に示す音声認識装置1の各部(音声取得部21、音声認識部22、状況判定部23、音声認識結果抽出部24、出力部25、及び音解析部26等)として機能する。すなわち、制御部11はマイク18または通信制御部17等から入力された音声データを取得し、取得した音声データについて後述する音声認識処理(図3参照)を実行する。
The control unit 11 includes a CPU (Central Processing Unit), a ROM (Read Only Memory), and a RAM (Random Access).
Memory) etc.
The CPU calls and executes a program stored in the storage unit 12, ROM, recording medium, etc. in the work memory area on the RAM, and drives and controls each unit connected via the bus 19. The ROM permanently holds a boot program of the computer 10, a program such as a BIOS, data, and the like. The RAM temporarily holds the loaded program and data, and also includes a work area used by the control unit 11 to perform various processes. By reading and executing the above program, the control unit 11 reads and executes each unit of the voice recognition device 1 shown in FIG. 1 (sound acquisition unit 21, voice recognition unit 22, situation determination unit 23, voice recognition result extraction unit 24, output unit). 25, and the sound analysis unit 26, etc.). That is, the control unit 11 acquires the voice data input from the microphone 18 or the communication control unit 17, and executes the voice recognition process (see FIG. 3) described later for the acquired voice data.

記憶部12は、例えば、ハードディスクドライブ等の記憶装置である。記憶部12には制御部11が実行するプログラムや、プログラム実行に必要なデータ、オペレーティングシステム等が格納されている。これらのプログラムコードは、制御部11により必要に応じて読み出されてRAMに移され、CPUに読み出されて実行される。 The storage unit 12 is, for example, a storage device such as a hard disk drive. The storage unit 12 stores a program executed by the control unit 11, data necessary for executing the program, an operating system, and the like. These program codes are read by the control unit 11 as necessary, transferred to the RAM, read by the CPU, and executed.

メディア入出力部13は、例えば、CD、DVD、MO等の各種記録媒体(メディア)のドライブ装置であり、メディアに対してデータの入出力(書込み/読み出し)を行う。 The media input / output unit 13 is, for example, a drive device for various recording media (media) such as a CD, DVD, and MO, and inputs / outputs (writes / reads) data to / from the media.

周辺機器I/F(インタフェース)部14は、周辺機器を接続させるためのポートであり、周辺機器I/F部14を介して周辺機器とのデータの送受信を行う。周辺機器I/F部14は、USB等で構成されており、通常複数の周辺機器I/Fを有する。周辺機器との接続形態は有線、無線を問わない。 The peripheral device I / F (interface) unit 14 is a port for connecting peripheral devices, and transmits / receives data to / from the peripheral device via the peripheral device I / F unit 14. The peripheral device I / F unit 14 is composed of USB or the like, and usually has a plurality of peripheral device I / Fs. The connection form with peripheral devices may be wired or wireless.

入力部15は、例えば、キーボード、マウス等のポインティング・デバイス、テンキー等の入力装置であり、入力されたデータを制御部11へ出力する。
表示部16は、例えば液晶パネル、CRTモニタ等のディスプレイ装置と、ディスプレイ装置と連携して表示処理を実行するための論理回路(ビデオアダプタ等)で構成され、制御部11の制御により入力された表示情報をディスプレイ装置上に表示させる。なお、入力部15及び表示部16は、表示画面にタッチパネル等の入力装置を一体的に設けたタッチパネルディスプレイとしてもよい。
The input unit 15 is, for example, a pointing device such as a keyboard and a mouse, an input device such as a numeric keypad, and outputs the input data to the control unit 11.
The display unit 16 is composed of, for example, a display device such as a liquid crystal panel or a CRT monitor, and a logic circuit (video adapter or the like) for executing display processing in cooperation with the display device, and is input under the control of the control unit 11. Display the display information on the display device. The input unit 15 and the display unit 16 may be a touch panel display in which an input device such as a touch panel is integrally provided on the display screen.

通信制御部17は、通信制御装置、通信ポート等を有し、ネットワーク3等との通信を制御する。
マイク18は、音声を収集し、音声データとして制御部11に入力する。
バス19は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
The communication control unit 17 has a communication control device, a communication port, and the like, and controls communication with the network 3 and the like.
The microphone 18 collects voice and inputs it to the control unit 11 as voice data.
The bus 19 is a route that mediates the transfer of control signals, data signals, and the like between the devices.

図1を参照して本発明に係る音声認識装置1の機能構成を説明する。
音声取得部21は、会話の音声データを取得する。会話の音声データは、音声認識装置1がマイク18を備えるものであれば、マイク18から入力された音声データでもよいし、通信制御部17及びネットワーク3を介して音声認識装置1と通信接続された機器とから入力されたものでもよい。
The functional configuration of the voice recognition device 1 according to the present invention will be described with reference to FIG.
The voice acquisition unit 21 acquires the voice data of the conversation. The voice data of the conversation may be voice data input from the microphone 18 as long as the voice recognition device 1 includes the microphone 18, or is communicated and connected to the voice recognition device 1 via the communication control unit 17 and the network 3. It may be input from the device.

音声認識部22は、取得した音声データのユーザの発話の内容を音声認識し、音声認識結果として1または複数の変換候補を求める。音声認識部22は、発話の音声データと語とを対応付けた発話辞書や、音響モデル、言語モデル等の音声認識用データを有し、これらの音声認識用データを用いて、発話の音響や言語を解析し、発話の内容をテキストに変換する音声認識処理を行う。音声認識結果であるテキストは、状況判定部23の会話内容判定部231に出力される。 The voice recognition unit 22 voice-recognizes the content of the user's utterance of the acquired voice data, and obtains one or a plurality of conversion candidates as the voice recognition result. The voice recognition unit 22 has voice recognition data such as a speech dictionary, an acoustic model, a language model, etc., which associates speech data with words, and uses these speech recognition data to perform speech sound and Performs voice recognition processing that analyzes the language and converts the content of the utterance into text. The text that is the voice recognition result is output to the conversation content determination unit 231 of the situation determination unit 23.

状況判定部23は、会話の状況を判定する。会話の状況とは、具体的には、会話の内容(ジャンル)、及び会話が行われている場所や目的等の周囲状況(シーン)である。図1に示すように、状況判定部23は、会話内容を判定するための会話内容判定部231と、周囲状況を判定するための周囲状況判定部232とを有する。 The situation determination unit 23 determines the situation of the conversation. Specifically, the conversation situation is the content (genre) of the conversation and the surrounding situation (scene) such as the place and purpose where the conversation is taking place. As shown in FIG. 1, the situation determination unit 23 includes a conversation content determination unit 231 for determining the conversation content and a surrounding situation determination unit 232 for determining the surrounding situation.

会話内容判定部231は、会話の文に含まれる単語を解析することにより、会話の内容を求める。ここで求める会話の内容とは、話のジャンルまたは目的等である。ジャンルとは、「観光」、「ゲーム」、「飲食」、「映画」、「学校」、「医療」、…等のように、何についての会話であるかを示す分類である。目的とは、「接客」や「雑談」等のように会話がどのような目的で行われているかを示す分類である。会話内容判定部231は、例えば、単語とジャンルとを関連付けたデータをジャンルデータ5(図4参照)として記憶部12に予め記憶しており、このジャンルデータ5を参照することにより会話の内容(ジャンル)を判定する。各単語は複数のジャンルに跨って含まれていてもよい。会話内容判定部231は、音声認識結果として得られる1または複数の文に含まれる単語から、会話内容の候補を求める。また、判定対象とする文だけでなく、それより前に入力された音声データから認識された文(音声認識結果)を判定対象に含むようにすることが望ましい。これにより、コンテキスト(文脈)を考慮して会話の内容を求めることができる。 The conversation content determination unit 231 obtains the content of the conversation by analyzing the words included in the sentence of the conversation. The content of the conversation requested here is the genre or purpose of the conversation. A genre is a classification that indicates what a conversation is about, such as "sightseeing," "game," "food and drink," "movie," "school," "medical care," and so on. The purpose is a classification indicating the purpose of the conversation, such as "customer service" or "chat". For example, the conversation content determination unit 231 stores in advance the data associated with the word and the genre as the genre data 5 (see FIG. 4) in the storage unit 12, and by referring to the genre data 5, the conversation content (see FIG. 4). Genre) is judged. Each word may be included across a plurality of genres. The conversation content determination unit 231 obtains a candidate for conversation content from words included in one or a plurality of sentences obtained as a voice recognition result. Further, it is desirable that not only the sentence to be judged but also the sentence recognized from the voice data input before that (speech recognition result) is included in the judgment target. As a result, the content of the conversation can be obtained in consideration of the context.

周囲状況判定部232は、会話の音声データが入力されたときの周囲の音データの特徴に基づいて場所等の周囲状況を求める。音解析部26は、音声取得部21により取得した音声データから周囲の音データを抽出し、この周囲の音データの特徴を抽出し、周囲状況判定部232に出力する。周囲状況判定部232は、抽出した音データの特徴と状況とを関連付けたデータを音解析用データとして記憶部12に予め記憶しており、この音解析用データに基づいて会話の周囲状況を判定する。例えば、「レストラン」の音解析用データには、食器等の音やテーブルでの会話、接客の音等の特徴が含まれる。また「アミューズメントパーク」の音解析用データには、歓声やアトラクションの音等の特徴が含まれる。周囲状況判定部232は、音データの特徴から1または複数の周囲状況の候補を求める。 The surrounding condition determination unit 232 obtains the surrounding condition such as a place based on the characteristics of the surrounding sound data when the voice data of the conversation is input. The sound analysis unit 26 extracts ambient sound data from the voice data acquired by the voice acquisition unit 21, extracts features of the surrounding sound data, and outputs the characteristics to the ambient condition determination unit 232. The surrounding situation determination unit 232 stores in advance in the storage unit 12 data that associates the characteristics and the situation of the extracted sound data as sound analysis data, and determines the surrounding situation of the conversation based on the sound analysis data. To do. For example, the sound analysis data of a "restaurant" includes features such as the sound of tableware, conversation at a table, and the sound of customer service. In addition, the sound analysis data of the "amusement park" includes features such as cheers and attraction sounds. The ambient condition determination unit 232 obtains one or a plurality of candidates for the ambient condition from the characteristics of the sound data.

なお、周囲状況判定部232は、音解析のみならず、画像や位置情報に基づいて周囲状況を判定してもよい。具体的には、図1に示すように画像取得部27により会話中の様子や場所を撮影した画像(映像または静止画)等を解析する画像解析部28を備え、画像解析部28によって会話の場所や目的等、周囲状況を判定してもよい。また、GPS(Global Positioning System)等の位置情報取得部29を更に備え、周囲状況判定部232は、位置情報及び地図データ等に基づいて会話の場所(店舗や施設)等を求めることにより周囲状況を求めてもよい。 The surrounding situation determination unit 232 may determine the surrounding situation based not only on the sound analysis but also on the image and the position information. Specifically, as shown in FIG. 1, an image analysis unit 28 that analyzes an image (video or still image) of a state or place during a conversation by the image acquisition unit 27 is provided, and the image analysis unit 28 talks. Surrounding conditions such as location and purpose may be determined. Further, a position information acquisition unit 29 such as GPS (Global Positioning System) is further provided, and the surrounding condition determination unit 232 obtains a conversation place (store or facility) or the like based on the position information, map data, or the like to obtain the surrounding condition. May be sought.

音声認識結果抽出部24は、音声認識部22により求めた複数の変換候補の中から状況判定部23により判定した会話の状況に適した変換候補を抽出する。変換候補の抽出については後述する。 The voice recognition result extraction unit 24 extracts conversion candidates suitable for the conversation situation determined by the situation determination unit 23 from the plurality of conversion candidates obtained by the voice recognition unit 22. The extraction of conversion candidates will be described later.

出力部25は、音声認識結果抽出部24により抽出した変換候補(テキスト)を出力する。出力は、表示部16への表示や、制御部11への通知、ネットワーク3を介した通信接続先への送信等、当該音声認識装置1に接続された各種機器に対する制御情報としての送信等も含むものとする。 The output unit 25 outputs conversion candidates (text) extracted by the voice recognition result extraction unit 24. The output also includes display on the display unit 16, notification to the control unit 11, transmission to the communication connection destination via the network 3, transmission as control information to various devices connected to the voice recognition device 1, and the like. It shall include.

次に、図3を参照して、音声認識装置1が実行する音声認識処理について説明する。
制御部11は、記憶部12から図3に示す音声認識処理に関するプログラム及びデータを読み出し、このプログラム及びデータに基づいて処理を実行する。
Next, the voice recognition process executed by the voice recognition device 1 will be described with reference to FIG.
The control unit 11 reads out the program and data related to the voice recognition process shown in FIG. 3 from the storage unit 12, and executes the process based on the program and data.

まず制御部11(音声取得部21)は、会話の音声データを取得する(ステップS101)。音声データは、マイク18から入力されたものでもよいし、通信制御部17及びネットワーク3を介して音声認識装置1と通信接続された機器から入力されたものでもよい。制御部11(音声認識部22)は、取得した音声データについて音声認識を行う(ステップS102)。ステップS102では、制御部11(音声認識部22)は、音声データに含まれる会話の音声を認識し、テキストに変換する処理を行う。制御部11(音声認識部22)は、音声認識処理の結果、1または複数の変換候補を得る。複数の変換候補がある場合に、ステップS103〜ステップS104の処理により会話の状況を判定する。 First, the control unit 11 (voice acquisition unit 21) acquires the voice data of the conversation (step S101). The voice data may be input from the microphone 18 or may be input from a device communicatively connected to the voice recognition device 1 via the communication control unit 17 and the network 3. The control unit 11 (voice recognition unit 22) performs voice recognition on the acquired voice data (step S102). In step S102, the control unit 11 (voice recognition unit 22) performs a process of recognizing the voice of the conversation included in the voice data and converting it into text. The control unit 11 (speech recognition unit 22) obtains one or a plurality of conversion candidates as a result of the voice recognition process. When there are a plurality of conversion candidates, the conversation status is determined by the processes of steps S103 to S104.

制御部11(状況判定部23の会話内容判定部231)は、会話の状況として、会話の内容(ジャンル等)を判定する(ステップS103)。制御部11(会話内容判定部231)は、ステップS102の音声認識の結果(変換候補)に含まれる語の意味を解析することにより、会話の内容を求める。ここで求める会話の内容とは、会話のジャンルまたは目的等である。会話内容判定部231は、例えば、記憶部12に予め記憶されているジャンルデータ5を参照することにより会話の内容(ジャンル)を判定する。 The control unit 11 (conversation content determination unit 231 of the situation determination unit 23) determines the conversation content (genre, etc.) as the conversation status (step S103). The control unit 11 (conversation content determination unit 231) obtains the conversation content by analyzing the meaning of the word included in the voice recognition result (conversion candidate) in step S102. The content of the conversation requested here is the genre or purpose of the conversation. The conversation content determination unit 231 determines the content (genre) of the conversation by referring to the genre data 5 stored in advance in the storage unit 12, for example.

ジャンルデータ5は、図4に示すように、単語の読み(音声認識結果)について1または複数の変換候補となる語と、その語のジャンルとを関連付けたデータである。例えば、音声認識結果「たいけん」の変換候補は、「大剣」と「体験」等があり、変換候補「大剣」のジャンルは「RPG(ゲーム)」、変換候補「体験」のジャンルは「観光」である。このように、ひとつの音声認識結果について1または複数の変換候補と各変換候補に応じたジャンルが格納されている。各変換候補について複数のジャンルが関連づけられていてもよい。会話内容判定部231は、ジャンルデータ5を参照することにより、音声認識結果について、1または複数の会話内容の候補(ジャンル候補)を求める。例えば、音声認識結果「おすすめのたいけんはありますか」であれば、「たいけん」という語が含まれるため、ジャンル候補として、「RPG(ゲーム)」と「観光」が求められる。 As shown in FIG. 4, the genre data 5 is data in which one or a plurality of conversion candidate words for word reading (speech recognition result) are associated with the genre of the word. For example, the conversion candidates for the voice recognition result "Taiken" include "Daiken" and "Experience", the genre of the conversion candidate "Daiken" is "RPG (game)", and the genre of the conversion candidate "Experience" is. It is "sightseeing". In this way, one or a plurality of conversion candidates and genres corresponding to each conversion candidate are stored for one voice recognition result. Multiple genres may be associated with each conversion candidate. The conversation content determination unit 231 obtains one or a plurality of conversation content candidates (genre candidates) for the voice recognition result by referring to the genre data 5. For example, if the voice recognition result is "Do you have a recommended Taiken?", The word "Taken" is included, so "RPG (game)" and "sightseeing" are required as genre candidates.

次に、制御部11(状況判定部23の周囲状況判定部232)は、周囲の状況を判定する(ステップS104)。制御部11(周囲状況判定部232)は、会話の音声データが入力されたときの周囲の音の特徴を解析し、音の特徴に基づいて場所等の周囲状況を求める。例えば、「レストラン」で収録された音には、食器等の音や接客の音等の特徴が含まれている。周囲状況判定部232は、音の特徴と状況とを関連付けたデータを音特徴データとして記憶部12に予め記憶しており(不図示)、この音特徴データに基づいて会話の周囲状況を判定するようにしてもよい。制御部11(周囲状況判定部232)は、1または複数の周囲状況の候補を求める。なお、周囲状況は、場所に限定されず、「接客」、「授業」、「雑談」等のように、会話の目的等としてもよい。制御部11は、音の特徴解析による周囲状況の判定結果として、例えば、「観光案内所」、「接客」等を得る。 Next, the control unit 11 (surrounding situation determination unit 232 of the situation determining unit 23) determines the surrounding situation (step S104). The control unit 11 (surrounding condition determination unit 232) analyzes the characteristics of the surrounding sound when the voice data of the conversation is input, and obtains the surrounding condition such as a place based on the characteristics of the sound. For example, the sounds recorded in the "restaurant" include features such as the sound of tableware and the sound of customer service. The surrounding situation determination unit 232 stores in advance the data associated with the sound feature and the situation in the storage unit 12 as sound feature data (not shown), and determines the surrounding situation of the conversation based on the sound feature data. You may do so. The control unit 11 (surrounding condition determination unit 232) seeks one or a plurality of candidates for surrounding conditions. The surrounding situation is not limited to the place, and may be the purpose of conversation such as "customer service", "class", "chat" and the like. The control unit 11 obtains, for example, a "tourist information center", a "customer service", etc. as a result of determining the surrounding situation by analyzing the characteristics of the sound.

なお、制御部11(周囲状況判定部232)は、周囲の音の特徴のみならず、画像や位置情報に基づいて周囲状況を判定してもよい。具体的には、画像取得部27(カメラ等)により会話中の様子を撮影した映像(画像)等を取得し、解析する画像解析部28を備え、画像解析部28によって会話の音声データが入力されたときの会話の場所や目的等、周囲状況を求めてもよい。また、GPS等の位置情報を取得し、位置情報及び予め記憶されている地図データに基づいて会話の場所(店舗や施設)等を求めることにより周囲状況を求めてもよい。 The control unit 11 (surrounding condition determination unit 232) may determine the surrounding condition based on not only the characteristics of the surrounding sound but also the image and the position information. Specifically, the image analysis unit 28 is provided with an image analysis unit 28 that acquires and analyzes a video (image) of a conversation taken by an image acquisition unit 27 (camera or the like), and the image analysis unit 28 inputs conversation audio data. You may ask for the surrounding situation, such as the place and purpose of the conversation when the conversation was held. Further, the surrounding situation may be obtained by acquiring the position information such as GPS and obtaining the place of conversation (store or facility) or the like based on the position information and the map data stored in advance.

制御部11(音声認識結果抽出部24)は、ステップS102で得た音声認識結果の複数の変換候補のうち、ステップS103及びステップS104において求めた会話の状況(会話内容(ジャンル)及び周囲状況)に適した変換候補を抽出する(ステップS105)。例えば、音声認識結果が「おすすめのたいけんはありますか」の場合、この文に含まれる「たいけん」の語には、「大剣」と「体験」の変換候補がある。ステップS103で会話の内容が「RPG(ゲーム)」、「観光」、…と判定され、ステップS104で周囲の状況が「観光」、「接客」、…と判定された場合、制御部11は会話内容のジャンルと周囲状況とをマッチングし、尤度の高いジャンルの語を抽出する。上記例では、会話の状況として「観光」が尤もらしいと判定されるため、変換候補「体験」を選択し、入力音声の音声認識結果として「おすすめの体験はありますか」を得る。 The control unit 11 (speech recognition result extraction unit 24) has the conversation status (conversation content (genre) and surrounding situation) obtained in steps S103 and S104 among the plurality of conversion candidates of the voice recognition result obtained in step S102. Conversion candidates suitable for the above are extracted (step S105). For example, if the voice recognition result is "Do you have a recommended taiken?", The word "taiken" included in this sentence has conversion candidates of "big sword" and "experience". When the content of the conversation is determined to be "RPG (game)", "sightseeing", ... In step S103, and the surrounding situation is determined to be "sightseeing", "customer service", ... In step S104, the control unit 11 talks. Match the genre of the content with the surrounding situation and extract words of the genre with high probability. In the above example, since "sightseeing" is judged to be plausible as the conversation situation, the conversion candidate "experience" is selected, and "Do you have a recommended experience?" Is obtained as the voice recognition result of the input voice.

制御部11は、ステップS103及びステップS104で判定した状況(上記例では、「観光」)を状況履歴データとして時間情報(音声データの入力時刻等)と関連付けて記憶部12に保存する(ステップS106)。 The control unit 11 stores the situation determined in steps S103 and S104 (“sightseeing” in the above example) as situation history data in the storage unit 12 in association with time information (input time of voice data, etc.) (step S106). ).

制御部11(出力部25)は、ステップS105で抽出した音声認識結果を出力する。出力は、表示部16への表示や、制御部11への通知、ネットワーク3を介した通信接続先への送信等、当該音声認識装置1に接続された各種機器への制御信号の送信等も含むものとする。 The control unit 11 (output unit 25) outputs the voice recognition result extracted in step S105. The output also includes display on the display unit 16, notification to the control unit 11, transmission to the communication connection destination via the network 3, transmission of control signals to various devices connected to the voice recognition device 1, and the like. It shall include.

音声認識結果を出力すると、入力された音声データに対する音声認識処理を終了する。 When the voice recognition result is output, the voice recognition process for the input voice data is terminated.

なお、上述の音声認識処理において、ステップS106で保存した履歴に基づき、会話内容を判定するようにしてもよい。すなわち、ステップS103において、前の文までの会話の状況の履歴が保存されている場合は、制御部11は、前の文までの会話の状況から会話の内容(ジャンル)を絞り込んでもよい。 In the above-mentioned voice recognition process, the conversation content may be determined based on the history saved in step S106. That is, in step S103, when the history of the conversation status up to the previous sentence is saved, the control unit 11 may narrow down the conversation content (genre) from the conversation status up to the previous sentence.

例えば、図5に示すように、17時50分に「いらっしゃいませ」、「何かお探しですか」という会話の音声が入力され、17時50分における音声(「いらっしゃいませ」、「何かお探しですか」)の状況として、「店」、「ファミレス」、「ドラッグストア」等の会話ジャンルが求められるものとする。会話ジャンルの各候補にはそれぞれ尤度が付与されているものとする。例えば、語「いらっしゃいませ」に対する会話ジャンル「店」の尤度は「1.0」であり、「ファミレス」の尤度は「0.9」であり、「ドラッグストア」の尤度は「0.9」、…等である。尤度は、例えば語とジャンルとを対応付けたジャンルデータ5に予め付与されているものとする。また、17時50分における音解析による状況判定結果として、「観光案内所」と「受付」が尤度とともに求められる。例えば、「観光案内所」の尤度は「0.8」、「受付」の尤度は「0.5」のように求められるものとする。この音解析による状況判定結果の尤度は、入力された音と予め記憶されている音特徴データとの一致度等から付与するものとすればよい。 For example, as shown in FIG. 5, the voices of conversations such as "Welcome" and "Are you looking for something" are input at 17:50, and the voices at 17:50 ("Welcome", "Something"). As for the situation of "Are you looking for?"), Conversation genres such as "store", "family restaurant", and "drug store" are required. It is assumed that each candidate of the conversation genre is given a likelihood. For example, the likelihood of the conversation genre "store" for the word "welcome" is "1.0", the likelihood of "family restaurant" is "0.9", and the likelihood of "drugstore" is "0". .9 ", ... and so on. It is assumed that the likelihood is given in advance to the genre data 5 in which words and genres are associated with each other, for example. In addition, as a situation determination result by sound analysis at 17:50, "tourist information center" and "reception" are obtained together with the likelihood. For example, the likelihood of "tourist information center" is calculated as "0.8", and the likelihood of "reception" is calculated as "0.5". The likelihood of the situation determination result by this sound analysis may be given from the degree of coincidence between the input sound and the sound feature data stored in advance.

次に、17時56分に「○○レジャー施設はどこですか」、「ここから5分の場所にあります」という会話の音声が入力される。制御部11は、17時56分における会話のジャンルを「遊園地」、「観光」等と判定する。それぞれの尤度は「遊園地」が「0.9」、「観光」が「0.8」とする。また17時56分における音解析による状況判定結果として、「観光案内所」、「店頭」、「接客」を得る。「観光案内所」の尤度は「0.8」、「店頭」の尤度は「0.8」、「接客」の尤度は「0.7」であるとする。 Next, at 17:56, the voice of the conversation "Where is the XX leisure facility?" And "It is 5 minutes from here" is input. The control unit 11 determines that the genre of conversation at 17:56 is "amusement park", "sightseeing", or the like. The likelihood of each is "0.9" for "amusement park" and "0.8" for "sightseeing". In addition, as the situation judgment result by sound analysis at 17:56, "tourist information center", "storefront", and "customer service" are obtained. It is assumed that the likelihood of "tourist information center" is "0.8", the likelihood of "storefront" is "0.8", and the likelihood of "customer service" is "0.7".

その後、18時00分に、処理対象である「おすすめのたいけんはありますか」という音声が入力されるものとする。制御部11は、18時00分における会話のジャンルを「RPG(ゲーム)」、「観光」等と判定する。それぞれの尤度として「RPG(ゲーム)」は「0.5」、「観光」は「0.2」を得るものとする。また18時00分における音解析による状況判定結果として、「観光案内所」、「接客」を得る。「観光案内所」の尤度は「0.8」、「接客」の尤度は「0.7」であるとする。 After that, at 18:00, it is assumed that the voice "Do you have a recommended taken?" To be processed is input. The control unit 11 determines that the genre of conversation at 18:00 is "RPG (game)", "sightseeing", or the like. It is assumed that "RPG (game)" obtains "0.5" and "sightseeing" obtains "0.2" as their respective likelihoods. In addition, "tourist information center" and "customer service" are obtained as the situation judgment result by sound analysis at 18:00. It is assumed that the likelihood of "tourist information center" is "0.8" and the likelihood of "customer service" is "0.7".

「たいけん」の各変換候補(「大剣」、「体験」)の会話内容に基づく尤度は、RPG(ゲーム)は「0.5」、観光は「0.2」であるが、音による状況判定では、RPG(ゲーム)という候補はなし(尤度「0」)、観光(観光案内所)は尤度「0.8」である。これらを併せると、
「RPG(ゲーム)」の尤度=会話内容「0.5」+音判定「0」=0.5
「観光」の尤度=会話内容「0.2」+音判定「0.8」=1.0
となる。
The likelihood based on the conversation content of each conversion candidate ("big sword", "experience") of "taiken" is "0.5" for RPG (game) and "0.2" for sightseeing, but the sound In the situation judgment by, there is no candidate for RPG (game) (likelihood "0"), and tourism (tourist information center) has a likelihood "0.8". Taken together,
Likelihood of "RPG (game)" = conversation content "0.5" + sound judgment "0" = 0.5
Likelihood of "sightseeing" = conversation content "0.2" + sound judgment "0.8" = 1.0
Will be.

したがって、状況としては「RPG(ゲーム)」よりも「観光」の尤度が高く適切である。従って、制御部11は、「たいけん」の変換結果(音声認識結果)としては「体験」が適していると判断する。このように、音声認識や音判定の履歴を遡って状況判定に利用すれば、コンテキスト(文脈、会話の流れ)を考慮した音声認識結果を得ることが可能となる。例えば最近の「RPG(ゲーム)」「観光」のコンテキストの履歴を見ると「観光」が多く出現するので、この値(=重み)を音声認識や音判定の尤度に掛け合わせて足したものを比較し判定することもできる。
「RPG(ゲーム)」の尤度=(会話内容「0.5」+音判定「0」)×ゲームのコンテキストの重み「0」=0
「観光」の尤度=(会話内容「0.2」+音判定「0.8」)×観光のコンテキストの重み「0.7」=0.7
Therefore, as a situation, the likelihood of "sightseeing" is higher than that of "RPG (game)" and it is appropriate. Therefore, the control unit 11 determines that "experience" is suitable as the conversion result (speech recognition result) of "taiken". In this way, if the history of voice recognition and sound judgment is traced back and used for situation judgment, it is possible to obtain a voice recognition result in consideration of the context (context, flow of conversation). For example, if you look at the history of recent "RPG (game)" and "sightseeing" contexts, many "sightseeing" will appear, so this value (= weight) is multiplied by the likelihood of voice recognition and sound judgment and added. Can also be compared and judged.
Likelihood of "RPG (game)" = (conversation content "0.5" + sound judgment "0") x game context weight "0" = 0
Likelihood of "sightseeing" = (conversation content "0.2" + sound judgment "0.8") x tourism context weight "0.7" = 0.7

以上説明したように、本実施の形態の音声認識装置1は、会話の音声データを認識し、音声認識結果として複数の変換候補を求め、音声認識の結果のみならず周囲音等を考慮して会話の状況を判定することにより、複数の変換候補の中から会話の状況に適した候補を抽出する。これにより、会話の状況に適した音声認識結果を得ることが可能となり、音声認識精度を向上できる。 As described above, the voice recognition device 1 of the present embodiment recognizes the voice data of the conversation, obtains a plurality of conversion candidates as the voice recognition result, and considers not only the voice recognition result but also the ambient sound and the like. By judging the conversation situation, a candidate suitable for the conversation situation is extracted from a plurality of conversion candidates. As a result, it becomes possible to obtain a voice recognition result suitable for the conversation situation, and it is possible to improve the voice recognition accuracy.

なお、本発明の音声認識装置1をスマートフォン2やタブレット等の通信機器や、インターネット等のネットワーク3に接続されたPC(Personal Computer)7に適用する場合において、図6に示す音声認識システム100のように、スマートフォン2等からアクセス可能なサーバに本発明に係る音声認識装置1の各機能部(音声取得部21、音声認識部22、状況判定部23、音声認識結果抽出部24、出力部25、音解析部26等)を備える構成としてもよい。すなわち、スマートフォン2、PC7等はマイク18から入力された会話の音声データをネットワーク3を介して音声認識装置1(サーバ)に送信すると、音声認識装置1は、図3に示す音声認識処理を実行し、音声認識結果を音声入力元のスマートフォン2等に返すものとしてもよい。 When the voice recognition device 1 of the present invention is applied to a communication device such as a smartphone 2 or a tablet, or a PC (Personal Computer) 7 connected to a network 3 such as the Internet, the voice recognition system 100 shown in FIG. As described above, each functional unit (speech acquisition unit 21, voice recognition unit 22, situation determination unit 23, voice recognition result extraction unit 24, output unit 25) of the voice recognition device 1 according to the present invention can access the server accessible from the smartphone 2 or the like. , Sound analysis unit 26, etc.) may be provided. That is, when the smartphone 2, PC 7, and the like transmit the voice data of the conversation input from the microphone 18 to the voice recognition device 1 (server) via the network 3, the voice recognition device 1 executes the voice recognition process shown in FIG. Then, the voice recognition result may be returned to the voice input source smartphone 2 or the like.

また、本発明に係る音声認識装置1は、対話型ロボット6に適用してもよい。この場合、本発明に係る音声認識装置1の各機能(音声取得部21(マイク)、音声認識部22、状況判定部23、音声認識結果抽出部24、出力部25、音解析部26、画像取得部27(カメラ)、画像解析部28、位置情報取得部29)をロボット6が備える構成とする。或いは、対話型ロボット6の音声取得部21(マイク)、画像取得部27(カメラ)から入力された音声や画像を、サーバ(音声認識装置1)に送信し、サーバ(音声認識装置1)は、図3に示す音声認識処理を実行し、音声認識結果を音声入力元の対話型ロボット6に返すものとしてもよい。 Further, the voice recognition device 1 according to the present invention may be applied to the interactive robot 6. In this case, each function of the voice recognition device 1 according to the present invention (voice acquisition unit 21 (microphone), voice recognition unit 22, situation determination unit 23, voice recognition result extraction unit 24, output unit 25, sound analysis unit 26, image The robot 6 includes an acquisition unit 27 (camera), an image analysis unit 28, and a position information acquisition unit 29). Alternatively, the voice or image input from the voice acquisition unit 21 (microphone) and the image acquisition unit 27 (camera) of the interactive robot 6 is transmitted to the server (voice recognition device 1), and the server (voice recognition device 1) sends the voice or image. , The voice recognition process shown in FIG. 3 may be executed, and the voice recognition result may be returned to the interactive robot 6 that is the voice input source.

その他、本発明に係る音声認識装置1は、カーナビゲーションシステム等の各種情報機器や家電等に適用することも可能である。 In addition, the voice recognition device 1 according to the present invention can also be applied to various information devices such as car navigation systems, home appliances, and the like.

以上、添付図面を参照して、本発明に係る音声認識装置等の好適な実施形態について説明したが、本発明は係る例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。 Although preferred embodiments of the voice recognition device and the like according to the present invention have been described above with reference to the accompanying drawings, the present invention is not limited to the above examples. It is clear that a person skilled in the art can come up with various modifications or modifications within the scope of the technical idea disclosed in the present application, and these also naturally belong to the technical scope of the present invention. Understood.

1………………音声認識装置
10……………コンピュータ
11……………制御部
12……………記憶部
13……………メディア入出力部
14……………周辺機器I/F部
15……………入力部
16……………表示部
17……………通信制御部
18……………マイク
19……………バス
21……………音声取得部
22……………音声認識部
23……………状況判定部
231…………会話内容判定部
232…………周囲状況判定部
24……………音声認識結果抽出部
25……………出力部
26……………音解析部
27……………画像取得部
28……………画像解析部
29……………位置情報取得部
3………………ネットワーク
5………………ジャンルデータ
6………………対話型ロボット
7………………PC
100…………音声認識システム
1 ……………… Voice recognition device 10 ……………… Computer 11 ……………… Control unit 12 ……………… Storage unit 13 ……………… Media input / output unit 14 ……………… Peripheral Equipment I / F section 15 ……………… Input section 16 ……………… Display section 17 ……………… Communication control section 18 ……………… Microphone 19 ……………… Bus 21 ……………… Voice acquisition unit 22 ……………… Voice recognition unit 23 ……………… Situation judgment unit 231 ………… Conversation content judgment unit 232 ………… Surrounding situation judgment unit 24 ……………… Voice recognition result extraction unit 25 ……………… Output unit 26 ……………… Sound analysis unit 27 ……………… Image acquisition unit 28 ……………… Image analysis unit 29 ……………… Position information acquisition unit 3 ………… …… Network 5 ……………… Genre data 6 ……………… Interactive robot 7 ……………… PC
100 ………… Voice recognition system

Claims (8)

音声データを取得する音声取得手段と、
取得した音声データを認識し、音声認識結果として複数の変換候補を求める音声認識手段と、
音声データ取得時の状況を判定する状況判定手段と、
前記音声認識手段により求めた複数の変換候補の中から前記状況判定手段により判定した状況に適した変換候補を抽出する抽出手段と、
状況と関連付けられた単語を記憶する記憶手段を備え、
前記状況判定手段は、前記単語を音声データから抽出し、前記単語に基づいて前記状況を判定することを特徴とする音声認識装置。
Voice acquisition means to acquire voice data and
A voice recognition means that recognizes the acquired voice data and seeks multiple conversion candidates as the voice recognition result.
Situation determination means for determining the situation at the time of voice data acquisition,
An extraction means for extracting a conversion candidate suitable for the situation determined by the situation determination means from a plurality of conversion candidates obtained by the voice recognition means, and an extraction means.
Equipped with a memory means to memorize the words associated with the situation
The situation determining means, the word extracted from the voice data, the voice recognition device comprising a call determines the status based on the word.
前記状況判定手段は、更に、取得される周囲の音に基づいて前記状況を判定することを特徴とする請求項に記載の音声認識装置。 The voice recognition device according to claim 1 , wherein the situation determination means further determines the situation based on the acquired ambient sound. 前記状況判定手段は、更に、取得される画像に基づいて前記状況を判定することを特徴とする請求項または請求項に記載の音声認識装置。 The voice recognition device according to claim 1 or 2 , wherein the situation determination means further determines the situation based on the acquired image. 前記状況判定手段は、更に、取得される位置情報に基づいて前記状況を判定することを特徴とする請求項から請求項のいずれかに記載の音声認識装置。 The situation determining means further speech recognition apparatus according to any one of claims 1 to 3, characterized in that determining the status based on the position information obtained. 音声データを取得する音声取得手段と、
取得した音声データを認識し、音声認識結果として複数の変換候補を求める音声認識手段と、
音声データ取得時の状況を判定する状況判定手段と、
前記音声認識手段により求めた複数の変換候補の中から前記状況判定手段により判定した状況に適した変換候補を抽出する抽出手段と、
前記状況判定手段により判定した会話の状況の履歴を記憶する記憶手段と、
を備え、
前記抽出手段は、前記記憶手段に記憶された会話の状況の履歴に基づき、前記音声認識手段により求めた複数の変換候補の中から会話の状況に適した変換候補を抽出することを特徴とする音声認識装置。
Voice acquisition means to acquire voice data and
A voice recognition means that recognizes the acquired voice data and seeks multiple conversion candidates as the voice recognition result.
Situation determination means for determining the situation at the time of voice data acquisition,
An extraction means for extracting a conversion candidate suitable for the situation determined by the situation determination means from a plurality of conversion candidates obtained by the voice recognition means, and an extraction means.
A storage means to store the status of the conversation history determined by said condition determining means,
Bei to give a,
The extraction means is characterized in that, based on the history of the conversation situation stored in the storage means, a conversion candidate suitable for the conversation situation is extracted from a plurality of conversion candidates obtained by the voice recognition means. Ruoto voice recognition device.
前記抽出手段は、設定された尤度に基づいて抽出候補に優先付けを行うことを特徴とする請求項1から請求項のいずれかに記載の音声認識装置。 The voice recognition device according to any one of claims 1 to 5 , wherein the extraction means prioritizes extraction candidates based on a set likelihood. コンピュータが、
音声データを取得するステップと、
取得した音声データを認識し、音声認識結果として複数の変換候補を求めるステップと、
音声データ取得時の状況を判定するステップと、
前記複数の変換候補の中から前記状況に適した変換候補を抽出するステップと、
状況と関連付けられた単語を記憶する記憶するステップと、
を含み、
前記状況を判定するステップは、前記単語を音声データから抽出し、前記単語に基づいて前記状況を判定することを特徴とする音声認識方法。
The computer
Steps to get audio data and
The step of recognizing the acquired voice data and obtaining multiple conversion candidates as the voice recognition result,
Steps to determine the situation at the time of voice data acquisition,
A step of extracting a conversion candidate suitable for the situation from the plurality of conversion candidates, and
Memorize the words associated with the situation Memorize steps and
Including
Determining the status, the words extracted from the speech data, a speech recognition method comprising the this determines the status based on the word.
コンピュータを、
音声データを取得する音声取得手段、
取得した音声データを認識し、音声認識結果として複数の変換候補を求める音声認識手段、
音声データ取得時の状況を判定する状況判定手段、
前記音声認識手段により求めた複数の変換候補の中から前記状況判定手段により判定した状況に適した変換候補を抽出する抽出手段、
状況と関連付けられた単語を記憶する記憶手段、
として機能させるためのプログラムであって、
前記状況判定手段は、前記単語を音声データから抽出し、前記単語に基づいて前記状況を判定することを特徴とするプログラム。
Computer,
Voice acquisition means for acquiring voice data,
A voice recognition means that recognizes the acquired voice data and seeks multiple conversion candidates as the voice recognition result.
Situation determination means for determining the situation at the time of voice data acquisition,
An extraction means for extracting a conversion candidate suitable for a situation determined by the situation determination means from a plurality of conversion candidates obtained by the voice recognition means.
A mnemonic that memorizes words associated with a situation,
A program to function as,
The situation determination means is a program characterized in that the word is extracted from voice data and the situation is determined based on the word.
JP2017071168A 2017-03-31 2017-03-31 Speech recognition device, speech recognition method, and program Active JP6866731B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017071168A JP6866731B2 (en) 2017-03-31 2017-03-31 Speech recognition device, speech recognition method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017071168A JP6866731B2 (en) 2017-03-31 2017-03-31 Speech recognition device, speech recognition method, and program

Publications (2)

Publication Number Publication Date
JP2018173522A JP2018173522A (en) 2018-11-08
JP6866731B2 true JP6866731B2 (en) 2021-04-28

Family

ID=64108742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017071168A Active JP6866731B2 (en) 2017-03-31 2017-03-31 Speech recognition device, speech recognition method, and program

Country Status (1)

Country Link
JP (1) JP6866731B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021135412A (en) * 2020-02-27 2021-09-13 ソニーグループ株式会社 Information processing device, information processing method, and program

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3958902B2 (en) * 1999-03-03 2007-08-15 富士通株式会社 Character string input device and method
JP4684739B2 (en) * 2005-05-13 2011-05-18 クラリオン株式会社 Audio processing device
JP4440228B2 (en) * 2006-04-14 2010-03-24 三菱電機株式会社 Mobile phone and call control method
US9626001B2 (en) * 2014-11-13 2017-04-18 International Business Machines Corporation Speech recognition candidate selection based on non-acoustic input
JP6363478B2 (en) * 2014-11-21 2018-07-25 日本電信電話株式会社 Speech recognition apparatus, speech recognition method, and speech recognition program

Also Published As

Publication number Publication date
JP2018173522A (en) 2018-11-08

Similar Documents

Publication Publication Date Title
JP6857581B2 (en) Growth interactive device
US9824687B2 (en) System and terminal for presenting recommended utterance candidates
US11217230B2 (en) Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user
JP6651973B2 (en) Interactive processing program, interactive processing method, and information processing apparatus
US20220351729A1 (en) Systems and methods for recognizing a speech of a speaker
EP3628098B1 (en) System and method for key phrase spotting
JP2021533397A (en) Speaker dialification using speaker embedding and a trained generative model
JP2018097185A (en) Voice dialogue device, voice dialogue method, voice dialogue program and robot
JP2018072876A (en) Emotion estimation system and emotion estimation model generation system
KR101615848B1 (en) Method and computer program of recommending dialogue sticker based on similar situation detection
JP7230806B2 (en) Information processing device and information processing method
US11164584B2 (en) System and method for uninterrupted application awakening and speech recognition
KR20200048201A (en) Electronic device and Method for controlling the electronic device thereof
JP7276129B2 (en) Information processing device, information processing system, information processing method, and program
US20230046658A1 (en) Synthesized speech audio data generated on behalf of human participant in conversation
JP7323098B2 (en) Dialogue support device, dialogue support system, and dialogue support program
JP6797338B2 (en) Information processing equipment, information processing methods and programs
WO2019026617A1 (en) Information processing device and information processing method
JP6866731B2 (en) Speech recognition device, speech recognition method, and program
CN111556999A (en) Method, computer device and computer readable storage medium for providing natural language dialogue by providing substantive answers in real time
KR102433964B1 (en) Realistic AI-based voice assistant system using relationship setting
JP2008233305A (en) Voice interaction device, speech interaction method, and program
WO2020202862A1 (en) Response generation device and response generation method
US20200135186A1 (en) System and method for speech recognition with decoupling awakening phrase
CN109712606A (en) A kind of information acquisition method, device, equipment and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201201

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210322

R150 Certificate of patent or registration of utility model

Ref document number: 6866731

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150