JP2020129130A - Information processing device - Google Patents

Information processing device Download PDF

Info

Publication number
JP2020129130A
JP2020129130A JP2020078433A JP2020078433A JP2020129130A JP 2020129130 A JP2020129130 A JP 2020129130A JP 2020078433 A JP2020078433 A JP 2020078433A JP 2020078433 A JP2020078433 A JP 2020078433A JP 2020129130 A JP2020129130 A JP 2020129130A
Authority
JP
Japan
Prior art keywords
voice recognition
information
voice
recognition result
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020078433A
Other languages
Japanese (ja)
Inventor
田村 雄一
Yuichi Tamura
雄一 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Electronic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Electronic Corp filed Critical Pioneer Electronic Corp
Priority to JP2020078433A priority Critical patent/JP2020129130A/en
Publication of JP2020129130A publication Critical patent/JP2020129130A/en
Priority to JP2022034339A priority patent/JP2022071159A/en
Priority to JP2023174059A priority patent/JP2023179631A/en
Pending legal-status Critical Current

Links

Images

Abstract

To provide an information processing device by which an appropriate recognition result can be obtained.SOLUTION: A CPU 13 in a car navigation system 10 obtains a recognition result of a voice recognition engine 12 that performs voice recognition of voice made by a user and parameters made up of sound pressure information, a score, and algorithm determination. The CPU 13 further obtains a recognition result of a voice recognition engine 22 in a smart phone 20 that has performed voice recognition of the same voice, and parameters made up of sound pressure information, a score, and algorithm determination via a short distance wireless communication unit 15. The CPU 13 selects either one of the recognition result of the voice recognition engine 12 and the recognition result of the voice recognition engine 22 on the basis of the parameters of the voice recognition engine 12 and the parameters of the voice recognition engine 22, and causes the one to be executed as a command.SELECTED DRAWING: Figure 2

Description

本発明は、音声認識処理結果に基づいて情報処理を行う情報処理装置に関する。 The present invention relates to an information processing device that performs information processing based on a voice recognition processing result.

従来から様々な電子機器において、利用者が発話した音声を認識して、その認識結果に応じた動作を行う機器がある。それらは、機器毎に音声認識処理部のアルゴリズムや辞書等が異なるため、同じ音声であっても機器毎に認識率が異なる。 2. Description of the Related Art Conventionally, there are various electronic devices that recognize a voice uttered by a user and perform an operation according to the recognition result. Since the algorithms and dictionaries of the voice recognition processing unit are different for each device, the recognition rate is different for each device even for the same voice.

また、近年はクラウド型の音声認識システムが提案されている。これは、サーバに音声認識エンジンや辞書を備え、複数の端末がそれぞれネットワーク経由でサーバに接続して音声認識処理を依頼し、処理結果を取得するものである。このようなクラウド型の音声認識システムは、サーバに辞書を持つので語彙を非常に多くすることができるとともに高度なアルゴリズムでも処理可能であるといった利点がある。 In recent years, cloud-type voice recognition systems have been proposed. In this system, a server is equipped with a voice recognition engine and a dictionary, and a plurality of terminals respectively connect to the server via a network to request voice recognition processing and acquire the processing result. Since such a cloud-type speech recognition system has a dictionary in the server, it has the advantages that the vocabulary can be greatly increased and that even advanced algorithms can be processed.

また、特許文献1には、音声認識の結果を他の電子機器と共有することが開示されている。具体的には、外部機器20へ音声にて入力を行う場合は、携帯情報処理器10から外部機器20へ認識モジュールを送信し、外部機器20は受信した認識モジュールを利用して処理を行う。 Further, Patent Document 1 discloses sharing the result of voice recognition with another electronic device. Specifically, when inputting to the external device 20 by voice, the recognition module is transmitted from the portable information processing device 10 to the external device 20, and the external device 20 performs processing using the received recognition module.

特開2003−140690号公報JP, 2003-140690, A

クラウド型の音声認識ステムは、基本的に会話を前提として認識が行われる。しかしながら、例えばカーナビゲーションシステムでは迂回検索やリルートするといった固有のフレーズを音声操作用のコマンドとして使用することができるが、クラウド型の音声認識ステムは、このような固有な環境で使用されるフレーズを適切に認識させることは困難である。 The cloud-type voice recognition system basically recognizes a conversation. However, for example, in a car navigation system, a unique phrase such as detour search or reroute can be used as a command for voice operation, but the cloud-type voice recognition system can use the phrase used in such a unique environment. Proper recognition is difficult.

また、特許文献1に記載の方法では、複数の電子機器で認識結果を共有できるものの、例えば、カーナビゲーションシステムの認識モジュールを他の機器に移動した場合に、その認識モジュールはカーナビゲーションシステム固有の環境に適した認識を行うため、例えば通常の会話の認識をさせた場合に適切な認識結果を得られない場合がある。 Further, in the method described in Patent Document 1, although the recognition result can be shared by a plurality of electronic devices, for example, when the recognition module of the car navigation system is moved to another device, the recognition module is unique to the car navigation system. In order to perform recognition suitable for the environment, for example, when recognition of a normal conversation is performed, an appropriate recognition result may not be obtained.

そこで、本発明は、上述した問題に鑑み、例えば、適切な認識結果を得ることができる情報処理装置を提供することを課題とする。 Therefore, in view of the above-described problems, it is an object of the present invention to provide, for example, an information processing device that can obtain an appropriate recognition result.

上記課題を解決するために、音声を認識する第1音声認識部から第1音声認識結果情報及び第1音声認識処理情報を取得する第1取得部と、前記音声を認識する第2音声認識部から第2音声認識結果情報及び第2音声認識処理情報を取得する第2取得部と、前記第1音声認識処理情報及び前記第2音声認識処理情報に基づき前記第1音声認識結果情報又は前記第2音声認識結果情報のいずれかを選択し、選択された前記第1音声認識結果情報又は前記第2音声認識結果情報に関する処理を処理部に実行させる制御部と、を備えたことを特徴としている。 In order to solve the above problems, a first acquisition unit that acquires first voice recognition result information and first voice recognition processing information from a first voice recognition unit that recognizes a voice, and a second voice recognition unit that recognizes the voice. A second acquisition unit that acquires second voice recognition result information and second voice recognition processing information from the first voice recognition result information or the second voice recognition processing information based on the first voice recognition processing information and the second voice recognition processing information. A control unit that selects any one of the two voice recognition result information and causes a processing unit to execute a process related to the selected first voice recognition result information or the second voice recognition result information. ..

請求項12に記載の発明は、認識した音声に基づいて処理部に処理を実行させる情報処理装置の制御方法であって、前記音声を認識する第1音声認識部から第1音声認識結果情報及び第1音声認識処理情報を取得する第1取得工程と、前記音声を認識する第2音声認識部から第2音声認識結果情報及び第2音声認識処理情報を取得する第2取得工程と、前記第1音声認識処理情報及び前記第2音声認識処理情報に基づき前記第1音声認識結果情報又は前記第2音声認識結果情報のいずれかを選択し、選択された前記第1音声認識結果情報又は前記第2音声認識結果情報に関する処理を処理部に実行させる制御工程と、を含むことを特徴としている。 According to a twelfth aspect of the present invention, there is provided a control method of an information processing device for causing a processing unit to perform processing based on a recognized voice, wherein the first voice recognition unit for recognizing the voice outputs first voice recognition result information and A first acquisition step of acquiring first voice recognition processing information; a second acquisition step of acquiring second voice recognition result information and second voice recognition processing information from a second voice recognition unit that recognizes the voice; One of the first voice recognition result information and the second voice recognition result information is selected based on the first voice recognition process information and the second voice recognition process information, and the selected first voice recognition result information or the first voice recognition result information. And a control step of causing the processing unit to execute processing relating to two voice recognition result information.

請求項13に記載の発明は、請求項12に記載の情報処理方法を、コンピュータにより実行させることを特徴としている。 The invention described in claim 13 is characterized in that a computer executes the information processing method according to claim 12.

請求項14に記載の発明は、請求項13に記載の情報処理プログラムを格納したことを特徴としている。 The invention according to claim 14 is characterized in that the information processing program according to claim 13 is stored.

本発明の一実施例にかかるカーナビゲーションシステムの外観斜視図である。1 is an external perspective view of a car navigation system according to an embodiment of the present invention. 図1に示されたカーナビゲーションシステムとスマートフォンのブロック構成図である。FIG. 2 is a block configuration diagram of a car navigation system and a smartphone shown in FIG. 1. 図1に示されたカーナビゲーションシステムの音声認識動作のフローチャートである。3 is a flowchart of a voice recognition operation of the car navigation system shown in FIG. 図3に示されたフローチャートの具体例を説明する表である。4 is a table illustrating a specific example of the flowchart shown in FIG. 3. 図3に示されたフローチャートの具体例を説明する表である。4 is a table illustrating a specific example of the flowchart shown in FIG. 3.

以下、本発明の一実施形態にかかる情報処理装置を説明する。本発明の一実施形態にかかる情報処理装置は、第1取得部が、利用者が発話した音声を音声認識する第1音声認識部の音声認識結果である第1音声認識結果情報と、第1音声認識部から第1音声認識結果情報とともに得られる情報である第1音声認識処理情報と、を取得し、第2取得部が、第1音声認識部が認識する音声を音声認識する第2音声認識部の音声認識結果である第2音声認識結果情報と、第2音声認識部から第2音声認識結果情報とともに得られる情報である第2音声認識処理情報と、を取得する。そして、制御部が、第1取得部が取得した第1音声認識処理情報および第2取得部が取得した第2音声認識処理情報に基づいて、第1音声認識結果情報または第2音声認識結果情報のいずれか一方を選択し、当該選択された第1音声認識結果情報または第2音声認識結果情報に基づいた情報処理を処理部に実行させる。このようにすることにより、同じ音声を認識した2つの音声認識部の結果から選択することができるので、単独で音声認識を行う以上の精度で音声認識をすることができる。例えば2つの音声認識部を異なるアルゴリズムや辞書を持ったものとすれば、様々な環境に合った認識結果を得ることができる。したがって、適切な認識結果を得ることができる。 Hereinafter, an information processing apparatus according to an embodiment of the present invention will be described. In the information processing apparatus according to the embodiment of the present invention, the first acquisition unit recognizes the voice uttered by the user as voice recognition result information, which is a voice recognition result of the first voice recognition unit; A second voice that recognizes the voice recognized by the first voice recognition unit, and the first voice recognition processing information that is information obtained from the voice recognition unit together with the first voice recognition result information. The second voice recognition result information which is the voice recognition result of the recognition unit and the second voice recognition processing information which is the information obtained from the second voice recognition unit together with the second voice recognition result information are acquired. Then, the control unit, based on the first voice recognition process information acquired by the first acquisition unit and the second voice recognition process information acquired by the second acquisition unit, the first voice recognition result information or the second voice recognition result information. One of the two is selected, and the processing unit is caused to execute information processing based on the selected first voice recognition result information or second voice recognition result information. By doing so, it is possible to select from the results of the two voice recognition units that have recognized the same voice, so that it is possible to perform voice recognition with accuracy higher than that of performing voice recognition independently. For example, if the two voice recognition units have different algorithms and dictionaries, recognition results suitable for various environments can be obtained. Therefore, an appropriate recognition result can be obtained.

また、制御部は、第1音声認識処理情報が予め定めた第1閾値以上である場合は、第1音声認識結果情報を選択して、該第1音声認識結果情報に基づいた情報処理を処理部に実行させてもよい。このようにすることにより、第1音声認識部の認識結果を利用して、例えばナビゲーションシステムのルート検索やインターネットを利用した店舗等の検索といった様々な情報処理をすることができる。 Further, when the first voice recognition processing information is equal to or more than a first threshold value set in advance, the control unit selects the first voice recognition result information and processes information processing based on the first voice recognition result information. It may be executed by a department. By doing so, various information processing such as the route search of the navigation system and the search of the store using the Internet can be performed by using the recognition result of the first voice recognition unit.

また、制御部は、第1音声認識処理情報が第1閾値未満かつ、第2音声認識処理情報が予め定めた第2閾値以上である場合は、第2音声認識結果情報を選択して、該第2音声認識結果情報に基づいた情報処理を処理部に実行させてもよい。このようにすることにより、第1音声認識部の認識結果の信頼性が低く適切でない可能性が高い場合は第2音声認識部の結果を利用して、例えばナビゲーションシステムのルート検索やインターネットを利用した店舗等の検索といった様々な情報処理をすることができる。 Further, when the first voice recognition processing information is less than the first threshold value and the second voice recognition processing information is more than a predetermined second threshold value, the control unit selects the second voice recognition result information, The processing unit may be caused to execute information processing based on the second voice recognition result information. By doing so, when the reliability of the recognition result of the first voice recognition unit is low and there is a high possibility that it is not appropriate, the result of the second voice recognition unit is used, for example, the route search of the navigation system or the Internet is used. It is possible to perform various types of information processing such as searching for a store or the like.

また、第2取得部は、第2音声認識結果情報に基づいて処理された結果である処理結果情報をさらに取得する。そして、制御部は、第1音声認識処理情報が予め定めた第1閾値未満かつ、第2音声認識処理情報が予め定めた第2閾値以上である場合は、第2音声認識結果情報が所定のコマンド群に含まれているか否かを判断し、含まれている場合は第2音声認識結果情報に基づいた情報処理を処理部に実行させ、含まれていない場合は、第2取得部が取得した処理結果情報に基づいた情報処理を処理部に実行させてもよい。このようにすることにより、第1音声認識部の認識結果が適切でない可能性が高い場合は第2音声認識部の結果を利用することができる。さらに、第2音声認識部の結果が、例えば機器を操作するためのコマンド等の所定のコマンド群に含まれる場合はそのコマンドに沿った動作をさせることができ、また、第2音声認識部の結果が所定のコマンド群に含まれない場合は、第2音声認識部を有する機器等で処理した結果を利用して情報処理をすることができる。 The second acquisition unit further acquires processing result information that is a result of processing based on the second voice recognition result information. Then, when the first voice recognition processing information is less than a predetermined first threshold value and the second voice recognition processing information is more than a predetermined second threshold value, the control unit determines that the second voice recognition result information has a predetermined value. It is determined whether or not it is included in the command group. If it is included, the processing unit is caused to execute information processing based on the second voice recognition result information. If it is not included, the second acquisition unit acquires it. The processing unit may be caused to execute information processing based on the processed result information. By doing so, when the recognition result of the first voice recognition unit is highly likely to be inappropriate, the result of the second voice recognition unit can be used. Further, when the result of the second voice recognition unit is included in a predetermined command group such as a command for operating the device, the operation according to the command can be performed. When the result is not included in the predetermined command group, information processing can be performed using the result processed by the device having the second voice recognition unit.

また、制御部は、第1音声認識処理情報が第1閾値未満かつ、第2音声認識処理情報が第2閾値未満である場合は、第1音声認識処理情報および第2音声認識処理情報それぞれに重み付けをした所定の演算を行い、当該演算結果に基づいて第1音声認識結果情報または第2音声認識結果情報を選択してもよい。このようにすることにより、第1閾値および第2閾値で認識結果を選択できない場合は、それぞれの結果に対して使用環境等に基づいた重みづけを行った演算をすることにより第1音声認識結果情報または第2音声認識結果情報のいずれか一方を選択することができる。 In addition, when the first voice recognition processing information is less than the first threshold value and the second voice recognition processing information is less than the second threshold value, the control unit provides the first voice recognition processing information and the second voice recognition processing information respectively. A predetermined weighted calculation may be performed, and the first voice recognition result information or the second voice recognition result information may be selected based on the calculation result. By doing so, when the recognition result cannot be selected with the first threshold value and the second threshold value, the first voice recognition result is calculated by performing a weighting operation on each result based on the usage environment. Either the information or the second voice recognition result information can be selected.

また、制御部は、第1音声認識処理情報が第1閾値未満かつ、第2音声認識処理情報が第2閾値未満である場合は、過去の使用履歴に基づいて第1音声認識結果情報または第2音声認識結果情報を選択してもよい。このようにすることにより、第1閾値および第2閾値で認識結果を選択できない場合は、過去の音声認識や検索あるいは操作等に使用されたかといった過去の使用履歴に基づいて第1音声認識結果情報または第2音声認識結果情報のいずれか一方を選択することができる。 Further, when the first voice recognition processing information is less than the first threshold value and the second voice recognition processing information is less than the second threshold value, the control unit determines the first voice recognition result information or the first voice recognition result information based on the past usage history. Two voice recognition result information may be selected. By doing so, when the recognition result cannot be selected with the first threshold value and the second threshold value, the first voice recognition result information is obtained based on the past use history such as whether it has been used for past voice recognition, search or operation. Alternatively, either one of the second voice recognition result information can be selected.

また、制御部は、第1音声認識処理情報が第1閾値未満かつ、第2音声認識処理情報が第2閾値未満である場合は、過去の使用状況に基づいて第1音声認識結果情報または第2音声認識結果情報を選択してもよい。このようにすることにより、第1閾値および第2閾値で認識結果を選択できない場合は、時間帯、季節や天候といった過去の使用状況に基づいて第1音声認識結果情報または第2音声認識結果情報のいずれか一方を選択することができる。 Further, when the first voice recognition processing information is less than the first threshold value and the second voice recognition processing information is less than the second threshold value, the control unit determines the first voice recognition result information or the first voice recognition result information based on the past usage status. Two voice recognition result information may be selected. By doing so, when the recognition result cannot be selected by the first threshold value and the second threshold value, the first voice recognition result information or the second voice recognition result information based on the past usage situation such as time zone, season, and weather. Either one can be selected.

また、第1音声認識処理情報および第2音声認識処理情報には、利用者が発話した音声と、第1音声認識結果情報または第2音声認識結果情報との関連の度合いに関する情報である関連度情報を含んでもよい。このようにすることにより、発話音声に基づいた認識結果との関連の度合い、即ち、発話音声と辞書との類似度を示すスコアに基づいて第1音声認識結果情報または第2音声認識結果情報のいずれか一方を選択することができる。 Further, the first voice recognition processing information and the second voice recognition processing information are information regarding the degree of association between the voice uttered by the user and the first voice recognition result information or the second voice recognition result information. It may include information. By doing so, the first voice recognition result information or the second voice recognition result information is based on the degree of association with the recognition result based on the uttered voice, that is, the score indicating the similarity between the uttered voice and the dictionary. Either one can be selected.

また、第1音声認識部と、第1取得部と、第2取得部と、制御部と、を一体的に備えていてもよい。このようにすることにより、第2音声認識部を有する外部機器等と連携させることで、情報処理装置において適切な認識結果を得ることができる。 Further, the first voice recognition unit, the first acquisition unit, the second acquisition unit, and the control unit may be integrally provided. By doing so, an appropriate recognition result can be obtained in the information processing apparatus by linking with an external device or the like having the second voice recognition unit.

また、制御部は、自身が選択した第1音声認識結果情報または第2音声認識結果情報に基づいて第1音声認識部および第2音声認識部に認識結果を学習させてもよい。このようにすることにより、それぞれの音声認識部に認識結果を共有させて以降の音声認識の精度を向上させることができる。 Further, the control unit may cause the first voice recognition unit and the second voice recognition unit to learn the recognition result based on the first voice recognition result information or the second voice recognition result information selected by itself. By doing so, the recognition results can be shared by the respective voice recognition units, and the accuracy of the subsequent voice recognition can be improved.

また、利用者が発話した音声がそれぞれ入力される入力部が第1音声認識部および第2音声認識部それぞれに対応して設けられてもよい。このようにすることにより、例えば入力部としてマイクをそれぞれに音声認識部に対応して設けることができ、第1音声認識処理情報や第2音声認識処理情報としてマイクから入力された音声の音圧や音量を取得することができる。 Further, an input unit for inputting each voice uttered by the user may be provided corresponding to each of the first voice recognition unit and the second voice recognition unit. By doing so, for example, a microphone can be provided as an input unit corresponding to each voice recognition unit, and the sound pressure of the voice input from the microphone as the first voice recognition processing information and the second voice recognition processing information can be provided. And the volume can be obtained.

また、本発明の一実施形態にかかる情報処理装置の制御方法は、第1取得工程で、利用者が発話した音声を音声認識する第1音声認識部の音声認識結果である第1音声認識結果情報と、第1音声認識部から第1音声認識結果情報とともに得られる情報である第1音声認識処理情報と、を取得し、第2取得工程で、第1音声認識部が認識する音声を音声認識する第2音声認識部の音声認識結果である第2音声認識結果情報と、第2音声認識部から第2音声認識結果情報とともに得られる情報である第2音声認識処理情報と、を取得する。そして、制御工程で、第1取得工程で取得した第1音声認識処理情報および第2取得工程で取得した第2音声認識処理情報に基づいて、第1音声認識結果情報または第2音声認識結果情報のいずれか一方を選択し、当該選択された第1音声認識結果情報または第2音声認識結果情報に基づいた情報処理を処理部に実行させる。このようにすることにより、同じ音声を認識した2つの音声認識部の結果から選択することができるので、単独で音声認識を行う以上の精度で音声認識をすることができる。例えば2つの音声認識部を異なるアルゴリズムや辞書を持ったものとすれば、様々な環境に合った認識結果を得ることができる。したがって、適切な認識結果を得ることができる。 Also, in the control method of the information processing apparatus according to the embodiment of the present invention, the first voice recognition result which is the voice recognition result of the first voice recognition unit that voice-recognizes the voice uttered by the user in the first acquisition step. The information and the first voice recognition processing information, which is the information obtained from the first voice recognition unit together with the first voice recognition result information, are acquired, and the voice recognized by the first voice recognition unit is voiced in the second acquisition step. The second voice recognition result information that is the voice recognition result of the second voice recognition unit to be recognized, and the second voice recognition processing information that is the information obtained from the second voice recognition unit together with the second voice recognition result information are acquired. .. Then, in the control step, the first voice recognition result information or the second voice recognition result information based on the first voice recognition processing information acquired in the first acquisition step and the second voice recognition processing information acquired in the second acquisition step. One of the two is selected, and the processing unit is caused to execute information processing based on the selected first voice recognition result information or second voice recognition result information. By doing so, it is possible to select from the results of the two voice recognition units that have recognized the same voice, so that it is possible to perform voice recognition with accuracy higher than that of performing voice recognition independently. For example, if the two voice recognition units have different algorithms and dictionaries, recognition results suitable for various environments can be obtained. Therefore, an appropriate recognition result can be obtained.

また、上述した情報処理装置の制御方法をコンピュータにより実行させる情報処理装置の制御プログラムとしてもよい。このようにすることにより、コンピュータを用いて、適切な認識結果を得ることができる。 Further, it may be a control program of an information processing apparatus that causes a computer to execute the above-described method of controlling the information processing apparatus. By doing so, an appropriate recognition result can be obtained using a computer.

また、上述した情報処理装置の制御プログラムをコンピュータ読み取り可能な記録媒体に格納してもよい。このようにすることにより、当該プログラムを機器に組み込む以外に単体でも流通させることができ、バージョンアップ等も容易に行える。 Further, the control program of the information processing apparatus described above may be stored in a computer-readable recording medium. By doing so, the program can be distributed as a single unit in addition to being installed in the device, and the version can be easily upgraded.

本発明の一実施例にかかる情報処理装置としてのカーナビゲーションシステム10を図1乃至図5を参照して説明する。カーナビゲーションシステム10は、図1に示したように車両のインストルメントパネル100に装着されている。そして、カーナビゲーションシステム10は、例えば助手席101上に置かれている後述するスマートフォン20と無線または有線で接続して通信可能となっている。 A car navigation system 10 as an information processing apparatus according to an embodiment of the present invention will be described with reference to FIGS. 1 to 5. The car navigation system 10 is mounted on an instrument panel 100 of the vehicle as shown in FIG. Then, the car navigation system 10 is capable of communicating by connecting to a smartphone 20, which will be described later, placed on the passenger seat 101, for example, wirelessly or by wire.

図1に示したカーナビゲーションシステム10は、図2に示したように、マイク11と、音声認識エンジン12と、CPU13と、記憶装置14と、近距離無線通信部15と、GPS16と、表示部17と、を備えている。 As shown in FIG. 2, the car navigation system 10 shown in FIG. 1 includes a microphone 11, a voice recognition engine 12, a CPU 13, a storage device 14, a short-range wireless communication unit 15, a GPS 16, and a display unit. 17 is provided.

入力部としてのマイク11は、利用者が発話した音声が入力され、電気信号である音声信号に変換して音声認識エンジン12に出力する。なお、マイク11は、カーナビゲーションシステム10に一体的に設けられていなくてもよく、利用者の近傍、例えば車両であればステアリングコラム等に設けてケーブルや無線等で接続されていてもよい。 The microphone 11 as an input unit receives the voice uttered by the user, converts the voice into a voice signal which is an electric signal, and outputs the voice signal to the voice recognition engine 12. The microphone 11 does not have to be provided integrally with the car navigation system 10, but may be provided near the user, for example, in a steering column or the like in the case of a vehicle, and connected by a cable or wireless.

第1音声認識部としての音声認識エンジン12は、マイク11から入力された音声信号に基づいて音声認識を行い、その認識した結果情報である単語や単語の組み合わせによるフレーズと、音声信号と自身が有する辞書にある語彙との近似度を示すスコア、自身が有する辞書とに照合度や前後の文脈から推定した候補との適合度等アルゴリズムによる判定の度合いを示すアルゴリズム判定、マイク11から入力された音声信号の音圧情報といったパラメータと、をCPU13に出力する。なお、結果情報は候補として複数あってもよく、その場合は候補ごとにスコア、アルゴリズム判定および音圧情報が出力される。また、音圧情報に代えて音量情報でもよい。また、パラメータは、前記した3つのうち1つ以上であればよいが、スコアが含まれていることが望ましい。即ち、フレーズが第1音声認識結果情報、パラメータが第1音声認識処理情報に相当する。また、スコアは、音声信号と辞書との近似度であるので、音声信号と辞書から検索されたフレーズとの関連の度合いに関する情報である関連度情報である。 The voice recognition engine 12 as the first voice recognition unit performs voice recognition based on the voice signal input from the microphone 11, and recognizes a word or a phrase that is a combination of words, which is the recognition result information, and the voice signal and itself. A score indicating the degree of approximation to a vocabulary in a dictionary that the user has, an algorithm determination that indicates the degree of determination by an algorithm such as the degree of matching with the dictionary that the user has, the degree of matching with the candidates estimated from the contexts before and after, input from the microphone 11. The parameters such as the sound pressure information of the audio signal and the like are output to the CPU 13. There may be a plurality of result information as candidates, and in that case, a score, algorithm determination, and sound pressure information are output for each candidate. Volume information may be used instead of sound pressure information. Further, the parameter may be one or more of the above-mentioned three, but it is preferable that the score is included. That is, the phrase corresponds to the first voice recognition result information and the parameter corresponds to the first voice recognition processing information. The score, which is the degree of approximation between the voice signal and the dictionary, is the degree-of-relevance information that is information regarding the degree of association between the voice signal and the phrase retrieved from the dictionary.

なお、音声認識エンジン12に使用される認識アルゴリズムやスコアの算出方法は周知のものでよく特に限定しないが、音声認識エンジン12は、カーナビゲーションシステム10に設けられているので、カーナビゲーションシステム10の音声入力コマンド(操作コマンド)に用いられる「リルート」や「迂回検索」などのフレーズの認識確率が高くなるように調整されたものが好ましい。また、音声認識エンジン12は、カーナビゲーションシステム10が備えていなくてもよく、例えば、従来技術に記載したクラウド型の音声認識システムを利用してもよい。即ち、マイク11から入力された音声信号をサーバ等に送信してサーバで音声認識処理を行い、フレーズとパラメータをカーナビゲーションシステム10が受信するものであってもよい。 The recognition algorithm and the score calculation method used in the voice recognition engine 12 are well known and not particularly limited. However, since the voice recognition engine 12 is provided in the car navigation system 10, It is preferable to adjust the recognition probability of phrases such as "reroute" and "detour search" used for voice input commands (operation commands) to be high. Further, the voice recognition engine 12 may not be included in the car navigation system 10, and for example, the cloud-type voice recognition system described in the related art may be used. That is, the voice signal input from the microphone 11 may be transmitted to a server or the like, the server may perform voice recognition processing, and the car navigation system 10 may receive the phrase and the parameter.

制御部、第1取得部、処理部としてのCPU13は、RAMやROM等を備えたマイクロコンピュータとして構成され、カーナビゲーションシステム10の全体制御を司る。そして、CPU13は、カーナビゲーションシステム10が一般的に有する機能、例えば目的地設定、ルート検索、案内、地図表示等の各種処理を実行する。また、CPU13は、音声認識エンジン12が出力したフレーズおよびパラメータを取得する。そして、音声認識エンジン12が出力したパラメータおよび後述するスマートフォン20から近距離無線通信部15が取得した音声認識エンジン22が出力したパラメータに基づいて、音声認識エンジン12が出力したフレーズおよびスマートフォン20から近距離無線通信部15が取得した音声認識エンジン22が出力したフレーズのいずれか一方を選択し、選択されたフレーズに基づいた処理を実行する。 The CPU 13 as the control unit, the first acquisition unit, and the processing unit is configured as a microcomputer including a RAM, a ROM, and the like, and controls the entire car navigation system 10. Then, the CPU 13 executes various functions that the car navigation system 10 generally has, such as destination setting, route search, guidance, and map display. Further, the CPU 13 acquires the phrase and the parameter output by the voice recognition engine 12. Then, based on the parameter output by the voice recognition engine 12 and the parameter output by the voice recognition engine 22 acquired by the short-range wireless communication unit 15 from the smartphone 20 described below, the phrase output by the voice recognition engine 12 and the proximity from the smartphone 20. One of the phrases output by the voice recognition engine 22 acquired by the distance wireless communication unit 15 is selected, and the process based on the selected phrase is executed.

記憶装置14は、例えばハードディスクや半導体メモリ等の不揮発性の読み書き自在な記憶媒体で構成されている。記憶装置14は、例えばカーナビゲーションシステム10で案内等に使用する地図等の情報が記憶されている。 The storage device 14 is composed of a non-volatile readable/writable storage medium such as a hard disk or a semiconductor memory. The storage device 14 stores, for example, information such as maps used for guidance in the car navigation system 10.

第2取得部としての近距離無線通信部15は、例えばBleutooth(登録商標)や赤外線通信等の近距離無線通信により後述するスマートフォン20と接続して互いにデータ通信を行う。また、近距離無線通信部15は、スマートフォン20から後述する音声認識エンジン22が出力したフレーズおよびパラメータを取得する。なお、近距離無線通信部15は、近距離無線通信に限らず無線LAN(Local Area Network)などの他の無線通信でもよいし、USB(Universal Serial Bus)などの有線通信によるものでもよい。 The short-range wireless communication unit 15 as the second acquisition unit is connected to the smartphone 20 described later by short-range wireless communication such as Bleuthooth (registered trademark) or infrared communication, and performs data communication with each other. The short-range wireless communication unit 15 also acquires from the smartphone 20 a phrase and a parameter output by a voice recognition engine 22 described later. The short-distance wireless communication unit 15 is not limited to short-distance wireless communication, and may be another wireless communication such as a wireless LAN (Local Area Network) or wired communication such as a USB (Universal Serial Bus).

GPS16は、公知であるように複数のGPS(Global Positioning System)衛星から発信される電波を受信して、現在の位置情報(現在位置情報)を求めてCPU13に出力する。なお、本実施例では、GPS16がカーナビゲーションシステム10に一体に設けられている例を示すが、GPS16が別体として構成され、カーナビゲーションシステム10と着脱自在となっていてもよい。 As is well known, the GPS 16 receives radio waves transmitted from a plurality of GPS (Global Positioning System) satellites, obtains current position information (current position information), and outputs it to the CPU 13. In the present embodiment, the GPS 16 is provided integrally with the car navigation system 10, but the GPS 16 may be configured as a separate body and detachable from the car navigation system 10.

表示部17は、例えば液晶ディスプレイやEL(Electro Luminescence)ディスプレイ等の表示装置で構成されている。また、表示部17は、表示面にタッチパネルが重ねられていてもよい。表示部17は、地図、自車の位置、目的地や経路等の案内情報等や、各種操作メニューおよびタッチパネル操作用のボタン等が表示される。 The display unit 17 is composed of a display device such as a liquid crystal display or an EL (Electro Luminescence) display. Further, the display unit 17 may have a touch panel overlaid on the display surface. The display unit 17 displays a map, the position of the vehicle, guidance information such as destinations and routes, various operation menus, buttons for operating the touch panel, and the like.

上述した構成のカーナビゲーションシステム10は、図2に示したスマートフォン20と近距離無線通信部15により互いにデータ通信が行われる。なお、上述したように、カーナビゲーションシステム10は、地図情報を持ってルート検索等のナビゲーション機能を自身で行っていたが、外部サーバ等に地図情報を持ってナビゲーション機能をサーバに実行させて自身はその結果を受け取って表示する形態としてもよい。 In the car navigation system 10 having the above-described configuration, the smartphone 20 and the short-range wireless communication unit 15 illustrated in FIG. 2 perform data communication with each other. As described above, the car navigation system 10 performs the navigation function such as route search by itself with the map information. However, the car navigation system 10 causes the server to execute the navigation function with the map information by an external server. May receive and display the result.

スマートフォン20は、マイク21と、音声認識エンジン22と、CPU23と、記憶装置24と、近距離無線通信部25と、回線通信部26と、を備えている。 The smartphone 20 includes a microphone 21, a voice recognition engine 22, a CPU 23, a storage device 24, a short-range wireless communication unit 25, and a line communication unit 26.

入力部としてのマイク21は、利用者が発話した音声が入力され、電気信号である音声信号に変換して音声認識エンジン22に出力する。 The microphone 21 as an input unit receives the voice uttered by the user, converts the voice into a voice signal which is an electric signal, and outputs the voice signal to the voice recognition engine 22.

第2音声認識部としての音声認識エンジン22は、マイク21から入力された音声信号に基づいて音声認識を行い、その認識した結果情報である単語や単語の組み合わせによるフレーズと、音声信号と自身が有する辞書にある語彙との近似度を示すスコア、自身が有する辞書とに照合度を示すアルゴリズム判定、マイク21から入力された音声信号の音圧情報といったパラメータと、をCPU23に出力する。なお、結果情報は候補として複数あってもよく、その場合は候補ごとにスコア、アルゴリズム判定および音圧情報が出力される。即ち、フレーズが第2音声認識結果情報、パラメータが第2音声認識処理情報に相当する。 The voice recognition engine 22 as the second voice recognition unit performs voice recognition based on the voice signal input from the microphone 21, and recognizes a word or a phrase based on a combination of words, which is the recognition result information, and the voice signal and itself. The CPU 23 outputs to the CPU 23 a score indicating the degree of approximation to the vocabulary in the dictionary that it has, an algorithm determination that indicates the degree of matching with the dictionary that it has, and sound pressure information of the audio signal input from the microphone 21. There may be a plurality of result information as candidates, and in that case, a score, algorithm determination, and sound pressure information are output for each candidate. That is, the phrase corresponds to the second voice recognition result information and the parameter corresponds to the second voice recognition processing information.

なお、音声認識エンジン22に使用される認識アルゴリズムやスコアの算出方法は周知のものでよく特に限定しないが、音声認識エンジン22は、音声認識エンジン12とは異なる認識アルゴリズムや辞書を持つものが望ましい。この場合、音声認識エンジン12では正しく認識できないフレーズを認識できる可能性が高まり、音声認識エンジン12を補完することができる。 The recognition algorithm used in the voice recognition engine 22 and the score calculation method are well known and are not particularly limited, but the voice recognition engine 22 preferably has a recognition algorithm and a dictionary different from those of the voice recognition engine 12. .. In this case, the possibility that a phrase that cannot be correctly recognized by the voice recognition engine 12 can be recognized increases, and the voice recognition engine 12 can be supplemented.

また、音声認識エンジン22は、スマートフォン20が備えていなくてもよく、例えば、従来技術に記載したクラウド型の音声認識システムを利用してもよい。即ち、マイク21から入力された音声信号をサーバ等に送信してサーバで音声認識処理を行い、フレーズとパラメータをスマートフォン20が受信するものであってもよい。 The voice recognition engine 22 may not be included in the smartphone 20, and for example, the cloud-type voice recognition system described in the related art may be used. That is, the voice signal input from the microphone 21 may be transmitted to the server or the like, the server may perform the voice recognition process, and the smartphone 20 may receive the phrase and the parameter.

CPU23は、RAMやROM等を備えたマイクロコンピュータとして構成され、スマートフォン20の全体制御を司る。そして、CPU23は、スマートフォン20が一般的に有する機能、例えば電話、メール、インターネット接続等の機能の実行、あるいはアプリの実行等を行う。また、CPU23は、音声認識エンジン22からフレーズと、パラメータを取得し、近距離無線通信部25を介してカーナビゲーションシステム10に送信する。また、音声認識エンジン22の認識結果に基づいてインターネット検索等の処理を行う。 The CPU 23 is configured as a microcomputer including a RAM, a ROM and the like, and controls the entire smartphone 20. Then, the CPU 23 executes a function that the smartphone 20 generally has, for example, a function such as a telephone call, a mail, an internet connection, or the like, or an application. Further, the CPU 23 acquires the phrase and the parameter from the voice recognition engine 22 and transmits the phrase and the parameter to the car navigation system 10 via the short-range wireless communication unit 25. In addition, processing such as Internet search is performed based on the recognition result of the voice recognition engine 22.

記憶装置24は、例えば半導体メモリ等の不揮発性の読み書き自在な記憶媒体で構成されている。メモリーカードなどの着脱自在な記憶媒体でもよい。記憶装置24は、例えばスマートフォン20で使用する電話帳やアプリのデータ等が記憶されている。 The storage device 24 is composed of a nonvolatile readable/writable storage medium such as a semiconductor memory. A removable storage medium such as a memory card may be used. The storage device 24 stores, for example, a telephone directory or application data used by the smartphone 20.

近距離無線通信部25は、例えばBleutooth(登録商標)や赤外線通信等の近距離無線通信により後述するカーナビゲーションシステム10と接続して互いにデータ通信を行う。また、近距離無線通信部25は、音声認識エンジン22が出力したフレーズおよびパラメータをカーナビゲーションシステム10に送信する。 The short-range wireless communication unit 25 is connected to the car navigation system 10 described later by short-range wireless communication such as Bluetooth (registered trademark) or infrared communication to perform data communication with each other. The short-range wireless communication unit 25 also transmits the phrase and the parameter output by the voice recognition engine 22 to the car navigation system 10.

回線通信部26は、携帯電話回線網への接続を行い各種通信をする。回線通信部26は、例えばW−CDMA(Wideband Code Division Multiple Access)やLTE(Long Term Evolution)などの通信方式により基地局等と接続して携帯電話回線網へ接続する。 The line communication unit 26 connects to a mobile phone line network and performs various communications. The line communication unit 26 is connected to a base station or the like by a communication method such as W-CDMA (Wideband Code Division Multiple Access) or LTE (Long Term Evolution) to connect to a mobile phone line network.

上述した構成のカーナビゲーションシステム10は、自身が持つ音声認識エンジン12と、スマートフォン20が持つ音声認識エンジン22と、の双方を利用してより適切な認識結果(フレーズ)を選択する。そして、選択されたフレーズに基づいた各種処理を実行する。詳細動作を図3に示したフローチャートを参照して説明する。図3に示したフローチャートは、CPU13が実行する。また、本フローチャートを実行する前に予めカーナビゲーションシステム10とスマートフォン20は近距離無線通信によって互いにデータ通信が行えるようになっている。 The car navigation system 10 configured as described above selects a more appropriate recognition result (phrase) using both the voice recognition engine 12 of itself and the voice recognition engine 22 of the smartphone 20. Then, various processes based on the selected phrase are executed. The detailed operation will be described with reference to the flowchart shown in FIG. The flowchart shown in FIG. 3 is executed by the CPU 13. In addition, before executing this flowchart, the car navigation system 10 and the smartphone 20 can mutually perform data communication by short-range wireless communication.

まず、第1取得工程としてのステップS1において、利用者が発話した音声をマイク11を介して音声認識エンジン12(カーナビゲーションシステム10)で音声認識し、フレーズおよびパラメータ(スコア、アルゴリズム判定、音圧情報)を取得してステップS3に進む。 First, in step S1 as the first acquisition step, the voice uttered by the user is voice-recognized by the voice recognition engine 12 (car navigation system 10) via the microphone 11, and the phrases and parameters (score, algorithm determination, sound pressure) are recognized. Information) and the process proceeds to step S3.

一方、第2取得工程としてのステップS2においては、ステップS1と同じ音声を音声認識エンジン22(スマートフォン20)が音声認識したフレーズおよびパラメータを近距離無線通信部15を介して取得してステップS3に進む。 On the other hand, in step S2 as the second acquisition step, the phrase and the parameter in which the voice recognition engine 22 (smartphone 20) voice-recognizes the same voice as in step S1 is acquired via the short-range wireless communication unit 15, and the process proceeds to step S3. move on.

次に、ステップS3において、ステップS1で取得した音声認識エンジン12のパラメータと、ステップS2で取得した音声認識エンジン22のパラメータと、比較しステップS4に進む。 Next, in step S3, the parameter of the voice recognition engine 12 acquired in step S1 is compared with the parameter of the voice recognition engine 22 acquired in step S2, and the process proceeds to step S4.

次に、ステップS4において、音声認識エンジン12が出力したパラメータのうち、スコアと音圧情報が予め定めた閾値以上か否かを判断し、閾値以上である場合(YESの場合)はステップS5に進み、閾値未満である場合(NOの場合)はステップS6に進む。この閾値は、例えば、音圧情報(音圧)の最大値を100としたときの値で85以上かつ、スコアが92以上と設定されている。本実施例では、スコアだけでなく、より大きな音圧であった方が正確な音声認識ができる可能性が高いとして音圧情報にも閾値を設けている。つまり、これらの条件を満たす場合閾値以上と判断される。即ち、本ステップの判断に用いられる閾値が第1閾値に相当する。 Next, in step S4, it is determined whether or not the score and the sound pressure information among the parameters output by the voice recognition engine 12 are equal to or more than a predetermined threshold value. If the score and the sound pressure information are equal to or more than the threshold value (in the case of YES), the process proceeds to step S5. If it is less than the threshold value (NO), the process proceeds to step S6. This threshold value is set to 85 or more and a score of 92 or more when the maximum value of the sound pressure information (sound pressure) is 100, for example. In the present embodiment, not only the score but also the sound pressure information is set to have a threshold value because it is more likely that accurate voice recognition can be performed when the sound pressure is larger. That is, when these conditions are satisfied, it is determined that the threshold value is exceeded. That is, the threshold value used for the determination in this step corresponds to the first threshold value.

次に、ステップS5において、ステップS4で閾値以上と判断されたので、音声認識エンジン12の認識結果であるフレーズを判定語、つまり、後のステップで実行される操作コマンドと決定(選択)しステップS19に進む。 Next, in step S5, since it is determined in step S4 that the threshold value is equal to or more than the threshold value, the phrase which is the recognition result of the voice recognition engine 12 is determined (selected) as the determination word, that is, the operation command to be executed in the subsequent step. Proceed to S19.

ステップS6においては、スマートフォン20から取得したパラメータのうち、スコアと音圧情報が予め定めた閾値以上か否かを判断し、閾値以上である場合(YESの場合)はステップS7に進み、閾値未満である場合(NOの場合)はステップS11に進む。この閾値は、例えば、音圧情報(音圧)の最大値を100としたときの値で82以上かつ、スコアが96以上と設定されている。即ち、これらの条件を満たす場合閾値以上と判断される。なお、本ステップで判断される閾値とステップS4で判断される閾値は同じ値であってもよい。また、これらの閾値は、設置位置や各音声認識エンジンのアルゴリズムなどから適宜設定すればよい。即ち、本ステップの判断に用いられる閾値が第2閾値に相当する。 In step S6, of the parameters acquired from the smartphone 20, it is determined whether or not the score and the sound pressure information are equal to or more than a predetermined threshold value. If the score and the sound pressure information are equal to or more than the threshold value (YES), the process proceeds to step S7, and is less than the threshold value. If (NO), the process proceeds to step S11. This threshold value is set to, for example, 82 or more and a score of 96 or more when the maximum value of the sound pressure information (sound pressure) is 100. That is, when these conditions are satisfied, it is determined that the threshold value is exceeded. The threshold value determined in this step and the threshold value determined in step S4 may be the same value. Further, these thresholds may be appropriately set based on the installation position, the algorithm of each voice recognition engine, and the like. That is, the threshold value used for the determination in this step corresponds to the second threshold value.

次に、ステップS7において、ステップS6で閾値以上と判断されたので、スマートフォン20から取得した認識結果であるフレーズを判定語と決定(選択)しステップS8に進む。 Next, in step S7, since it is determined in step S6 that the value is equal to or larger than the threshold value, the phrase that is the recognition result acquired from the smartphone 20 is determined (selected) as the determination word, and the process proceeds to step S8.

次に、ステップS8において、ステップS7で決定した判定語がナビコマンドにあるか否かを判断し、ある場合(YESの場合)はそのフレーズを判定語と決定(選択)しステップS19に進み、無い場合(NOの場合)はステップS9に進む。ナビコマンドとは、カーナビゲーションシステム10の操作に利用される所定のコマンド群を示している。つまり、本ステップでは決定された判定語がナビコマンドか否かを判断している。 Next, in step S8, it is determined whether or not the determination word determined in step S7 is in the navigation command. If there is (YES), the phrase is determined (selected) as the determination word, and the process proceeds to step S19. If not present (NO), the process proceeds to step S9. The navigation command indicates a predetermined command group used for operating the car navigation system 10. That is, in this step, it is determined whether the determined determination word is a navigation command.

次に、ステップS9において、ステップS8においてナビコマンドに判定語が含まれていないと判断されたので、スマートフォン20に連携動作を行わせてステップS10に進む。連携動作とは、例えばスマートフォン20に音声認識エンジン22が出力したフレーズ(判定語)を用いてインターネット検索やナビゲーションのアプリ等がインストールされている場合は検索結果に関連する地点情報(店舗名や所在地あるいは緯度経度情報等)を行わせることである。この連携動作は、カーナビゲーションシステム10(CPU13)からスマートフォン20へ実行を指示するコマンド等を送信してもよいし、スマートフォン20が音声認識動作に引き続いて当該連携動作を予め行っていてもよい。 Next, in step S9, since it is determined in step S8 that the navigation command does not include the determination word, the smartphone 20 is caused to perform the cooperative operation, and the process proceeds to step S10. The cooperative operation means, for example, if the smartphone 20 uses a phrase (judgment word) output by the voice recognition engine 22 and an application for internet search or navigation is installed, location information (store name or location) related to the search result. Or latitude/longitude information). This cooperative operation may be transmitted from the car navigation system 10 (CPU 13) to the smartphone 20, for example, a command instructing execution, or the smartphone 20 may perform the cooperative operation in advance subsequent to the voice recognition operation.

次に、ステップS10において、ステップS9でスマートフォン20に行わせた連携動作結果を近距離無線通信部15を介して取得しステップS19に進む。即ち、この連携動作結果が処理結果情報に相当する。 Next, in step S10, the result of the cooperation operation performed by the smartphone 20 in step S9 is acquired via the short-range wireless communication unit 15, and the process proceeds to step S19. That is, this cooperation operation result corresponds to the processing result information.

ステップS11においては、ステップS4、S6のいずれも閾値以下、即ち第1閾値未満かつ、第2閾値未満であったので、以下に示す(1)式、(2)式の計算式による評価を行ってステップS12に進む。
(音圧×a)×((スコア+判定)×b)・・・(1)
(音圧×c)×((スコア+判定)×d)・・・(2)
In step S11, since both steps S4 and S6 are less than or equal to the threshold value, that is, less than the first threshold value and less than the second threshold value, the evaluation is performed using the calculation formulas (1) and (2) below. And proceeds to step S12.
(Sound pressure x a) x ((score + judgment) x b) (1)
(Sound pressure x c) x ((score + judgment) x d) (2)

(1)式はスマートフォン20から取得したパラメータをそれぞれ代入して算出する式、(2)式は音声認識エンジン12が出力したパラメータをそれぞれ代入して算出する式である。また、判定はアルゴリズム判定の数値、a、b、c、dはそれぞれが乗算される項の重み付けをするための係数である。即ち、第1音声認識処理情報および第2音声認識処理情報それぞれに重み付けをした所定の演算を行っている。 The expression (1) is an expression calculated by substituting the parameters acquired from the smartphone 20, and the expression (2) is an expression calculated by substituting the parameters output by the voice recognition engine 12. Further, the judgment is a numerical value of the algorithm judgment, and a, b, c, and d are coefficients for weighting terms by which they are multiplied. That is, a predetermined calculation is performed by weighting each of the first voice recognition processing information and the second voice recognition processing information.

次に、ステップS12において、ステップS11で行った評価の結果、1つに確定することができたか否かを判断し、確定できた場合(YESの場合)はステップS13に進み、確定できなった場合(NOの場合)はステップS14に進む。本ステップでは、例えば上記した(1)式や(2)式の算出結果の差が8以上であった場合は算出結果の多いフレーズを選択して1つに確定する。 Next, in step S12, as a result of the evaluation performed in step S11, it is determined whether or not it can be determined as one. If it can be determined (in the case of YES), the process proceeds to step S13, and it cannot be determined. If (NO), the process proceeds to step S14. In this step, for example, when the difference between the calculation results of the above formulas (1) and (2) is 8 or more, a phrase having many calculation results is selected and fixed as one.

次に、ステップS13において、ステップS12や後述するステップS15、S17で確定したフレーズを判定語として選択し、ステップS19に進む。 Next, in step S13, the phrase confirmed in step S12 or steps S15 and S17 described later is selected as a determination word, and the process proceeds to step S19.

ステップS14においては、認識結果として取得したフレーズの過去の使用履歴に基づいて評価してステップS15に進む。この過去の使用履歴とは、例えば、音声認識の履歴に限らず、インターネット検索や目的地の検索などカーナビゲーションシステム10の動作やスマートフォン20で使われた履歴情報等である。なお、スマートフォン20の使用履歴情報は、例えば本ステップ実行時に近距離無線通信部15を介してフレーズを指定し取得すればよい。 In step S14, evaluation is performed based on the past usage history of the phrase acquired as the recognition result, and the process proceeds to step S15. The past usage history is not limited to, for example, the history of voice recognition, but is the history information used by the operation of the car navigation system 10 such as the Internet search or the destination search and the smartphone 20. Note that the usage history information of the smartphone 20 may be acquired by designating a phrase via the short-range wireless communication unit 15 when executing this step, for example.

次に、ステップS15において、ステップS14で行った評価の結果、1つに確定することができたか否かを判断し、確定できた場合(YESの場合)はステップS13に進み、確定できなった場合(NOの場合)はステップS16に進む。本ステップでは、例えばステップS14の結果、使用頻度の多いフレーズを選択して1つに確定する。 Next, in step S15, as a result of the evaluation performed in step S14, it is determined whether or not it can be confirmed as one. If it can be confirmed (in the case of YES), the process proceeds to step S13, and it cannot be confirmed. If (NO), the process proceeds to step S16. In this step, for example, as a result of step S14, a phrase that is frequently used is selected and fixed as one.

次に、ステップS16において、認識結果として取得したフレーズの過去の使用状況に基づいて評価してステップS15に進む。この過去の使用状況とは、過去にそのフレーズが使用されたシーン、例えば午前/午後等の時間帯や季節、天候等の外部環境等である。 Next, in step S16, evaluation is performed based on the past usage of the phrase acquired as the recognition result, and the process proceeds to step S15. The past usage status is a scene in which the phrase has been used in the past, for example, a time zone such as am/pm, the season, and the external environment such as weather.

次に、ステップS17において、ステップS16で行った評価の結果、1つに確定することができたか否かを判断し、確定できた場合(YESの場合)はステップS13に進み、確定できなった場合(NOの場合)はステップS18に進む。本ステップでは、例えばステップS16の結果、同じシーンで使用されているフレーズを選択して1つに確定する。 Next, in step S17, as a result of the evaluation performed in step S16, it is determined whether or not it can be confirmed as one. If it can be confirmed (in the case of YES), the process proceeds to step S13 and it cannot be confirmed. If (NO), the process proceeds to step S18. In this step, for example, as a result of step S16, phrases used in the same scene are selected and confirmed as one.

次に、ステップS18において、ステップS12〜S17で1つに確定することができなかったのでスコアが最も高いフレーズを判定語として確定してステップS19に進む。 Next, in step S18, the phrase with the highest score is determined as the determination word because one could not be determined in steps S12 to S17, and the process proceeds to step S19.

次に、ステップS19において、ステップS5、S7、S13、S18で確定した判定語を音声認識エンジン12、22に学習させてステップS20に進む。この学習は音声認識エンジン12に限らず、音声認識エンジン22にも行わせるため、判定語の情報を近距離無線通信部15を介してスマートフォン20にも送信する。 Next, in step S19, the voice recognition engines 12 and 22 are made to learn the determination words determined in steps S5, S7, S13, and S18, and the process proceeds to step S20. Since this learning is performed not only by the voice recognition engine 12 but also by the voice recognition engine 22, the information of the determination word is also transmitted to the smartphone 20 via the short-range wireless communication unit 15.

次に、ステップS20において、判定語に基づいてコマンドを実行する。つまり、当該判定語をカーナビゲーションシステム10の操作コマンドとして解釈して処理を実行する。また、ステップS10を実行してスマートフォン20から近距離無線通信部15が連携結果を取得した場合は、その結果に基づいて地点検索を行ったり、その内容をそのまま表示するといったことを行ってもよい。さらに、判定語が操作コマンドとして解釈できない場合は、エラーである旨を表示部17に表示したり、再度の入力を促してフローチャートを先頭からやり直すようにしてもよい。 Next, in step S20, the command is executed based on the determination word. That is, the determination word is interpreted as an operation command of the car navigation system 10 and the process is executed. In addition, when the short-range wireless communication unit 15 acquires the cooperation result from the smartphone 20 by executing step S10, the location search may be performed based on the result, or the content may be displayed as it is. .. Further, when the determination word cannot be interpreted as an operation command, an error message may be displayed on the display unit 17, or another input may be prompted to restart the flowchart from the beginning.

以上の説明から明らかなように、ステップS4〜S20は、ステップS1で取得したパラメータおよびステップS2で取得したパラメータに基づいて、音声認識エンジン12が出力したフレーズまたは音声認識エンジン22が出力したフレーズのいずれか一方を選択し、選択されたフレーズに基づいた情報処理を処理部に実行させる制御工程として機能している。 As is clear from the above description, in steps S4 to S20, the phrase output by the voice recognition engine 12 or the phrase output by the voice recognition engine 22 is determined based on the parameter acquired in step S1 and the parameter acquired in step S2. It functions as a control process for selecting either one and causing the processing unit to execute information processing based on the selected phrase.

なお、ステップS11、S14、S16に示した動作は、この順序で行うに限らない。また、これら3つの動作を全て行わず、1つまたは2つのみを行うようにしてもよい。 The operations shown in steps S11, S14, and S16 are not limited to this order. Alternatively, only one or two of these three operations may be performed instead of performing all of them.

ここで、具体例を図3に示したフローチャートに沿って説明する。例えば、利用者が「そば(蕎麦)好き」と発音した場合に、カーナビゲーションシステム10の音声認識エンジン12が音圧情報が87で「相馬市」と判定し、他の候補として「茂原市」を挙げ、スマートフォン20の音声認識エンジン22が音圧情報が78で「ソファーに」と判定し、他の候補として「そば好き」、「相馬市」、を挙げたとする。そして、それぞれの他の候補まで含めたスコアとアルゴリズム判定は、図4に示したとおりとする。図4に示しように、図2に示したフローチャートは、カーナビゲーションシステム10とスマートフォン20それぞれについて1つずつのフレーズで比較するに限らず、それぞれ複数の候補で比較してもよい。 Here, a specific example will be described with reference to the flowchart shown in FIG. For example, when the user pronounces “I like soba (soba),” the voice recognition engine 12 of the car navigation system 10 determines that the sound pressure information is 87 and is “Soma city”, and “Mobara city” as another candidate. It is assumed that the voice recognition engine 22 of the smartphone 20 determines that the sound pressure information is “on the sofa” when the sound pressure information is 78, and lists “soba lover” and “Soma city” as other candidates. Then, the score including each of the other candidates and the algorithm determination are as shown in FIG. As shown in FIG. 4, the flow chart shown in FIG. 2 is not limited to the comparison of one phrase for each of the car navigation system 10 and the smartphone 20, but may be comparison for a plurality of candidates.

このとき、ステップS4では、音声認識エンジン12が判定した「相馬市」や他の候補である「茂原市」も音圧情報85以上、スコア92以上の閾値を満たすことができない。そのため、ステップS6を実行するが、音声認識エンジン22が判定した「ソファーに」や他の候補である「そば好き」、「相馬市」も音圧情報82以上、スコア96以上の閾値を満たすことができない。 At this time, in step S4, “Soma city” determined by the voice recognition engine 12 and “Mobara city” which is another candidate cannot satisfy the thresholds of the sound pressure information of 85 or more and the score of 92 or more. Therefore, step S6 is executed, but the "sofa" determined by the voice recognition engine 22 and the other candidates "soba lover" and "Soma city" also satisfy the thresholds of sound pressure information 82 or more and score 96 or more. I can't.

そこで、ステップS11で(1)式と(2)式を計算して評価し、ステップS12で判断する。このときアルゴリズム判定は◎や○などを適宜点数に換算して計算する。計算の結果、例えば、「ソファーに」が78、「そば好き」が76、「相馬市」が73、「茂原市」が41とする。そして、最高点数の候補と、その候補から8点以内の候補として、「ソファーに」、「そば好き」、「相馬市」が抽出されるが1つには確定できない。なお、「相馬市」はカーナビゲーションシステム10とスマートフォン20の双方の候補に挙げられているが、以降の判断は上記式の計算結果が大きい値となった方、例えばカーナビゲーションシステム10の結果に基づいて判断するものとする。あるいはこのフローチャートを実行するCPU13が設けられている音声認識エンジン12を優先としてもよい。 Therefore, the equations (1) and (2) are calculated and evaluated in step S11, and the determination is made in step S12. At this time, the algorithm judgment is calculated by converting points such as ⊚ and ○ into appropriate points. As a result of the calculation, for example, "on the sofa" is 78, "I like soba" is 76, "Soma-shi" is 73, and "Mobara-shi" is 41. Then, "on the sofa", "I like soba", and "Soma city" are extracted as the candidate with the highest score and candidates within 8 points from the candidate, but they cannot be determined as one. It should be noted that "Soma City" is listed as a candidate for both the car navigation system 10 and the smartphone 20, but in the subsequent determination, the one with a large calculation result of the above formula, for example, the result of the car navigation system 10 Judgment shall be made based on this. Alternatively, the voice recognition engine 12 provided with the CPU 13 that executes this flowchart may be prioritized.

そして、ステップS14でカーナビゲーションシステム10とスマートフォン20それぞれで過去の使用履歴による評価をし、ステップS15で判断する。「ソファーに」、「そば好き」、「相馬市」の使用履歴(使用回数)は図5に示したとおりとする。ここで、カーナビゲーションシステム10とスマートフォン20の両方で履歴があるもの(回数が1以上)を抽出する。この場合、「そば好き」と「相馬市」が抽出されるが1つには確定できない。なお、両方で履歴があるものでなく、回数が何回以上や最高回数との差がいくつ以上などで絞ってもよい。また、いずれの候補も0回の場合は、全ての候補(「ソファーに」、「そば好き」、「相馬市」)について次の演算(ステップS16)を行う。 Then, in step S14, the car navigation system 10 and the smartphone 20 are evaluated based on the past usage history, and the determination is made in step S15. The use history (number of times of use) of “on the sofa”, “I like soba”, and “Soma city” is as shown in FIG. Here, the items having the history in both the car navigation system 10 and the smartphone 20 (the number of times is 1 or more) are extracted. In this case, “Soba likes” and “Soma city” are extracted, but they cannot be determined as one. It should be noted that both have no history and may be narrowed down by the number of times or more and the difference from the maximum number of times or more. Further, when all the candidates are 0 times, the following calculation (step S16) is performed for all the candidates (“on the sofa”, “I like soba”, and “Soma city”).

そして、ステップS16で過去にそのフレーズが使用された状況に基づいて評価し、ステップS17で判断する。これは上述したように、時間帯や季節、天候等の状況(ステータス)に基づいて一番該当するものを選択する。つまり、過去に使用された状況と今回の状況から類似するものを選択する。類似の判断は、例えば、3つのステータスのうち2つ以上一致で類似とするなどとすればよい。 Then, in step S16, evaluation is performed based on the situation in which the phrase was used in the past, and determination is made in step S17. As described above, the most appropriate one is selected based on the situation (status) such as time zone, season, and weather. That is, a similar one is selected from the situation used in the past and the situation this time. The similar determination may be performed by, for example, determining that two or more of the three statuses are the same and that the two are similar.

ステップS17の結果「そば好き」の過去に使用された状況が今回と類似する場合は「そば好き」が選択され、ステップS13で判定語と決定される。また、「そば好き」と「相馬市」のいずれも類似に該当しない場合は、ステップS18を実行してスコアが最も高い「そば好き」が選択される。 As a result of step S17, if the past usage of “I like buckwheat noodles” is similar to this time, “I like buckwheat noodles” is selected, and the determination word is determined in step S13. If neither “Soba likes” nor “Soma city” are similar, step S18 is executed and “Soba likes” having the highest score is selected.

次に、ステップS6で、「そば好き」が閾値を満たした場合を説明する。この場合、ステップS7で「そば好き」が判定語として決定され、ステップS8でナビコマンドにあるか否かが判断される。「そば好き」はカーナビゲーションシステム10を操作するためのコマンドには無いので、ステップS9でスマートフォン20の連携動作が行われる。スマートフォン20では「そば好き」に関連する検索がインターネット等を利用して行われ、例えばレストランや有名店、そば打ち体験イベントの名称や所在地の情報が得られたとすると、それらの情報を連携結果としてスマートフォン20が送信することで、カーナビゲーションシステム10が取得する(ステップS10)。 Next, a case where "I like soba" satisfies the threshold value in step S6 will be described. In this case, "I like soba" is determined as the determination word in step S7, and it is determined in step S8 whether or not it is in the navigation command. Since "I like soba" is not included in the commands for operating the car navigation system 10, the cooperative operation of the smartphone 20 is performed in step S9. On the smartphone 20, a search related to "Soba lover" is performed using the Internet or the like, and, for example, if information on the name and location of a restaurant, a famous store, or a soba making experience event is obtained, those information are used as the cooperation result. The car navigation system 10 acquires by the smartphone 20 transmitting (step S10).

ステップS10で得られた情報は、ステップS19で判定語(「そば好き」)の学習後、ステップS20で利用される。例えば、ステップS10で得られたレストランやそば打ち体験イベント場等の名称や所在地等の情報に基づいて地点情報として登録したり、目的地として設定するか尋ねたり、地図上に表示したりする。つまり、この場合のステップS20におけるコマンド実行とは判定語を操作コマンドとして解釈するのではなく、得られた情報に基づいて、任意のコマンドを選択して実行することとなる。 The information obtained in step S10 is used in step S20 after learning the determination word (“I like soba”) in step S19. For example, it is registered as point information based on the information such as the name and location of the restaurant, the soba-making experience event place, etc. obtained in step S10, inquired whether it is set as a destination, or displayed on a map. That is, in this case, the command execution in step S20 does not mean interpreting the determination word as an operation command, but selecting and executing an arbitrary command based on the obtained information.

本実施例によれば、カーナビゲーションシステム10のCPU13が、利用者が発話した音声を音声認識する音声認識エンジン12が認識したフレーズと、音圧情報、スコア、アルゴリズム判定からなるパラメータと、を取得し、さらに、同じ音声を音声認識したスマートフォン20の音声認識エンジン22が認識しやフレーズと、音圧情報、スコア、アルゴリズム判定からなるパラメータと、を近距離無線通信部15を介して取得する。そして、音声認識エンジン12のパラメータと音声認識エンジン22のパラメータに基づいて、音声認識エンジン12の認識結果と音声認識エンジン22の認識結果のいずれか一方を選択してコマンドとして実行させている。このようにすることにより、2つの音声認識エンジンの結果から選択することができるので、単独で音声認識を行う以上の精度で音声認識をすることができる。また、カーナビゲーションシステム10とスマートフォン20とで異なるアルゴリズムや辞書を持っているために、様々な環境に合った認識結果を得ることができる。したがって、適切な認識結果を得ることができる。 According to the present embodiment, the CPU 13 of the car navigation system 10 obtains the phrase recognized by the voice recognition engine 12 that recognizes the voice uttered by the user and the parameters including the sound pressure information, the score, and the algorithm determination. Further, the voice recognition engine 22 of the smartphone 20 that has recognized the same voice and acquires a phrase and a parameter including sound pressure information, a score, and an algorithm determination via the short-range wireless communication unit 15. Then, either the recognition result of the voice recognition engine 12 or the recognition result of the voice recognition engine 22 is selected and executed as a command based on the parameters of the voice recognition engine 12 and the parameters of the voice recognition engine 22. By doing so, since it is possible to select from the results of the two voice recognition engines, it is possible to perform voice recognition with accuracy higher than that of performing voice recognition independently. Moreover, since the car navigation system 10 and the smartphone 20 have different algorithms and dictionaries, it is possible to obtain recognition results suitable for various environments. Therefore, an appropriate recognition result can be obtained.

また、音声認識エンジン12のパラメータが閾値以上であった場合はカーナビゲーションシステム10(音声認識エンジン12)が認識したフレーズを判定語として選択しているので、カーナビゲーションシステム10の認識した結果を優先的に利用することができる。 When the parameter of the voice recognition engine 12 is equal to or more than the threshold value, the phrase recognized by the car navigation system 10 (voice recognition engine 12) is selected as the determination word, and therefore the result recognized by the car navigation system 10 is prioritized. Can be used for various purposes.

また、音声認識エンジン12のパラメータが閾値未満かつ、スマートフォン20(音声認識エンジン22)のパラメータが閾値以上である場合は、スマートフォン20が認識したフレーズを判定語として選択しているので、カーナビゲーションシステム10の認識した結果の信頼性が低く利用に適さない可能性が高い場合にスマートフォン20の認識した結果を利用することができる。 If the parameter of the voice recognition engine 12 is less than the threshold value and the parameter of the smartphone 20 (voice recognition engine 22) is equal to or more than the threshold value, the phrase recognized by the smartphone 20 is selected as the determination word. The result recognized by the smartphone 20 can be used when the reliability of the result recognized by 10 is low and there is a high possibility that the result is not suitable for use.

また、音声認識エンジン12のパラメータが閾値未満かつ、スマートフォン20(音声認識エンジン22)のパラメータが閾値以上である場合で、スマートフォン20の認識結果がナビコマンドに無い場合は、スマートフォン20に連携動作を行わせ、その結果を取得して、CPU13内で処理を行っている。このようにすることにより、スマートフォン20の認識した結果の信頼性は高いが、そのフレーズがカーナビゲーションシステム10を操作するためのコマンドではない場合に、そのフレーズに関連する情報を得て動作させることができる。 In addition, when the parameter of the voice recognition engine 12 is less than the threshold value and the parameter of the smartphone 20 (voice recognition engine 22) is the threshold value or more, and the recognition result of the smartphone 20 is not in the navigation command, the smartphone 20 performs the cooperative operation. The processing is performed, the result is acquired, and the processing is performed in the CPU 13. By doing so, the reliability of the result recognized by the smartphone 20 is high, but when the phrase is not a command for operating the car navigation system 10, the information related to the phrase is obtained and operated. You can

また、判定語が決定した後に、カーナビゲーションシステム10とスマートフォン20に決定した判定語について学習させているので、双方の音声認識エンジンに認識結果を共有させて以降の音声認識の精度を向上させることができる。この場合、カーナビゲーションシステム10においては、これまで知り得なかった結果を学習することができ次回以降のスコア精度の向上や辞書の語彙の増加といった効果が期待できる。例えば新語や流行語などをタイムリーに学習させることができる。また、スマートフォン20においては、ナビコマンドを学習することができるので更なる音声認識精度の向上を図ることができる。 Further, since the car navigation system 10 and the smartphone 20 are made to learn the determined determination word after the determination word is determined, both speech recognition engines can share the recognition result to improve the accuracy of the subsequent speech recognition. You can In this case, in the car navigation system 10, it is possible to learn a result that has not been known so far, and it is expected that the accuracy of the score from the next time onward will be improved and the vocabulary of the dictionary will be increased. For example, new words and buzzwords can be learned in a timely manner. Further, since the navigation command can be learned in the smartphone 20, it is possible to further improve the voice recognition accuracy.

また、音声認識エンジン12のパラメータが閾値未満かつ、音声認識エンジン22のパラメータが閾値未満の場合は、(1)式および(2)式による評価や、過去の使用履歴による評価、過去の使用情報による評価などにより判定語を決定しているので、音圧情報やスコアおよびアルゴリズム判定の結果で判定語を決定できない場合でも判定語を決定することができる。 When the parameter of the voice recognition engine 12 is less than the threshold value and the parameter of the voice recognition engine 22 is less than the threshold value, evaluation by the expressions (1) and (2), evaluation by the past usage history, past usage information Since the determination word is determined based on the evaluation by etc., the determination word can be determined even when the determination word cannot be determined based on the sound pressure information, the score, and the result of the algorithm determination.

また、音声認識エンジン12と、CPU13と、近距離無線通信部15と、を一体的に備えているので、音声認識エンジン22を有するスマートフォン20と連携させることで、カーナビゲーションシステム10において適切な認識結果を得ることができる。 Further, since the voice recognition engine 12, the CPU 13, and the short-range wireless communication unit 15 are integrally provided, the car navigation system 10 is appropriately recognized by linking with the smartphone 20 having the voice recognition engine 22. The result can be obtained.

なお、図3に示したフローチャートでは、ステップS7でスマートフォン20の認識結果を判定語とした後にステップS8でナビコマンドか否かを判断していたが、このような判断を行わず、ステップS7で判定語として決定したらそのままステップS19を実行するようにしてもよい。 In the flowchart shown in FIG. 3, after the recognition result of the smartphone 20 is used as the determination word in step S7, it is determined in step S8 whether or not it is a navigation command. However, such determination is not performed, and in step S7. If determined as the determination word, step S19 may be directly executed.

また、図1や図2に示した構成ではカーナビゲーションシステム10とスマートフォン20はそれぞれのマイク11、21に音声が入力されていたが、例えば、カーナビゲーションシステム10のマイク11に入力した音声を音声信号に変換した後にスマートフォン20に送信し、スマートフォン20はその音声信号に基づいて音声認識を行ってもよい。この場合、音圧情報はパラメータとして利用できなくなるが、スコアやアルゴリズム判定は異なることが多いので、これらの情報のみで判定することが可能である。即ち、入力部は1つであってもよい。 Further, in the configuration shown in FIGS. 1 and 2, the car navigation system 10 and the smartphone 20 have voices input to the microphones 11 and 21, respectively. For example, the voice input to the microphone 11 of the car navigation system 10 is output as voice. The signal may be converted to a signal and then transmitted to the smartphone 20, and the smartphone 20 may perform voice recognition based on the voice signal. In this case, the sound pressure information cannot be used as a parameter, but since the score and the algorithm determination are often different, it is possible to make the determination using only this information. That is, the number of input units may be one.

また、図3のフローチャートをコンピュータで実行可能なプログラムとして構成することで、情報制御装置の制御プログラムとして構成することができる。 Further, by configuring the flowchart of FIG. 3 as a computer-executable program, it can be configured as a control program of the information control device.

また、上述した実施例ではカーナビゲーションシステム10が主となって動作する例であったが、スマートフォン20が主になってもよい。また、カーナビゲーションシステム10やスマートフォン20に限らず、パーソナルコンピュータや音声で操作可能な家電機器など他の情報処理装置に適用してもよい。 Further, although the car navigation system 10 mainly operates in the above-described embodiment, the smartphone 20 may mainly operate. Further, the information processing device is not limited to the car navigation system 10 and the smartphone 20, and may be applied to other information processing devices such as personal computers and voice-operable home electric appliances.

また、本発明は上記実施例に限定されるものではない。即ち、当業者は、従来公知の知見に従い、本発明の骨子を逸脱しない範囲で種々変形して実施することができる。かかる変形によってもなお本発明の情報処理装置の構成を具備する限り、勿論、本発明の範疇に含まれるものである。 The present invention is not limited to the above embodiment. That is, those skilled in the art can carry out various modifications according to the conventionally known knowledge without departing from the gist of the present invention. As long as such a modification still has the configuration of the information processing apparatus of the present invention, it is of course included in the scope of the present invention.

10 カーナビゲーションシステム(情報処理装置)
11 マイク(入力部)
12 音声認識エンジン(第1音声認識部)
13 CPU(制御部、第1取得部、処理部)
15 近距離無線通信部(第2取得部)
20 スマートフォン
21 マイク(入力部)
22 音声認識エンジン(第2音声認識部)
S1 ナビ側で音声認識(第1取得工程)
S2 スマートフォン側で音声認識(第2取得工程)
S4〜S20 ナビかスマートフォンのいずれか一方を選択してコマンド実行する(制御工程)
10 Car navigation system (information processing device)
11 Microphone (input section)
12 Speech recognition engine (first speech recognition unit)
13 CPU (control unit, first acquisition unit, processing unit)
15 Short-distance wireless communication unit (second acquisition unit)
20 Smartphone 21 Microphone (input part)
22 Speech recognition engine (second speech recognition unit)
S1 Navi side voice recognition (first acquisition step)
S2 Speech recognition on the smartphone side (second acquisition step)
S4~S20 Select either one of navigation or smartphone and execute command (control process)

Claims (1)

音声を認識する第1音声認識部から第1音声認識結果情報及び第1音声認識処理情報を取得する第1取得部と、
前記音声を認識する第2音声認識部から第2音声認識結果情報及び第2音声認識処理情報を取得する第2取得部と、
前記第1音声認識処理情報及び前記第2音声認識処理情報に基づき前記第1音声認識結果情報又は前記第2音声認識結果情報のいずれかを選択し、選択された前記第1音声認識結果情報又は前記第2音声認識結果情報に関する処理を処理部に実行させる制御部と、
を備えたことを特徴とする情報処理装置。
A first acquisition unit that acquires first voice recognition result information and first voice recognition processing information from a first voice recognition unit that recognizes voice;
A second acquisition unit that acquires second voice recognition result information and second voice recognition processing information from the second voice recognition unit that recognizes the voice;
Either the first voice recognition result information or the second voice recognition result information is selected based on the first voice recognition process information and the second voice recognition process information, and the selected first voice recognition result information or A control unit that causes a processing unit to perform processing relating to the second voice recognition result information;
An information processing apparatus comprising:
JP2020078433A 2020-04-27 2020-04-27 Information processing device Pending JP2020129130A (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020078433A JP2020129130A (en) 2020-04-27 2020-04-27 Information processing device
JP2022034339A JP2022071159A (en) 2020-04-27 2022-03-07 Information processing device
JP2023174059A JP2023179631A (en) 2020-04-27 2023-10-06 Information processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020078433A JP2020129130A (en) 2020-04-27 2020-04-27 Information processing device

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018132122A Division JP2018194849A (en) 2018-07-12 2018-07-12 Information processing device

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022034339A Division JP2022071159A (en) 2020-04-27 2022-03-07 Information processing device

Publications (1)

Publication Number Publication Date
JP2020129130A true JP2020129130A (en) 2020-08-27

Family

ID=72174554

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2020078433A Pending JP2020129130A (en) 2020-04-27 2020-04-27 Information processing device
JP2022034339A Pending JP2022071159A (en) 2020-04-27 2022-03-07 Information processing device
JP2023174059A Pending JP2023179631A (en) 2020-04-27 2023-10-06 Information processing device

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2022034339A Pending JP2022071159A (en) 2020-04-27 2022-03-07 Information processing device
JP2023174059A Pending JP2023179631A (en) 2020-04-27 2023-10-06 Information processing device

Country Status (1)

Country Link
JP (3) JP2020129130A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114446279A (en) * 2022-02-18 2022-05-06 青岛海尔科技有限公司 Voice recognition method, voice recognition device, storage medium and electronic equipment
WO2023007588A1 (en) * 2021-07-27 2023-02-02 Ultimatrust株式会社 Information processing device, program, and positioning method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003223188A (en) * 2002-01-29 2003-08-08 Toshiba Corp Voice input system, voice input method, and voice input program
JP2012501480A (en) * 2008-08-29 2012-01-19 マルチモーダル・テクノロジーズ・インク Hybrid speech recognition
JP2013064777A (en) * 2011-09-15 2013-04-11 Ntt Docomo Inc Terminal device, voice recognition program, voice recognition method and voice recognition system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003223188A (en) * 2002-01-29 2003-08-08 Toshiba Corp Voice input system, voice input method, and voice input program
JP2012501480A (en) * 2008-08-29 2012-01-19 マルチモーダル・テクノロジーズ・インク Hybrid speech recognition
JP2013064777A (en) * 2011-09-15 2013-04-11 Ntt Docomo Inc Terminal device, voice recognition program, voice recognition method and voice recognition system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023007588A1 (en) * 2021-07-27 2023-02-02 Ultimatrust株式会社 Information processing device, program, and positioning method
CN114446279A (en) * 2022-02-18 2022-05-06 青岛海尔科技有限公司 Voice recognition method, voice recognition device, storage medium and electronic equipment

Also Published As

Publication number Publication date
JP2022071159A (en) 2022-05-13
JP2023179631A (en) 2023-12-19

Similar Documents

Publication Publication Date Title
JP6570651B2 (en) Voice dialogue apparatus and voice dialogue method
US9620121B2 (en) Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system
US10540969B2 (en) Voice operating system, server device, on-vehicle device, and voice operating method
US8903651B2 (en) Information terminal, server device, searching system, and searching method thereof
JP4859447B2 (en) Navigation device
US20190147849A1 (en) Natural language generation based on user speech style
JP2023179631A (en) Information processing device
CN105222797B (en) Utilize the system and method for oral instruction and the navigation system of partial match search
JP2013140269A (en) Voice recognition device
US20200321000A1 (en) Agent device, system, control method of agent device, and storage medium
JP2015141226A (en) Information processing device
CN111161720A (en) Vehicle and control method thereof
JP6281202B2 (en) Response control system and center
JP2009230068A (en) Voice recognition device and navigation system
US11709065B2 (en) Information providing device, information providing method, and storage medium
US20200286479A1 (en) Agent device, method for controlling agent device, and storage medium
JP2018141742A (en) Navigation device, navigation method, and navigation program
JP2018194849A (en) Information processing device
US20200319634A1 (en) Agent device, method of controlling agent device, and storage medium
US11195535B2 (en) Voice recognition device, voice recognition method, and voice recognition program
US20150192425A1 (en) Facility search apparatus and facility search method
US11355114B2 (en) Agent apparatus, agent apparatus control method, and storage medium
US11518399B2 (en) Agent device, agent system, method for controlling agent device, and storage medium
CN111726772B (en) Intelligent body system, control method thereof, server device, and storage medium
JP6109373B2 (en) Server apparatus and search method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210608

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211207