JP2003032388A - Communication terminal and processing system - Google Patents

Communication terminal and processing system

Info

Publication number
JP2003032388A
JP2003032388A JP2001212485A JP2001212485A JP2003032388A JP 2003032388 A JP2003032388 A JP 2003032388A JP 2001212485 A JP2001212485 A JP 2001212485A JP 2001212485 A JP2001212485 A JP 2001212485A JP 2003032388 A JP2003032388 A JP 2003032388A
Authority
JP
Japan
Prior art keywords
voice
result
search
communication terminal
terminal device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001212485A
Other languages
Japanese (ja)
Inventor
Toru Nada
徹 名田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2001212485A priority Critical patent/JP2003032388A/en
Publication of JP2003032388A publication Critical patent/JP2003032388A/en
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

PROBLEM TO BE SOLVED: To allow all of the talkers to share a result of retrieval on the basis of a keyword extracted by recognizing a conversation voice, without the need for a user to make particular intervention. SOLUTION: A voice input device 4 receives a conversation voice made between a user of the processing system 1 and a user of other communication device 5, and a voice recognition section 5c recognizes the voice. The user of the processing system 1 recognizes the result of information retrieval, on the basis of the keyword obtained by the recognition via an output via a voice output device 6b and the result is also transmitted to other communication device 50 via a communication unit 6a, to allow a conversation opposite party to recognize it. That is, both parties, making conversation, feel as though another other user as is saying, so as to create a situation as though one is 3-party speech.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、複数のユーザ間で
の会話が可能な通信端末装置及びその通信端末装置を備
えた処理システムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a communication terminal device capable of conversation between a plurality of users and a processing system equipped with the communication terminal device.

【0002】[0002]

【従来の技術及び発明が解決しようとする課題】会話音
声を認識して、情報検索に適切なキーワード候補を表示
し、そのキーワード候補の中からユーザによって選択さ
れたキーワードにて検索を行い、その検索結果を表示す
る電話端末装置に関する技術が特開平11−25228
1号公報に開示されている。この技術によれば、会話を
しながらでも、簡易な操作で情報検索ができる。つま
り、情報検索に必要なキーワードをユーザ自身が最初か
ら入力しなくても、会話音声を認識して自動的に候補を
表示してくれるため、ユーザはその候補から所望のもの
を「選択」するという操作をすればよいだけとなる。
2. Description of the Related Art Recognizing conversational voice, displaying keyword candidates suitable for information retrieval, performing a search with a keyword selected by a user from the keyword candidates, A technique relating to a telephone terminal device for displaying a search result is disclosed in Japanese Patent Laid-Open No. 11-25228.
It is disclosed in Japanese Patent Publication No. According to this technique, information can be searched for by a simple operation even while having a conversation. In other words, even if the user does not input the keyword necessary for information retrieval from the beginning, the user recognizes the conversation voice and automatically displays the candidates, so that the user “selects” the desired one from the candidates. All you have to do is

【0003】しかしながら、この従来技術では、検索結
果を直接知ることができるのは検索を行った電話端末装
置を使用している側のユーザだけである。つまり、会話
相手には、検索結果を直接知ったユーザが口頭で伝える
必要があり、不便であった。つまり、情報検索の結果を
相手側に伝えるという伝達動作が必要となるからであ
る。その口頭での情報伝達がなされた後は、情報検索の
結果が会話者全員の知るところとなるため再度自然な会
話に戻るが、その口頭での情報伝達部分で自然な会話が
とぎれることは、好ましくない。また、間接的な情報伝
達、つまり伝言という形態となるため、正確な情報伝達
という点でも好ましくない。
However, in this conventional technique, only the user who uses the telephone terminal device that has performed the search can directly know the search result. In other words, it is inconvenient for the conversation partner to be verbally communicated by the user who directly knows the search result. That is, it is necessary to perform a transmission operation of transmitting the information retrieval result to the other party. After the oral communication, the result of the information retrieval will be known to all the conversants, so that the conversation will return to a natural conversation again, but the natural communication is interrupted at the oral communication part. Not preferable. Further, since it takes a form of indirect information transmission, that is, a message, it is not preferable in terms of accurate information transmission.

【0004】そこで、会話音声を認識して抽出したキー
ワードに基づいて検索を行った結果を、ユーザの特別な
仲介動作を必要とせずに会話者全員で共有できるように
することを目的とする。
Therefore, it is an object of the present invention to allow a result of a search based on a keyword extracted by recognizing a conversational voice to be shared by all the conversants without requiring a special intermediary action of the user.

【0005】[0005]

【課題を解決するための手段及び発明の効果】請求項1
記載の通信端末装置によれば、複数のユーザ間でなされ
ている会話の音声を認識し、その認識結果を用いて情報
検索を行った結果を、音声出力手段を介して出力するこ
とで自装置のユーザに了知させると共に、通信手段を介
して別の通信端末装置へも送信することで、別の通信端
末装置のユーザ、すなわち会話相手にも了知させること
ができる。このようにすることで、従来技術で行ってい
た「情報検索の結果を一方のユーザが相手側に伝える」
という伝達動作が不要となる。つまり、会話音声を認識
して抽出したキーワードに基づいて検索を行った結果
を、ユーザの特別な仲介動作を必要とせずに会話者全員
で共有できるのである。したがって、会話している両者
にとっては、さらに別のユーザが発言したように感じら
れ、あたかも3者通話しているような状況を作り出すこ
とができる。もちろん、元々3者以上で会話している場
合には、さらに別のユーザが発言したような状況とな
り、自然な会話が続行できる。
Means for Solving the Problems and Effects of the Invention
According to the described communication terminal device, by recognizing the voice of the conversation between a plurality of users and outputting the result of the information search using the recognition result via the voice output means, the device itself. The user of the other communication terminal device can also be notified by transmitting the information to another communication terminal device via the communication means. By doing so, "one user conveys the result of the information search to the other side", which was performed in the conventional technique.
The transmission operation is not required. In other words, the result of searching based on the keyword extracted by recognizing the conversation voice can be shared by all the conversants without requiring any special intermediary action of the user. Therefore, it is possible for both parties in a conversation to feel as if another user was speaking, and it is possible to create a situation in which a three-party call is being made. Of course, when the conversation is originally made by three or more persons, it becomes a situation in which another user speaks, and a natural conversation can be continued.

【0006】また、請求項2記載の通信端末装置によれ
ば、ユーザが何ら特別な操作をせずに自動的に情報検索
を行うため、例えば自動車を運転しながら電話にて会話
している場合に有効である。運転時の安全のためには例
えばハンズフリー通話が有効であるが、このような情報
検索に際して従来技術のようなユーザによる手動操作が
必要とされると、せっかくハンズフリーにしている効果
が低減される。したがって、情報検索結果の出力までを
も自動的に行うことで、車両運転時の安全性確保という
メリットも得られる。特に、従来技術の場合には検索キ
ーワードの候補を表示してユーザからの指定を受けるよ
うにしていたが、車両運転時において脇見をしなくては
ならない状況を作るのは好ましくない。したがって、こ
の観点からも、ユーザの操作が不要で且つ検索結果を音
声にて了知させる手法を採用することが有効である。
Further, according to the communication terminal device of the second aspect, since the user automatically retrieves information without performing any special operation, for example, when talking on the telephone while driving a car. Is effective for. For example, hands-free calling is effective for safety during driving, but if such a manual operation by the user as in the prior art is required for information retrieval, the effect of making hands-free is reduced. It Therefore, by automatically outputting the information retrieval result, it is possible to obtain the merit of ensuring safety during driving of the vehicle. In particular, in the case of the conventional technique, the search keyword candidates are displayed to be specified by the user, but it is not preferable to create a situation where the driver must look aside while driving the vehicle. Therefore, also from this point of view, it is effective to employ a method of notifying the search result by voice without requiring user operation.

【0007】また、請求項3記載の通信端末装置によれ
ば、文脈から見て適合していないキーワードを除外して
情報検索できるので、誤認識によって得られた適切でな
いキーワードがそのまま情報検索に用いられることを防
止できる。また、会話であるので話題が転換することも
多い。その場合、話題転換前に認識したキーワードは、
誤認識ではなく正しく認識はしていても、情報検索のキ
ーワードとしては適切でない。したがって請求項4に示
すように、情報検索に際し、話題転換前のキーワードは
用いないようにすることで、適切な検索結果の提供が可
能となる。
Further, according to the communication terminal device of the third aspect, it is possible to retrieve information by excluding the keyword that is not suitable from the context. Therefore, the inappropriate keyword obtained by erroneous recognition is used for the information retrieval as it is. Can be prevented. Also, since it is a conversation, the topic often changes. In that case, the keyword recognized before the topic change is
Even if they are correctly recognized rather than erroneously recognized, they are not appropriate as keywords for information retrieval. Therefore, as described in claim 4, it is possible to provide an appropriate search result by not using the keyword before the topic change in the information search.

【0008】一方、検索結果に関しては、いきなり詳細
な内容を一方的に音声出力するのではなく、請求項5に
示すように、ユーザに対して詳細な結果を出力するか否
かをまず尋ねるようにすることが考えられる。このよう
な段取りを踏む方が、より自然な会話に近い。
On the other hand, regarding the retrieval result, rather than suddenly unilaterally outputting detailed contents by voice, as shown in claim 5, first ask the user whether or not to output the detailed result. It is possible to This kind of setup is more like a natural conversation.

【0009】また、情報検索の対象となるデータベース
は、もちろん自装置内に持っていてもよいが、請求項6
のようにして、インターネットなどを介して外部のデー
タべースにアクセスすれば、より広範な情報リソースを
用いた検索が可能となる。ところで、このような通信端
末装置と、所定の処理を実行する処理装置(例えばナビ
ゲーション装置など)とを備え、検索結果を用いた処理
装置による処理をユーザが指示できるようにしてもよ
い。例えば検索結果として地名あるいは店の名前などの
「地名関連データ」が得られた場合、それを目的地とし
てナビゲーション装置に経路探索をさせたり、あるいは
その店が含まれる地図を表示させたりできると便利であ
る。例えば会話している両者が使用する通信端末装置が
同様の処理システムを構成しており、さらに共に車両に
搭載されている場合を考える。会話の流れから、ある店
へ集合することになった場合、会話者のいずれか一方が
目的地として経路探索を指示すれば、両車両に搭載され
ているナビゲーション装置にて経路探索がなされる。こ
のようにすれば、お互いで同意した集合場所への経路が
簡易に探索されるので、非常に使い勝手がよくなる。
The database for which information is to be searched may be stored in the device itself, as a matter of course.
As described above, if an external database is accessed via the Internet or the like, it is possible to search using a wider range of information resources. By the way, such a communication terminal device and a processing device (for example, a navigation device) that executes a predetermined process may be provided so that the user can instruct the processing by the processing device using the search result. For example, when "place name-related data" such as a place name or a store name is obtained as a search result, it is convenient if the navigation device can be used as a destination for route search or a map including the store can be displayed. Is. For example, let us consider a case where communication terminal devices used by both parties having a conversation configure the same processing system and are both mounted in a vehicle. In the case of gathering at a certain store due to the flow of conversation, if either one of the talkers indicates the route search as the destination, the route search is performed by the navigation devices mounted on both vehicles. By doing so, the route to the meeting place agreed with each other can be easily searched, and the usability is greatly improved.

【0010】例えば処理装置がナビゲーション装置であ
れば、目的地などの設定のために階層的な構成を持つ地
名(住所)を音声入力することがあり、また、当然なが
らナビゲーション装置の各種機能を使うためのコマンド
を指示することがある。そして、このナビゲーション用
のシステムを想定した場合には、上述の認識処理を実行
することで、地名(住所)の入力だけでなくコマンドが
入力された場合にも即座に対応でき、コマンド用テンプ
レートデータを用いた認識処理を別途行わなくてもよ
い。つまりレスポンスが向上し、利用者にとっての使い
勝手が向上することとなる。また、地図表示であって
も、離れている会話者の両者がそれぞれ同じ地図画面を
見ることができれば、会話もし易くなる。
For example, if the processing device is a navigation device, a place name (address) having a hierarchical structure may be input by voice to set a destination and the like, and naturally various functions of the navigation device are used. Command to specify. If this navigation system is assumed, by executing the recognition process described above, it is possible to immediately respond not only to the input of the place name (address) but also to the input of the command. It is not necessary to separately perform the recognition process using. That is, the response is improved and the usability for the user is improved. Further, even in the case of the map display, if both of the distant talkers can see the same map screen, the conversation becomes easy.

【0011】[0011]

【発明の実施の形態】以下、本発明が適用された実施例
について図面を用いて説明する。なお、本発明の実施の
形態は、下記の実施例に何ら限定されることなく、本発
明の技術的範囲に属する限り、種々の形態を採り得るこ
とは言うまでもない。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments to which the present invention is applied will be described below with reference to the drawings. Needless to say, the embodiment of the present invention is not limited to the following embodiments, and various forms can be adopted as long as they are within the technical scope of the present invention.

【0012】図1は本実施例の処理システム1の概略構
成を示すブロック図である。本処理システム1は、処理
装置として、車両に搭載されて用いられるいわゆるカー
ナビゲーション装置を想定し、このカーナビゲーション
装置と通信端末装置とを備えるシステムとして構成して
ある。
FIG. 1 is a block diagram showing a schematic configuration of a processing system 1 of this embodiment. The processing system 1 assumes a so-called car navigation device mounted on a vehicle and used as a processing device, and is configured as a system including the car navigation device and a communication terminal device.

【0013】本処理システム1は、位置検出器2、操作
機器3、音声入力装置4、制御装置5、出力装置6及び
外部記憶装置7を備えている。位置検出器2は、GPS
(Global Positioning System) 用の人工衛星からの送
信電波(GPS信号)をGPSアンテナを介して受信
し、車両の位置,方位,速度等を検出するGPS受信機
2aと、車両に加えられる回転運動の大きさに基づいて
進行方位を検出するジャイロスコープ2bと、車速セン
サ2cとを備えている。そして、これら各センサ等2a
〜2cは、各々が性質の異なる誤差を有しているため、
互いに補完しながら使用するように構成されている。な
お、精度によっては、上述したセンサ等2a〜2cの中
の一部のみを用いて構成してもよく、また、地磁気に基
づいて絶対方位を検出する地磁気センサや左右操舵輪の
回転差などから得られる車両のステアリング角を累積し
て方向を求めるセンサ等を用いてもよい。
The processing system 1 includes a position detector 2, an operating device 3, a voice input device 4, a control device 5, an output device 6 and an external storage device 7. The position detector 2 is a GPS
A GPS receiver 2a that receives radio waves (GPS signals) from an artificial satellite for (Global Positioning System) via a GPS antenna and detects the position, direction, speed, etc. of the vehicle, and the rotational movement of the vehicle A gyroscope 2b for detecting the traveling direction based on the size and a vehicle speed sensor 2c are provided. Then, each of these sensors 2a
Since ~ 2c has errors with different properties,
It is designed to be used in a complementary manner. Depending on the accuracy, only some of the above-mentioned sensors 2a to 2c may be used, and it is also possible to use a geomagnetic sensor that detects the absolute azimuth based on the geomagnetism, a rotation difference between the left and right steered wheels, or the like. A sensor or the like that accumulates the obtained steering angles of the vehicle to obtain the direction may be used.

【0014】また、操作機器3は、操作スイッチ群3a
及びリモコンセンサ3bを介して指示入力するためのリ
モートコントロール端末(以下、リモコンと称する。)
3cを有する。操作スイッチ群3aとしては、後述する
表示装置6cと一体に構成され表示画面上に設定される
タッチスイッチ及び表示装置6cの周囲に設けられたメ
カニカルなキースイッチ等が用いられる。タッチスイッ
チは、表示装置6cの画面上に縦横無尽に配置された赤
外線センサより構成されており、例えば指やタッチペン
などでその赤外線を遮断すると、その遮断した位置が2
次元座標値(X,Y)として検出される。これによっ
て、表示画面を直接タッチすることで、所定の指示を入
力できるようにされている。
The operation device 3 includes an operation switch group 3a.
And a remote control terminal for inputting an instruction via the remote control sensor 3b (hereinafter referred to as a remote control).
3c. As the operation switch group 3a, a touch switch configured integrally with a display device 6c described later and set on the display screen, a mechanical key switch provided around the display device 6c, and the like are used. The touch switch is composed of infrared sensors which are arranged vertically and horizontally on the screen of the display device 6c, and when the infrared rays are cut off by a finger or a touch pen, the cut-off position is set to two.
It is detected as a dimensional coordinate value (X, Y). With this, it is possible to input a predetermined instruction by directly touching the display screen.

【0015】音声入力装置4は、図示しないマイクロフ
ォンを有しており、そのマイクロフォンを介して入力さ
れた本システムのユーザの発する音声を入力すると共
に、後述する他の通信機器50(例えば携帯電話)から
送信されてきた当該他の通信機器50のユーザが発した
音声も入力することができるようにされている。
The voice input device 4 has a microphone (not shown). The voice input device 4 inputs a voice uttered by the user of the present system through the microphone, and also another communication device 50 (for example, a mobile phone) described later. The voice uttered by the user of the other communication device 50 transmitted from the user can also be input.

【0016】出力装置6は、通信機器6a、音声出力装
置6b、表示装置6cを有している。通信機器は6a、
例えば携帯電話と携帯電話接続装置とのセット、自動車
電話などから構成されており、他の通信機器50(他の
携帯電話や、他の自動車電話、あるいは一般電話など)
とデータ通信できるようになっている。また、音声出力
装置6bはスピーカを介して音声を出力するものであ
り、表示装置6cはディスプレイに画面表示を行うもの
である。
The output device 6 has a communication device 6a, a voice output device 6b, and a display device 6c. Communication equipment is 6a,
For example, it is composed of a set of a mobile phone and a mobile phone connection device, a car phone, and the like, and another communication device 50 (another mobile phone, another car phone, or a general phone).
And can communicate data with. The audio output device 6b is for outputting audio through a speaker, and the display device 6c is for displaying a screen on a display.

【0017】なお、本実施例においては、音声入力装置
4が備えるマイクロフォンは、車両運転中の利用者の発
する音声を確実に収音可能な場所に設置され、一方、音
声出力装置6bが備えるスピーカは、車両運転中の利用
者がこのスピーカから出力される音声を確実に聴くこと
が可能な場所に設置される。したがって、通信機器6a
として携帯電話を利用した場合であっても、利用者が携
帯電話を手で持たずに通話する「ハンズフリー通話」が
可能となる。つまり、携帯電話は、基地局との間で電波
を送受信するためのアンテナ、マイク、スピーカ、操作
キー群(いずれも図示せず)などを備える一般的な構成
であり、単体で使用する場合には、上述のマイクとスピ
ーカを用いて通話を行う。しかし、携帯電話を利用する
場合には、携帯電話接続装置を用いて制御装置5側と接
続するため、携帯電話を、携帯電話接続装置を介して制
御装置5によって制御することができる。これによっ
て、上述したように、携帯電話が備えているスピーカ及
びマイクを用いずに、本処理システム1が備えるスピー
カ及びマイクを用いた通話が可能となる。なお、携帯電
話に着信があった場合には、利用者による着呼動作に応
じて着呼を行う。着呼動作とは、例えば操作スイッチ群
3a中の所定のスイッチ(着呼スイッチ)を操作した
り、ユーザが音声入力装置4から予め規定された言葉
(例えば「ハーイ」など)を発することで、それを制御
装置5内の音声認識部5cで認識し、データ処理部5d
にて対応処理を行うようにしてもよい。
In the present embodiment, the microphone provided in the voice input device 4 is installed in a place where the voice emitted by the user who is driving the vehicle can be reliably collected, while the speaker provided in the voice output device 6b. Is installed in a place where the user who is driving the vehicle can reliably listen to the sound output from the speaker. Therefore, the communication device 6a
Even when a mobile phone is used as described above, a "hands-free call" is possible in which the user makes a call without holding the mobile phone by hand. In other words, the mobile phone has a general configuration including an antenna for transmitting and receiving radio waves to and from the base station, a microphone, a speaker, a group of operation keys (none of which is shown), and so on. Makes a call using the above-mentioned microphone and speaker. However, when using a mobile phone, the mobile phone can be controlled by the control device 5 via the mobile phone connection device because the mobile phone connection device is used to connect to the control device 5. As a result, as described above, a call using the speaker and the microphone included in the processing system 1 is possible without using the speaker and the microphone included in the mobile phone. When the mobile phone receives an incoming call, the incoming call is made according to the incoming call operation by the user. The incoming call operation is, for example, operation of a predetermined switch (incoming call switch) in the operation switch group 3a, or the user uttering a predetermined word (for example, “hi”) from the voice input device 4, The voice recognition unit 5c in the control device 5 recognizes it, and the data processing unit 5d
You may make it correspondent process.

【0018】また、外部記憶装置7は、外部データ入力
器7a及び外部記憶媒体7bを有しており、外部データ
入力器7aを用いて外部記憶媒体7bから読み出した各
種データを制御装置5へ出力する。この外部記憶媒体7
bには、位置検出の精度向上のためのいわゆるマップマ
ッチング用データ、地図データ及び目印データを含むナ
ビゲーション用の各種データに加えて、音声認識処理を
行う際に用いる辞書データが記憶されている。この外部
記憶媒体7bとしては、その記憶すべきデータ量からD
VDを用いるのが一般的であると考えられるが、CD−
ROM等の他の媒体を用いても良い。外部記憶媒体7b
としてDVDを用いた場合には、外部データ入力器7a
はDVDプレーヤとなる。
The external storage device 7 has an external data input device 7a and an external storage medium 7b, and outputs various data read from the external storage medium 7b to the control device 5 using the external data input device 7a. To do. This external storage medium 7
In b, in addition to so-called map matching data for improving the accuracy of position detection, various kinds of navigation data including map data and landmark data, dictionary data used when performing voice recognition processing are stored. As the external storage medium 7b, the amount of data to be stored is D
It is generally considered to use VD, but CD-
Other media such as ROM may be used. External storage medium 7b
When a DVD is used as the external data input device 7a
Is a DVD player.

【0019】一方、制御装置5は、CPU,ROM,R
AMからなる周知のマイクロコンピュータを中心に構成
されており、システム全体の制御を司る。制御装置5
は、位置データ入力部5aと、操作入力検出部5bと、
音声認識部5c、データ処理部5dと、出力方法選択部
5eと、検索データ格納部5fと、キーワード・文法デ
ータ格納部5gとを備えている。
On the other hand, the control device 5 includes a CPU, a ROM, and an R.
It is mainly composed of a well-known microcomputer composed of AM and controls the entire system. Control device 5
Is a position data input unit 5a, an operation input detection unit 5b,
The voice recognition unit 5c, the data processing unit 5d, the output method selection unit 5e, the search data storage unit 5f, and the keyword / grammar data storage unit 5g are provided.

【0020】位置データ入力部5aは、GPS受信機2
a、ジャイロスコープ2b及び車速センサ2cからのデ
ータ(位置データ)を入力する。この入力された位置デ
ータはデータ処理部5dへ送られる。データ処理部5d
では、この位置データ及び外部データ入力器7aを介し
て外部記憶媒体7bから取得した地図データを基にして
現在地を特定(算出)する。
The position data input section 5a is used for the GPS receiver 2
a, data (position data) from the gyroscope 2b and the vehicle speed sensor 2c are input. The input position data is sent to the data processing unit 5d. Data processing unit 5d
Then, the present location is specified (calculated) based on the position data and the map data acquired from the external storage medium 7b via the external data input device 7a.

【0021】操作入力検出部5bは、操作スイッチ群3
a及びリモコンセンサ3bからユーザの行った操作入力
を検出し、音声認識部5cやデータ処理部5dへ出力す
る。音声認識部5cは、音声入力装置4を介して入力さ
れた音声から会話音声データを抽出する。そして、その
抽出した会話音声データに対し、キーワード・文法デー
タ格納部5gに記憶している辞書データを参照して照合
を行ない、複数の比較対象パターン候補と比較して一致
度の高い上位比較対象パターンを得る。
The operation input detection section 5b includes an operation switch group 3
The operation input made by the user is detected from a and the remote control sensor 3b and output to the voice recognition unit 5c and the data processing unit 5d. The voice recognition unit 5c extracts conversation voice data from the voice input via the voice input device 4. Then, the extracted conversational voice data is collated by referring to the dictionary data stored in the keyword / grammar data storage unit 5g, and compared with a plurality of comparison target pattern candidates, the higher comparison target having a higher degree of matching is compared. Get the pattern.

【0022】なお、音声認識は常に行うわけではなく、
周囲の定常ノイズレベルの検出を行い、定常ノイズに会
話音声が上乗せされたことを検出した場合、あるいはユ
ーザの操作機器3を介した認識開始指示操作を操作入力
検出部5bにて検出した場合に実行する。音声入力装置
4を介してユーザから入力される信号は、認識対象の会
話音声だけでなく雑音も混在したものであるため、音声
区間と雑音区間の判定を行なう。この判定方法としては
従来より多くの手法が提案されており、例えば入力信号
の短時間パワーを一定時間毎に抽出していき、所定の閾
値以上の短時間パワーが一定以上継続したか否かによっ
て音声区間であるか雑音区間であるかを判定する手法が
よく採用されている。また、入力音声中の単語系列の認
識は、抽出された会話音声データを順次音響分析して音
響的特徴量(例えばケプストラム)を抽出し、この音響
分析によって得られた音響的特徴量時系列データを得
る。そして、周知のHMM(隠れマルコフモデル)、D
Pマッチング法あるいはニューラルネットなどによっ
て、この時系列データをいくつかの区間に分け、各区間
が辞書データとして格納されたどの単語に対応している
かを求める。
Note that voice recognition is not always performed.
When the ambient stationary noise level is detected and it is detected that the conversational voice is added to the stationary noise, or when the recognition input instruction operation of the user via the operation device 3 is detected by the operation input detection unit 5b. Run. Since the signal input from the user via the voice input device 4 is a mixture of not only the conversational speech to be recognized but also noise, the voice section and the noise section are determined. As this determination method, many methods have been proposed in the past, for example, by extracting the short-time power of the input signal at regular time intervals, and determining whether the short-time power of a predetermined threshold value or more has continued for a certain time or more. A method of determining whether it is a voice section or a noise section is often adopted. In addition, the recognition of a word sequence in the input speech is performed by sequentially acoustically analyzing the extracted conversational voice data to extract an acoustic feature amount (for example, cepstrum), and the acoustic feature amount time-series data obtained by this acoustic analysis. To get Then, the well-known HMM (Hidden Markov Model), D
The time-series data is divided into some sections by the P matching method or neural network, and each section corresponds to which word stored as dictionary data.

【0023】そして、このようにして得られた認識結果
に対して、必要に応じて文脈判定を行い、適切なキーワ
ードを決定してデータ処理部5dへ送る。文脈判定につ
いては後述する。データ処理部5dでは、上述した現在
地特定に加え、その現在地から目的地までの最適な経路
を探索したり、その探索した経路に基づく経路案内をし
たり、指示された地点を含む地図を表示したりするナビ
ゲーション関連の処理を行う。また、音声認識部5cに
て認識されたキーワードに基づいて情報検索をし、その
検索結果を音声にて出力する処理も行う。データ処理部
5dは、その処理に応じた出力方法となるよう、出力方
法選択部5eを介して選択した出力装置6にて、必要な
出力を行う。
Then, with respect to the recognition result obtained in this way, context determination is performed as necessary, an appropriate keyword is determined, and the keyword is sent to the data processing unit 5d. The context determination will be described later. In addition to the above-mentioned current location identification, the data processing unit 5d searches for an optimum route from the current location to the destination, provides route guidance based on the searched route, and displays a map including the designated point. Perform navigation-related processing. Further, it also performs a process of performing an information search based on the keyword recognized by the voice recognition unit 5c and outputting the search result by voice. The data processing unit 5d performs the necessary output by the output device 6 selected via the output method selection unit 5e so that the output method according to the processing is performed.

【0024】検索データ格納部5fは、内部記憶媒体を
有しており、データ処理部5dにて情報検索した結果を
格納する。そして、データ処理部5dは、会話中の特定
のタイミングで、その検索結果を音声出力装置6bから
音声にて出力すると共に、通信機器6aを介して他の通
信機器にも送信する。なお、データ処理部5dにて経路
探索を行った結果得られた案内ルートも、ここに記憶さ
れる。そして、経路案内に際しては、表示装置6cに表
示した道路データに案内ルートを重ねて強調表示し、ま
た、データ処理部5dにて特定した現在地に基づき、音
声出力装置6bによって経路の進行方向などの音声案内
を行う。
The search data storage unit 5f has an internal storage medium, and stores the result of information search performed by the data processing unit 5d. Then, the data processing unit 5d outputs the search result as a voice from the voice output device 6b at a specific timing during the conversation, and also transmits it to another communication device via the communication device 6a. The guidance route obtained as a result of the route search by the data processing unit 5d is also stored here. Then, in the route guidance, the route route displayed on the display device 6c is highlighted by superimposing the guidance route on the road data, and based on the current location specified by the data processing unit 5d, the direction of travel of the route and the like are displayed by the voice output device 6b. Provide voice guidance.

【0025】次に、本実施例の処理システム1の動作に
ついて、特に、会話中のキーワードに基づいて情報検索
を行い、その検索結果を会話しているユーザに音声にて
情報提供する点を中心に説明する。図2のフローチャー
トに示すように、最初のステップS1では、ノイズ学習
を行う。これは、音声入力装置4にて入力した音声に基
づき、音声認識部5cにおいて定常ノイズレベルを測定
するものである。そして続くS2では、会話音声入力の
開始を示すトリガがあったか否かを判断し、トリガがあ
った場合には(S2:YES)、音声認識を行う(S
3)。なお、「トリガがあった場合」とは、上述したよ
うに、定常ノイズに会話音声が上乗せされたことを検出
した場合、あるいはユーザの操作機器3を介した認識開
始指示操作を操作入力検出部5bにて検出した場合であ
る。
Next, regarding the operation of the processing system 1 according to the present embodiment, particularly, the information retrieval is performed based on the keyword in the conversation, and the retrieval result is provided to the conversation user by voice. Explained. As shown in the flowchart of FIG. 2, noise learning is performed in the first step S1. This measures the steady noise level in the voice recognition unit 5c based on the voice input by the voice input device 4. Then, in subsequent S2, it is determined whether or not there is a trigger indicating the start of conversational voice input, and if there is a trigger (S2: YES), voice recognition is performed (S2).
3). Note that, as described above, "when there is a trigger" means that, when it is detected that conversational voice is added to stationary noise, or when a recognition start instruction operation is performed by the user via the operation device 3, the operation input detection unit This is the case when detected in 5b.

【0026】S3の音声認識に続いてS4ではキーワー
ド抽出を行う。これは、継続的に入力される会話音声に
対して、キーワード・文法データ格納部5gに格納され
ている認識語彙データベースを参照しながら、複数のキ
ーワードを認識結果として得るものである。
Following the voice recognition in S3, keyword extraction is performed in S4. This is to obtain a plurality of keywords as a recognition result while referring to the recognition vocabulary database stored in the keyword / grammar data storage unit 5g for the continuously input conversation voice.

【0027】ここでは、2者が次のような会話を例に挙
げてさらに説明する。 A1:「ところでお腹が空いたね。何食べようか。」 B1:「うーん、あっさりしたのがいいな。」 A2:「じゃ和食とかどうかな。」 B2:「うどんとかそばがいいね。」 A3:「松本市でどこか良いところ知ってる?」 S4でのキーワード抽出の際、突発的なノイズや発声者
の癖などにより、例えば上記A2の発声内容から「ジャ
ワ」「華道」といった誤ったキーワードを検出したり、
B2の発声内容から誤って「そら」というキーワードを
検出してしまう可能性がある。そのため、続くS5では
文脈判定を行い、その判定結果に基づいてキーワードが
有効か否か(適切か否か)を判断し(S6)、キーワー
ドが有効な場合のみ(S6:YES)、検索用のキーワ
ード列に追加され(S7)、データ検索処理が実行され
る(S8)。具体的には、上記会話内容から得られるキ
ーワードとして「お腹がすいた」「食べよう」「あっさ
り」「和食」「うどん」などは、内容的に相互に関連す
るキーワードであることが分かるため、「そば」という
キーワードが抽出された場合は有効だと判断されるが
(S6:YES)、飲食に関連しないような「ジャワ」
「華道」「そら」といったキーワードが抽出された場合
は有効でないと判断される(S6:NO)。
Here, the two parties will be further described by taking the following conversation as an example. A1: "By the way, I'm hungry. What should I eat?" B1: "Hmm, I hope it's light." A2: "I think Japanese food or not." B2: "I like udon or soba." A3 : "Do you know any good point in Matsumoto city?" When extracting keywords in S4, due to sudden noise and vocalist's habit, for example, from the utterance content of A2 above, incorrect keywords such as "Java" and "flower arrangement" were selected. To detect,
There is a possibility that the keyword “Sora” may be erroneously detected from the utterance content of B2. Therefore, in the subsequent S5, context determination is performed, and it is determined whether the keyword is valid (whether appropriate) based on the determination result (S6). Only when the keyword is valid (S6: YES), the search It is added to the keyword string (S7), and the data search process is executed (S8). Specifically, it is understood that the keywords obtained from the above conversation contents are "hungry", "eat", "lightly", "Japanese food", "udon", etc. because they are mutually related in terms of content. If the keyword "soba" is extracted, it is judged to be effective (S6: YES), but "Java" that is not related to eating and drinking.
When keywords such as "flower arrangement" and "sora" are extracted, it is determined that the keyword is not valid (S6: NO).

【0028】キーワードが有効でない場合は(S6:N
O)、話題転換があったか否かを判断する(S10)。
例えば「ところで」「それから」「こんどは」などの話
題転換時に用いられるキーワードを抽出した場合には
(S10:YES)、それまでに格納したキーワード列
をクリアしてから(S11)、S3へ戻る。しかし、話
題転換でない場合には(S10:NO)、キーワード列
のクリアはせずにS3へ戻る。
If the keyword is not valid (S6: N
O), it is determined whether there has been a topic change (S10).
For example, when a keyword used when changing topics such as “By the way”, “After that”, and “Kondowa” is extracted (S10: YES), the keyword string stored up to that point is cleared (S11), and the process returns to S3. . However, if the topic is not changed (S10: NO), the keyword string is not cleared and the process returns to S3.

【0029】このようにして抽出したキーワードの内、
有効なものがキーワード列に追加され(S7)、データ
検索処理(S8)が実行される。このデータ検索処理
は、データ処理部5d(図1参照)で行われ、検索デー
タ格納部5f内の内部記憶媒体や外部記憶装置7内の外
部記憶媒体に記憶されている情報ソースを用いて検索が
なされる。そして、検索終了条件を満たしたかどうか判
断する(S9)。情報検索した場合には、対応する情報
の絞り込みを行い、絞り込んだ結果が例えば5〜10件
程度になった場合に検索終了条件を満たすと判断する
(S9:YES)。また、これだけでなく、文脈から質
問調のキーワードを検索した場合や、会話が中断した場
合なども検索終了条件を満たしたと判断して(S9:Y
ES)、S12へ移行する。
Of the keywords thus extracted,
A valid one is added to the keyword string (S7), and the data search process (S8) is executed. This data search processing is performed by the data processing unit 5d (see FIG. 1), and a search is performed using the information source stored in the internal storage medium in the search data storage unit 5f or the external storage medium in the external storage device 7. Is done. Then, it is determined whether or not the search end condition is satisfied (S9). When the information is searched, the corresponding information is narrowed down, and when the narrowed down result is, for example, about 5 to 10, it is determined that the search end condition is satisfied (S9: YES). In addition to this, it is also determined that the search end condition is satisfied when the question-tone keyword is searched from the context or the conversation is interrupted (S9: Y).
ES) and S12.

【0030】S12では、情報提供をするかしないかを
ユーザに尋ね、ユーザの回答が情報提供を肯定するもの
であった場合(S13:YES)、情報提供を実行する
(S14)。S12では、検索された結果の概要と、詳
細な結果を出力するか否かを尋ねる内容を出力する。例
えば「ポーン(警告音)、お知らせです。和食・うどん
・松本市で10件の候補が見つかりました。音声案内し
ますか?」というような内容をまず出力する。この出力
は、音声出力装置6bを介して本処理システム1のユー
ザに対して音声にて行うと共に、通信機器6aを介して
他の通信機器50にも送話データとして送られ、他の通
信機器50の持つスピーカなどから音声にて出力され
る。これによって、会話している両者は共に上記内容を
聞くことができる。また、S13で肯定する回答は、会
話しているいずれか行ってもよい。会話音声を認識して
いるからである。そして、S14で詳細な情報が提供さ
れるが、これも当然ながら会話している両者は音声にて
知ることができる。
In S12, the user is asked whether or not to provide information, and if the user's answer affirms the information provision (S13: YES), information provision is executed (S14). In S12, the outline of the retrieved result and the content asking whether to output the detailed result are output. For example, the content such as “Pawn (warning sound), information. 10 candidates were found in Japanese food, udon, Matsumoto city. Would you like to give a voice guidance?” Is first output. This output is performed by voice to the user of the processing system 1 via the voice output device 6b, and is also sent as transmission data to another communication device 50 via the communication device 6a. The sound is output from a speaker or the like of 50. As a result, both parties in conversation can hear the above content. In addition, the affirmative answer in S13 may be given to one of the users who is talking. This is because the conversation voice is recognized. Then, in S14, detailed information is provided, and naturally, both parties can talk by voice as well.

【0031】なお、本実施例の場合には、通信機器6a
が「通信手段」に相当し、音声入力装置4が「音声入力
手段」に相当し、音声出力装置6bが「音声出力手段」
に相当する。また、音声認識部5cが「認識手段」及び
「文脈判定手段」に相当し、データ処理部5dが「検索
手段」及び「検索結果出力制御手段」に相当する。
In the case of this embodiment, the communication device 6a
Corresponds to "communication means", the voice input device 4 corresponds to "voice input means", and the voice output device 6b corresponds to "voice output means".
Equivalent to. The voice recognition unit 5c corresponds to the "recognition unit" and the "context determination unit", and the data processing unit 5d corresponds to the "search unit" and the "search result output control unit".

【0032】このように、本実施例の処理システム1に
よれば、複数のユーザ間でなされている会話音声を認識
して得たキーワードに基づく情報検索を行った結果を、
音声出力装置6bを介して出力することでこの処理シス
テム1のユーザに了知させると共に、通信機器6aを介
して他の通信機器50へも送信することで、会話相手に
も了知させることができる。そのため、従来技術で行っ
ていた「情報検索の結果を一方のユーザが相手側に伝え
る」という伝達動作が不要となり、検索結果を、ユーザ
の特別な仲介動作を必要とせずに会話者全員で共有でき
る。つまり、会話している両者にとっては、さらに別の
ユーザが発言したように感じられ、あたかも3者通話し
ているような状況を作り出すことができる。
As described above, according to the processing system 1 of the present embodiment, the result of the information retrieval based on the keyword obtained by recognizing the conversational voice made by a plurality of users is
The user of the processing system 1 can be notified by outputting via the voice output device 6b, and can also be notified to the other party by transmitting to the other communication device 50 via the communication device 6a. it can. Therefore, the transmission operation of "one user tells the other party the result of the information search", which was performed in the conventional technology, is unnecessary, and the search result is shared by all the talkers without requiring any special intermediary operation of the user. it can. In other words, it is possible for both parties in a conversation to feel as if another user was speaking, and it is possible to create a situation as if a three-party call was being made.

【0033】特に、本実施例の場合には、利用者が電話
を手で持たずに通話する「ハンズフリー通話」を採用し
ているため、自動車を運転しながら電話にて会話するこ
とが可能であるが、情報検索に際して従来技術のような
ユーザによる手動操作が必要とされると、せっかくハン
ズフリーにしている効果が低減される。したがって、情
報検索結果の出力までをも自動的に行うことで、車両運
転時の安全性確保というメリットも得られる。
In particular, in the case of the present embodiment, since the user adopts the "hands-free call" in which a telephone call is made without holding the telephone, it is possible to talk on the telephone while driving a car. However, if a manual operation by the user as in the prior art is required for information retrieval, the effect of making hands-free is reduced. Therefore, by automatically outputting the information retrieval result, it is possible to obtain the merit of ensuring safety during driving of the vehicle.

【0034】また、本実施例の処理システム1は、ナビ
ゲーション機能を備えたシステムであるため、検索結果
を用いた処理装置による処理をユーザが指示できるよう
にしてもよい。例えば上述例では、和食・うどん・松本
市というキーワードで検索した結果として、10件の店
舗名が音声案内されるので、その中からユーザが指定し
た店舗を目的地として経路探索及び経路案内をさせても
よい。具体的には、システム側が店舗名の音声案内に先
立って、例えば「名前を言えば目的地に設定できます」
といった音声案内をすることが好ましい。
Further, since the processing system 1 of this embodiment is a system having a navigation function, the user may instruct the processing by the processing device using the search result. For example, in the above example, as a result of searching with keywords such as Japanese food, udon, and Matsumoto city, 10 store names are voice-guided. Therefore, a store designated by the user is used as a destination for route search and route guidance. May be. Specifically, the system will say "You can set your destination as long as you say your name."
It is preferable to provide such voice guidance.

【0035】例えば会話している両者が図1に示すよう
な処理システム1を搭載した車両を運転している場合、
会話者のいずれか一方が目的地として経路探索を音声に
て指示すれば、両車両に搭載されているナビゲーション
機能にて経路探索・案内がなされる。このようにすれ
ば、会話の中で集合場所を決めた場合に、その集合場所
への経路探索・案内への移行が簡易になされるので、非
常に使い勝手がよい。
For example, when both parties talking are driving a vehicle equipped with the processing system 1 as shown in FIG.
If either one of the talkers indicates the route search by voice as the destination, the route search / guidance is performed by the navigation function installed in both vehicles. In this way, when the meeting place is decided in the conversation, the transition to the route search / guidance to the meeting place can be easily performed, which is very convenient.

【0036】[他の実施例など] (1)上記実施例では、図2のS8におけるデータ検索
処理は、検索データ格納部5f内の内部記憶媒体や外部
記憶装置7内の外部記憶媒体に記憶されている情報ソー
スを用いて検索をするように説明したが、通信機器6a
を用い、インターネットなどを介して外部のデータべー
スにアクセスして行うこともできる。このようにすれ
ば、より広範な情報リソースを用いた検索が可能とな
る。
[Other Embodiments] (1) In the above embodiment, the data search processing in S8 of FIG. 2 is performed by storing in the internal storage medium in the search data storage unit 5f or the external storage medium in the external storage device 7. Although it has been described that the search is performed using the information source that is provided, the communication device 6a
Can also be used to access an external database via the Internet or the like. In this way, it is possible to search using a wider range of information resources.

【0037】(2)図2のS14での詳細情報の提供に
関しては、音声出力装置6bからの音声による出力だけ
でなく、表示装置6cからの表示による出力も併用して
もよい。また、他の通信機器50側にも表示機能がある
場合には、その他の通信機器50にも表示データを送信
し、会話者が共に音声及び表示にて情報提供を受けられ
るようにしてもよい。例えば車両走行中はそのような表
示をしないようにしていたとしても、車両停止中の場合
には、表示による情報提供も併用した方が便利である。
(2) Regarding the provision of the detailed information in S14 of FIG. 2, not only the audio output from the audio output device 6b, but also the output output from the display device 6c may be used together. If the other communication device 50 side also has a display function, the display data may be transmitted to the other communication device 50 so that both parties can receive the information provided by voice and display. . For example, even if such a display is not performed while the vehicle is traveling, it is more convenient to use the information provided by the display when the vehicle is stopped.

【0038】(3)音声認識に関して補足しておく。例
えば上述の会話例では、「松本市でどこか…」といった
地名に関する発声がある。市のレベルであれば比較的同
一の名称は少ないが、例えばさらに下位の町や区のレベ
ルであれば同一名称が多くなる。例えば単に東区といっ
た場合にどこの東区かが特定できない。しかし、単に東
区といった場合には、現在ユーザが居る地域内に存在す
る東区を意図していると考えられる。そこで、ナビゲー
ション機能(詳しくは位置特定機能)を利用して、例え
ば現在位置が名古屋市内であれば、愛知県名古屋市とい
うキーワードも補完して最終的な認識結果を得るように
してもよい。なお、名古屋市内に居るということは愛知
県内に居るということなので、愛知県というキーワード
も補完する。こうすれば、同じ県内の他の市町村の名称
をユーザが発声する際、愛知県が省略されていても対応
できる。
(3) A supplementary note about voice recognition. For example, in the above-mentioned conversation example, there is a utterance regarding a place name such as "somewhere in Matsumoto city ...". At the city level, there are relatively few names that are the same, but at the lower-level towns and wards, for example, there are many names that are the same. For example, in the case of simply "Higashi Ward," which East Ward cannot be specified. However, simply referring to Higashi Ward is considered to mean Higashi Ward existing in the area where the user is currently. Therefore, by using the navigation function (specifically, the position specifying function), for example, if the current position is Nagoya city, the keyword “Nagoya city, Aichi prefecture” may be complemented to obtain the final recognition result. Since being in Nagoya means being in Aichi prefecture, the keyword of Aichi prefecture is also supplemented. In this way, when the user speaks the name of another municipality in the same prefecture, it is possible to respond even if the Aichi prefecture is omitted.

【0039】(4)上記実施例では、GPS受信機2
a,ジャイロスコープ2b,車速センサ2cからなる位
置検出器2にて検出されるデータに基づき、制御装置5
が、車両現在位置の誤差を補間しながら車両現在位置を
特定した。しかし、必ずしもこのような位置検出器2が
必要なわけではない。例えば、路側ビーコンなどから位
置情報を取得し、それに基づいて現在位置を特定するよ
うにしてもよい。また、携帯電話やPHS等の位置特定
ができる機能によって現在地を特定するようにしてもよ
い。
(4) In the above embodiment, the GPS receiver 2
a, a gyroscope 2b, and a vehicle speed sensor 2c.
Identified the current vehicle position while interpolating the error of the current vehicle position. However, such a position detector 2 is not always necessary. For example, position information may be acquired from a roadside beacon or the like, and the current position may be specified based on the position information. Further, the present location may be specified by a position specifying function such as a mobile phone or PHS.

【0040】(5)上述した音声認識・情報検索・検索
結果の提供などに関する処理をコンピュータシステムに
て実現する機能は、例えば、コンピュータシステム側で
起動するプログラムとして備えることができる。このよ
うなプログラムの場合、例えば、フロッピー(登録商
標)ディスク、光磁気ディスク、CD−ROM、ハード
ディスク等のコンピュータ読み取り可能な記録媒体に記
録し、必要に応じてコンピュータシステムにロードして
起動することにより用いることができる。この他、RO
MやバックアップRAMをコンピュータ読み取り可能な
記録媒体として前記プログラムを記録しておき、このR
OMあるいはバックアップRAMをコンピュータシステ
ムに組み込んで用いても良い。
(5) The function for realizing the above-described processing relating to voice recognition, information retrieval, provision of retrieval results, etc. in a computer system can be provided as, for example, a program activated on the computer system side. In the case of such a program, for example, it is recorded in a computer-readable recording medium such as a floppy (registered trademark) disk, a magneto-optical disk, a CD-ROM, a hard disk, and loaded into a computer system and activated as necessary. Can be used by Besides this, RO
The program is recorded by using M or a backup RAM as a computer-readable recording medium.
The OM or backup RAM may be incorporated into a computer system for use.

【図面の簡単な説明】[Brief description of drawings]

【図1】 実施例としての処理システムの概略構成を示
すブロック図である。
FIG. 1 is a block diagram showing a schematic configuration of a processing system as an embodiment.

【図2】 実施例の処理システムの動作について、特
に、会話中のキーワードに基づいて情報検索を行い、そ
の検索結果を会話しているユーザに音声にて情報提供す
る処理を示すフローチャートである。
FIG. 2 is a flowchart showing an operation of the processing system of the embodiment, in particular, a process of performing an information search based on a keyword in a conversation and providing the search result by voice to a user having a conversation.

【符号の説明】[Explanation of symbols]

1…処理システム1、2…位置検出器、2a…GPS受
信機、2b…ジャイロスコープ、2c…車速センサ、3
…操作機器、操作機器3a…操作スイッチ群、3b…リ
モコンセンサ、3c…リモコン、音声入力装置4、制御
装置5、5a…位置データ入力部、5b…操作入力検出
部、5c…音声認識部、5d…データ処理部、5e…出
力方法選択部、5f…検索データ格納部、5g…キーワ
ード・文法データ格納部、6…出力装置、6a…通信機
器、6b…音声出力装置、6c…表示装置、7…外部記
憶装置、7a…外部データ入力器、7b…外部記憶媒体
1 ... Processing system 1, 2 ... Position detector, 2a ... GPS receiver, 2b ... Gyroscope, 2c ... Vehicle speed sensor, 3
... operation device, operation device 3a ... operation switch group, 3b ... remote control sensor, 3c ... remote control, voice input device 4, control device 5, 5a ... position data input unit, 5b ... operation input detection unit, 5c ... voice recognition unit, 5d ... Data processing unit, 5e ... Output method selecting unit, 5f ... Search data storage unit, 5g ... Keyword / grammar data storage unit, 6 ... Output device, 6a ... Communication device, 6b ... Voice output device, 6c ... Display device, 7 ... External storage device, 7a ... External data input device, 7b ... External storage medium

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/28 H04M 3/42 ─────────────────────────────────────────────────── ─── Continued Front Page (51) Int.Cl. 7 Identification Code FI Theme Coat (Reference) G10L 15/28 H04M 3/42

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】通信手段と、音声入力手段と、音声出力手
段とを備え、別の通信端末装置のユーザとの間で音声に
よる会話が可能な通信端末装置であって、 前記音声入力手段は、ユーザ間の会話音声を入力可能で
あり、 さらに、 前記音声入力手段を介して入力された会話音声を認識す
る認識手段と、 前記認識手段によって認識した結果を用いて情報検索を
行う検索手段と、 前記検索手段によって検索された結果を、前記音声出力
手段を介して音声にて出力させると共に、前記通信手段
を介して前記別の通信端末装置へも音声データとして送
信する検索結果出力制御手段とを備えていることを特徴
とする通信端末装置。
1. A communication terminal device comprising a communication means, a voice input means, and a voice output means, which enables a voice conversation with a user of another communication terminal device, said voice input means And a recognition unit capable of inputting a conversation voice between the users and further recognizing the conversation voice input through the voice input unit, and a search unit performing an information search using the result recognized by the recognition unit. A search result output control means for outputting the result searched by the search means by voice through the voice output means, and transmitting the result as voice data to the other communication terminal device through the communication means, A communication terminal device comprising:
【請求項2】請求項1記載の通信端末装置において、 前記検索手段は、前記認識手段による認識結果を用いて
自動的に情報検索を行うことを特徴とする通信端末装
置。
2. The communication terminal device according to claim 1, wherein the search means automatically searches for information using the recognition result by the recognition means.
【請求項3】請求項1又は2記載の通信端末装置におい
て、 前記認識手段による認識結果として得られたキーワード
に対して、会話における文脈を考慮した適否判定を行う
文脈判定手段を備え、 前記検索手段は、前記文脈判定手段によって文脈に適合
していると判定されたキーワードを用いて前記情報検索
を行うことを特徴とする通信端末装置。
3. The communication terminal device according to claim 1, further comprising a context determination unit that determines whether or not the keyword obtained as the recognition result by the recognition unit is appropriate in consideration of the context of the conversation. The communication terminal device is characterized in that the means performs the information search by using the keyword determined to be suitable for the context by the context determining means.
【請求項4】請求項3記載の通信端末装置において、 前記文脈判定手段は、話題転換の有無を判定可能であ
り、 前記検索手段は、前記文脈判定手段によって話題転換が
あったと判定された場合には、当該判定以前に前記認識
手段による認識結果として得られたキーワードを前記情
報検索のためには用いないことを特徴とする通信端末装
置。
4. The communication terminal device according to claim 3, wherein the context determining unit can determine whether there is a topic change, and the searching unit determines that the context change has occurred. In the communication terminal device, the keyword obtained as a recognition result by the recognition means before the determination is not used for the information search.
【請求項5】請求項1〜4のいずれか記載の通信端末装
置において、 前記検索結果出力制御手段は、 まず、検索手段によって検索された結果の概要と、詳細
な結果を出力するか否かを尋ねる内容を出力し、 前記音声入力手段を介して入力した会話音声を前記認識
手段によって認識した結果が、前記詳細な結果を出力す
ることを指示している場合には、前記詳細な結果を出力
することを特徴とする通信端末装置。
5. The communication terminal device according to any one of claims 1 to 4, wherein the search result output control means first outputs a summary of the results searched by the search means and whether or not to output a detailed result. Is output, and the result of recognizing the conversational voice input through the voice input unit by the recognition unit indicates that the detailed result is output, the detailed result is displayed. A communication terminal device characterized by outputting.
【請求項6】請求項1〜5のいずれか記載の通信端末装
置において、 前記検索手段は、 前記通信手段あるいは別の通信手段を介して外部のデー
タベースにアクセスして前記情報検索を行うことを特徴
とする通信端末装置。
6. The communication terminal device according to claim 1, wherein the search unit accesses the external database via the communication unit or another communication unit to perform the information search. A characteristic communication terminal device.
【請求項7】請求項1〜6のいずれか記載の通信端末装
置と、所定の処理を実行する処理装置とを備える処理シ
ステムであって、 前記通信端末装置は、前記音声入力手段を介して入力し
た会話音声を前記認識手段によって認識した結果が、前
記検索結果を用いた前記処理装置による所定の処理の実
行を指示している場合、前記処理装置に対してその旨を
通知し、 その通知を受けた前記処理装置は、指示された所定の処
理を実行することを特徴とする処理システム。
7. A processing system comprising: the communication terminal device according to claim 1; and a processing device that executes a predetermined process, wherein the communication terminal device is provided via the voice input means. If the result of recognizing the input conversation voice by the recognizing means indicates the execution of a predetermined process by the processing device using the search result, the processing device is notified of that fact, and the notification is given. The processing system, which receives the instruction, executes a predetermined process instructed.
【請求項8】請求項7記載の処理システムであって、 前記処理装置は、ナビゲーション装置であり、 前記検索結果を用いた前記処理装置による所定の処理
は、検索結果としての地名関連データを目的地とする経
路探索あるいは当該地名関連データに基づく地図表示で
あることを特徴とする処理システム。
8. The processing system according to claim 7, wherein the processing device is a navigation device, and the predetermined process by the processing device using the search result is performed on the place name-related data as the search result. A processing system characterized by a route search for a place or a map display based on the place name-related data.
JP2001212485A 2001-07-12 2001-07-12 Communication terminal and processing system Pending JP2003032388A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001212485A JP2003032388A (en) 2001-07-12 2001-07-12 Communication terminal and processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001212485A JP2003032388A (en) 2001-07-12 2001-07-12 Communication terminal and processing system

Publications (1)

Publication Number Publication Date
JP2003032388A true JP2003032388A (en) 2003-01-31

Family

ID=19047638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001212485A Pending JP2003032388A (en) 2001-07-12 2001-07-12 Communication terminal and processing system

Country Status (1)

Country Link
JP (1) JP2003032388A (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007121792A1 (en) * 2006-04-20 2007-11-01 Sony Ericsson Mobile Communications Ab Method and system for retrieving information
JP2007295489A (en) * 2006-04-27 2007-11-08 Kyocera Corp Group communication management apparatus, communication terminal, and communication method
JP2011513795A (en) * 2008-03-07 2011-04-28 グーグル・インコーポレーテッド Speech recognition grammar selection based on context
JP2011205238A (en) * 2010-03-24 2011-10-13 Ntt Docomo Inc Communication terminal and information retrieval method
CN102272789A (en) * 2009-01-09 2011-12-07 微软公司 Enhanced voicemail usage through automatic voicemail preview
JP2013254395A (en) * 2012-06-07 2013-12-19 Ricoh Co Ltd Processing apparatus, processing system, output method and program
CN105657198A (en) * 2016-02-22 2016-06-08 联想(北京)有限公司 Processing method and device for obtaining operation of opposite party for communication and terminal
CN105814535A (en) * 2013-09-25 2016-07-27 亚马逊技术股份有限公司 In-call virtual assistants
JP2018525751A (en) * 2015-09-28 2018-09-06 百度在線網絡技術(北京)有限公司 Interactive control method and apparatus for voice and video calls
JP2019120859A (en) * 2018-01-10 2019-07-22 トヨタ自動車株式会社 Communication system, communication method, and program
JP2019192121A (en) * 2018-04-27 2019-10-31 シャープ株式会社 Voice input device and remote dialogue system
JP2021132240A (en) * 2020-02-18 2021-09-09 Necプラットフォームズ株式会社 Packet monitoring device, private branch exchanger, virtual assistant calling method, and program

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007121792A1 (en) * 2006-04-20 2007-11-01 Sony Ericsson Mobile Communications Ab Method and system for retrieving information
JP2007295489A (en) * 2006-04-27 2007-11-08 Kyocera Corp Group communication management apparatus, communication terminal, and communication method
US9858921B2 (en) 2008-03-07 2018-01-02 Google Inc. Voice recognition grammar selection based on context
JP2011513795A (en) * 2008-03-07 2011-04-28 グーグル・インコーポレーテッド Speech recognition grammar selection based on context
US8527279B2 (en) 2008-03-07 2013-09-03 Google Inc. Voice recognition grammar selection based on context
US11538459B2 (en) 2008-03-07 2022-12-27 Google Llc Voice recognition grammar selection based on context
US10510338B2 (en) 2008-03-07 2019-12-17 Google Llc Voice recognition grammar selection based on context
CN102272789A (en) * 2009-01-09 2011-12-07 微软公司 Enhanced voicemail usage through automatic voicemail preview
JP2012514938A (en) * 2009-01-09 2012-06-28 マイクロソフト コーポレーション Use advanced voicemail through automatic voicemail preview
JP2011205238A (en) * 2010-03-24 2011-10-13 Ntt Docomo Inc Communication terminal and information retrieval method
JP2013254395A (en) * 2012-06-07 2013-12-19 Ricoh Co Ltd Processing apparatus, processing system, output method and program
JP2016533690A (en) * 2013-09-25 2016-10-27 アマゾン テクノロジーズ インコーポレイテッド Virtual assistant during a call
US10134395B2 (en) 2013-09-25 2018-11-20 Amazon Technologies, Inc. In-call virtual assistants
CN105814535B (en) * 2013-09-25 2019-12-03 亚马逊技术股份有限公司 Virtual assistant in calling
CN105814535A (en) * 2013-09-25 2016-07-27 亚马逊技术股份有限公司 In-call virtual assistants
JP2018525751A (en) * 2015-09-28 2018-09-06 百度在線網絡技術(北京)有限公司 Interactive control method and apparatus for voice and video calls
CN105657198A (en) * 2016-02-22 2016-06-08 联想(北京)有限公司 Processing method and device for obtaining operation of opposite party for communication and terminal
JP2019120859A (en) * 2018-01-10 2019-07-22 トヨタ自動車株式会社 Communication system, communication method, and program
JP7062958B2 (en) 2018-01-10 2022-05-09 トヨタ自動車株式会社 Communication system and communication method
JP2019192121A (en) * 2018-04-27 2019-10-31 シャープ株式会社 Voice input device and remote dialogue system
JP7133969B2 (en) 2018-04-27 2022-09-09 シャープ株式会社 Voice input device and remote dialogue system
JP2021132240A (en) * 2020-02-18 2021-09-09 Necプラットフォームズ株式会社 Packet monitoring device, private branch exchanger, virtual assistant calling method, and program
JP7001241B2 (en) 2020-02-18 2022-01-19 Necプラットフォームズ株式会社 Packet monitoring device, private branch exchange, virtual assistant calling method, and program

Similar Documents

Publication Publication Date Title
JP4292646B2 (en) User interface device, navigation system, information processing device, and recording medium
KR101875819B1 (en) Disambiguating input based on context
US7822613B2 (en) Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus
JP4353212B2 (en) Word string recognition device
US20150032374A1 (en) Information Terminal, Server Device, Searching System, and Searching Method Thereof
WO2015162638A1 (en) User interface system, user interface control device, user interface control method and user interface control program
JP5637131B2 (en) Voice recognition device
US20020010579A1 (en) Speech recognition apparatus and method using two opposite words
CA2646340A1 (en) Method for providing external user automatic speech recognition dictation recording and playback
JP4466379B2 (en) In-vehicle speech recognition device
JP2001034292A (en) Word string recognizing device
JP2003032388A (en) Communication terminal and processing system
WO2016174955A1 (en) Information processing device and information processing method
JP2004334228A (en) Word string recognition device
JP2009230068A (en) Voice recognition device and navigation system
JPH0850698A (en) Audio interactive navigation device
JP3296783B2 (en) In-vehicle navigation device and voice recognition method
JP3500948B2 (en) Voice recognition device
JP4705398B2 (en) Voice guidance device, control method and program for voice guidance device
JP4300596B2 (en) Car navigation system
KR100749088B1 (en) Conversation type navigation system and method thereof
JP3985668B2 (en) Navigation device
JP4093394B2 (en) Voice recognition device
JP2003209867A (en) Data transmission method for mobile communication apparatus, data reception method for the mobile communication apparatus, the mobile communication apparatus and voice portal system
JP6109373B2 (en) Server apparatus and search method