JP6069157B2 - Information processing apparatus, control method, and program - Google Patents
Information processing apparatus, control method, and program Download PDFInfo
- Publication number
- JP6069157B2 JP6069157B2 JP2013204746A JP2013204746A JP6069157B2 JP 6069157 B2 JP6069157 B2 JP 6069157B2 JP 2013204746 A JP2013204746 A JP 2013204746A JP 2013204746 A JP2013204746 A JP 2013204746A JP 6069157 B2 JP6069157 B2 JP 6069157B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- attribute
- text information
- search
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 103
- 230000010365 information processing Effects 0.000 title claims description 51
- 230000008569 process Effects 0.000 claims description 86
- 238000012545 processing Methods 0.000 claims description 20
- 230000001502 supplementing effect Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 9
- 230000004044 response Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 235000021167 banquet Nutrition 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、情報処理装置、制御方法、及びプログラムに関する。 The present invention relates to an information processing apparatus, a control method, and a program.
近年、文字、音声、図形、映像等のマルチメディアを入力、出力、及び加工処理することで、人間とコンピュータとの対話を様々な形態で行うことが可能となっている。特に、最近になって、メモリ容量やパーソナルコンピュータ(以下、PCともいう。)の処理能力が飛躍的に向上したことで、マルチメディアを取り扱うことができるPCが開発され、種々のアプリケーションが開発されてきている。これらは何れも単に種々のマルチメディアを出し入れするだけのもので各種マルチメディアを有機的に融合するまでには至っていない。 In recent years, it has become possible to interact with humans and computers in various forms by inputting, outputting, and processing multimedia such as characters, sounds, graphics, and images. In particular, recently, due to the dramatic improvement in memory capacity and processing capacity of personal computers (hereinafter also referred to as PCs), PCs that can handle multimedia have been developed, and various applications have been developed. It is coming. All of these are simply for putting in and out various multimedia, and have not yet achieved an organic fusion of various multimedia.
一方、従来からの数値データに代わり、文字を含む言語データが一般的になり、白黒のイメージデータはカラー化や図形、アニメーション、三次元グラフィックス、さらには動画が扱えるように拡張されてきている。また、音声やオーディオ信号についても、単なる音声信号レベルの入出力の他に、音声認識や音声合成の機能が研究開発されつつある。しかし、マンマシンインタフェースとして使用するには性能が不安定で、実用化は限定された分野に限られているのが現状である。 On the other hand, language data including characters has become common instead of conventional numerical data, and black and white image data has been expanded to handle colorization, graphics, animation, 3D graphics, and even moving images. . In addition to voice signal level input / output, voice recognition and voice synthesis functions are being researched and developed for voice and audio signals. However, its performance is unstable for use as a man-machine interface, and its practical use is limited to limited fields.
このように、上述した文字、テキスト、音声、グラフィックデータ等については、従来の入出力処理(記録、再生)から各種メディアへの展開や生成機能へと発展が続いている。換言すれば、各メディアの表面的な処理からメディアの内容や構造、意味的内容を取り扱い、人間とPCとの間の対話をより自然に快適に行うことを目的として、音声やグラフィックス等のメディアの融合や生成を利用する対話システムの構築が検討されつつある。 As described above, the above-described character, text, voice, graphic data, and the like continue to develop from conventional input / output processing (recording and playback) to various media and generation functions. In other words, for the purpose of handling the content, structure, and semantic content of the media from the surface processing of each media, and making conversations between humans and PCs more natural and comfortable, such as voice and graphics The construction of a dialogue system that uses media fusion and generation is being studied.
ここで、対話システムに用いられる音声検索とは、文字列ではなく、発話する声により話しかけることで検索できる技術やサービスのことを指す。近年では、Apple(登録商標)iOSに搭載されるSiri(登録商標)や、Google(登録商標)音声検索が知られている。また、最近では、音声操作できるカーナビ、一部のメーカーが発売する音声による操作や番組検索が可能なテレビ、話しかけるとそのまま指定した言語に翻訳してくれる携帯電話やスマートフォン等も出てきている。このように近年、音声解析技術を使ったサービスが登場してきている。 Here, the voice search used in the dialogue system refers to a technology or service that can be searched by speaking with a voice to be spoken instead of a character string. In recent years, Siri (registered trademark) installed in Apple (registered trademark) iOS and Google (registered trademark) voice search are known. In addition, recently, car navigation systems that can be operated by voice, TVs that can be operated by voice and program search, which are released by some manufacturers, mobile phones and smartphones that translate into a specified language when spoken are also available. Thus, in recent years, services using voice analysis technology have appeared.
ところで、音声検索は、キーボードやタッチパネルで文字列を打つ必要がないので、両手が塞がっている時でも情報にアクセスでき、発声という直感的なアプローチが可能である。そして、検索結果に該当するものをPCによる音声を用いた回答で得ることができれば、対話によりインターネットから欲しい情報を容易に取り出せるようになる、等の理由から、将来性が期待されている。 By the way, since voice search does not require typing a character string with a keyboard or a touch panel, information can be accessed even when both hands are closed, and an intuitive approach of speaking is possible. If a search result corresponding to a search result can be obtained by a voice using a PC, the future is expected for the reason that it becomes possible to easily retrieve desired information from the Internet through dialogue.
しかしながら、現状、インターネットを用いた音声検索は、それ程普及が進んでいるとはいえない。音声検索の普及が進まない原因として考えられるのが、検索サービスにおける音声認識の難しさ、その汎用性にある。すなわち、テレビに搭載されている音声認識は、基本的にテレビ番組名や出演者名等、番組と人物に関連する物事や、テレビ操作に関連する物事が認識できれば足りるのである。同様にカーナビであれば、基本的に住所・施設名等、地図情報に関連する物事を認識できれば良いのである。 However, at present, voice search using the Internet is not so popular. One of the reasons why voice search is not widespread is the difficulty of voice recognition in search services and its versatility. That is, it is sufficient for the voice recognition installed in the television to be able to recognize basically the things related to the program and the person, such as the name of the television program and the performer, and the things related to the television operation. Similarly, in the case of a car navigation system, it is basically only necessary to be able to recognize things related to map information such as addresses and facility names.
例えば、カーナビで入力する住所は、東京都○○区△△町等のように定型化されているので、連続的な音声を認識した時に、○○、△△に入る文言を特定できれば良いので、結果的に精度は良くなる。このように、特定用途の機器であれば、認識すべき範囲や文脈はある程度絞り込むことができる、つまり候補を限定することができる。しかしながら、汎用的な検索サービスではそうはいかないのが現状である。 For example, the address to be entered in the car navigation system is standardized as in Tokyo, Tokyo, etc. △△ Town, etc., so it is only necessary to be able to identify the words that enter OO, △△ when recognizing continuous speech. As a result, accuracy is improved. As described above, in the case of a specific purpose device, the range and context to be recognized can be narrowed down to some extent, that is, candidates can be limited. However, this is not the case with general-purpose search services.
このように、音声認識については、単一単語認識から連続単語認識、連続音声認識へと発展しており、実用化のために応用を限定した方向でも開発が進められている。このような応用場面では、音声対話システムとして、音声の文字面の認識よりも音声の発話内容の理解が重要であり、例えば、キーワードスポッティングをベースに応用分野の知識を利用した音声理解システムも研究されてきている。 As described above, speech recognition has progressed from single word recognition to continuous word recognition and continuous speech recognition, and is being developed in a direction in which application is limited for practical use. In such application situations, understanding speech utterances is more important than speech character recognition as a speech dialogue system. For example, research on speech understanding systems that use knowledge of application fields based on keyword spotting Has been.
他方、音声等のメディアの理解と生成は、単なるデータの入出力とは異なり、メディアの変換の際に発生する情報の欠落やエラーが不可避である。すなわち、音声理解は情報量の多い音声パターンデータから音声の発話の内容や発話者の意図を抽出する処理であり、情報の圧縮を行う過程で音声認識エラーや曖昧性が生じる。したがって、音声対話システムとしては上述した認識エラーや曖昧性等の音声認識の不完全さに対処するため、PC側からユーザに対して適切な質問や確認を行い、対話制御によりスムーズに対話を進行する必要がある。 On the other hand, the understanding and generation of media such as voice is unavoidable in the absence of information and errors that occur during media conversion, unlike simple data input / output. That is, speech understanding is a process of extracting speech utterance content and speaker's intention from speech pattern data with a large amount of information, and speech recognition errors and ambiguity occur in the process of compressing information. Therefore, as a speech dialogue system, in order to deal with the above-mentioned speech recognition imperfections such as recognition errors and ambiguities, appropriate questions and confirmations are made to the user from the PC side, and the dialogue proceeds smoothly through dialogue control. There is a need to.
そして、音声対話システムにおいて、PC側からユーザに対して質問や確認を行った結果、ユーザ側から必要とされる回答と異なる回答が寄せられたとき、PC側では、ユーザに対して再度聞き返す、又は必要としている回答とは異なる旨を通知している。しかし、PCがユーザに対して再度聞き返したり、必要としている回答とは異なる旨を通知したりしても、ユーザから的確な回答が得られないときは、ユーザからの回答が無視される場合もある。 Then, in the spoken dialogue system, as a result of performing a question or confirmation to the user from the PC side, when an answer different from the answer required from the user side is received, the PC side asks the user again. Or it notifies that it is different from the required answer. However, even if the PC asks the user again or notifies the user that the answer is different from the required answer, if the user cannot get an accurate answer, the answer from the user may be ignored. is there.
そして、特許文献1には、音声認識した複数の候補の中に、ユーザによって音声入力された指定カテゴリに属するものがなければ、再度の音声入力を促すメッセージを出力する音声認識装置が記載されている。 Patent Document 1 describes a voice recognition device that outputs a message that prompts another voice input if a plurality of voice-recognized candidates do not belong to a designated category that is voice-input by a user. Yes.
上述したように、従来の音声認識、音声合成技術を利用した音声対話システムは、それぞれ別個に開発された音声認識、音声合成、画面表示の各技術を単に組み合わせただけのものであり、音声の対話という観点からの十分な考慮がなされていないという問題がある。すなわち、音声認識機能には、認識誤りや曖昧性があり、音声合成機能は人間の発声よりも明りょう度が悪く、イントネーションの制御も不十分であるため、意図や感情の伝達能力が不足しており、自然性に欠けるという根本的な問題がある。 As described above, a conventional speech dialogue system using speech recognition and speech synthesis technology is a simple combination of speech recognition, speech synthesis, and screen display technologies developed separately. There is a problem that sufficient consideration is not given from the viewpoint of dialogue. In other words, the speech recognition function has recognition errors and ambiguity, and the speech synthesis function has poorer clarity than human utterance and insufficient control of intonation, resulting in insufficient ability to transmit intentions and emotions. And there is a fundamental problem of lack of naturalness.
また、音声認識装置の認識率は向上してきているが、語彙数が増大してくると誤認識を回避することは難しくなる。そして、誤認識した場合の対応として、「戻る」操作がある。これは、誤認識を破棄して、再度入力し直すというものである。しかし、この方法では、一回目と同じ認識対象を再認識させたとしても認識率の大幅な向上は見られず、結果的にユーザが意図した単語を認識できなくなる事態が多々発生する可能性が高い。そして、誤認識に対して何度も同じ単語を発生させることとなるため、認識率が低く感じられ、ユーザの信頼を失ってしまうという問題がある。 Moreover, although the recognition rate of the speech recognition apparatus has been improved, it becomes difficult to avoid misrecognition as the number of vocabulary increases. Then, as a response to the case of erroneous recognition, there is a “return” operation. This is to discard the misrecognition and input again. However, with this method, even if the same recognition target as the first time is re-recognized, the recognition rate is not significantly improved, and as a result, there are many possibilities that the user cannot recognize the intended word. high. And since the same word will be generated many times with respect to misrecognition, there exists a problem that a recognition rate is felt low and a user's trust is lost.
そして、特許文献1に記載された技術では、ユーザによって音声入力されるメッセージに対応する回答が得られない場合、そのメッセージに対して追随して検索することなく、再検索を行うための新たな音声を入力して欲しい旨のメッセージをユーザに対して出力し、新たな音声入力に類似する候補の再検索を行っており、ユーザによって入力されるメッセージに対してフレキシブルに対応することができないという問題がある。 In the technique described in Patent Literature 1, when an answer corresponding to a message input by voice by the user cannot be obtained, a new search for re-searching is performed without searching for the message. A message that the user wants to input speech is output to the user, and a candidate similar to the new speech input is searched again, and the message input by the user cannot be flexibly handled. There's a problem.
そこで本発明は、上記従来の問題点に鑑みてなされたもので、検索を継続するために必要とされる質問に対して的外れな回答が寄せられたとしても、その的外れな回答の意図を汲んで、追随して検索を継続することが可能な情報処理装置、制御方法、及びプログラムを提供することを目的とする。 Accordingly, the present invention has been made in view of the above-described conventional problems, and even if an inappropriate answer is given to a question required for continuing a search, the intention of the inappropriate answer is drawn. An object of the present invention is to provide an information processing apparatus, a control method, and a program capable of following and continuing a search.
上記課題を解決するため、請求項1に記載の本発明における情報処理装置は、入力される音声情報をテキスト情報に変換する手段と、前記変換されたテキスト情報を分節する手段と、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースと、前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける手段と、前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する手段と、を含み、前記対応付けされたサーバから所定の属性に対応する情報を検索する際、文節されたテキスト情報が如何なる属性に対応する情報であるかを判定し、前記文節されたテキスト情報に属性を確定しない要素が存在すると判断すると、属性を確定するための音声情報を要求し、前記文節されたテキスト情報に属性を確定しない要素が存在しないと判断すると、前記文節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを特定し、前記音声情報を要求しても、前記文節されたテキスト情報の属性を確定するための音声情報が得られないと判断すると、前記一時保存する手段に保存されている過去に分節されたテキスト情報と前記過去に分節されたテキスト情報から得られた属性との対応関係に基づいて推測された属性に対応する情報を保有しているサーバを特定することを特徴とする。 In order to solve the above-mentioned problem, the information processing apparatus according to the present invention described in claim 1 is provided with means for converting input speech information into text information, means for segmenting the converted text information, and externally provided. An attribute obtained from the segmented text information based on the information stored in advance in the database that stores in advance information on what attribute each of the plurality of servers has. And means for associating each of the servers holding the information corresponding to the attribute, and means for temporarily storing the correspondence between the segmented text information and the attribute obtained from the text information , information when searching for information corresponding to a predetermined attribute from the being correspondence server, that clause text information corresponds to any attribute If it is determined that there is an element that does not determine the attribute in the phrased text information, the voice information for determining the attribute is requested, and the element that does not determine the attribute exists in the phrased text information. If it is determined not to identify the server having information corresponding to the attribute obtained from the phrased text information, and to determine the attribute of the phrased text information even if the voice information is requested Is determined based on the correspondence between the text information segmented in the past stored in the means for temporarily storing and the attributes obtained from the text information segmented in the past. A server having information corresponding to the attribute is specified .
また、本発明における情報処理装置は、請求項1に記載の情報処理装置において、前記特定したサーバを用いて所定の属性に対応する情報を検索する際、前記文節されたテキスト情報が検索を実行するための必須項目をすべて満たしているか否かを判断し、前記文節されたテキスト情報が検索を実行するための必須項目をすべて満たしていないと判断すると、前記満たしていない必須項目を補充するための音声情報を要求し、前記分節されたテキスト情報が検索を実行するための必須項目をすべて満たしていると判断すると、前記特定したサーバを用いて検索を開始し、前記音声情報を要求しても、前記文節されたテキスト情報が検索を実行するための必須項目をすべて満たすための音声情報が得られないと判断すると、前記一時保存する手段に保存されている過去に分節されたテキスト情報と前記過去に分節されたテキスト情報から得られた属性との対応関係に基づいて推測された属性に対応する情報を保有しているサーバを用いて検索を開始することを特徴とする。 The information processing apparatus according to the present invention is the information processing apparatus according to claim 1, wherein when searching for information corresponding to a predetermined attribute using the identified server, the phrased text information is searched. In order to replenish the essential items that are not satisfied, if it is determined whether or not all of the essential items for the search are satisfied, and it is determined that the phrased text information does not satisfy all the required items for performing the search And when it is determined that the segmented text information satisfies all the required items for performing the search, the search is started using the specified server, and the voice information is requested. However, if it is determined that speech information for satisfying all the required items for performing the search cannot be obtained, the stored text information can be temporarily stored. Using a server that holds information corresponding to an attribute estimated based on a correspondence relationship between text information segmented in the past stored in the text and attributes obtained from the text information segmented in the past The search is started .
さらに、本発明における情報処理装置は、請求項2に記載の情報処理装置において、前記検索が開始された結果、所定の属性に対応する情報の情報量が所定の閾値以上であるか否かを判断し、前記所定の属性に対応する情報の情報量が前記所定の閾値以上であると判断すると、前記所定の属性に対応する情報の情報量を前記所定の閾値未満に絞り込むための音声情報を要求し、前記所定の属性に対応する情報の情報量が前記所定の閾値未満であると判断すると、検索を実行して得られた検索結果を出力することを特徴とする。 Furthermore, the information processing apparatus according to the present invention is the information processing apparatus according to claim 2, wherein, as a result of the search being started, whether or not an information amount of information corresponding to a predetermined attribute is equal to or greater than a predetermined threshold value. If it is determined that the information amount of the information corresponding to the predetermined attribute is equal to or greater than the predetermined threshold, the audio information for narrowing the information amount of the information corresponding to the predetermined attribute to less than the predetermined threshold When the request is made and it is determined that the amount of information corresponding to the predetermined attribute is less than the predetermined threshold, a search result obtained by executing the search is output .
また、上記課題を解決するため、請求項4に記載の本発明における情報処理装置の制御方法は、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースを有する情報処理装置の制御方法であって、入力される音声情報をテキスト情報に変換する工程と、前記変換されたテキスト情報を分節する工程と、前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける工程と、前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する工程と、前記対応付ける工程により対応付けされたサーバから所定の属性に対応する情報を検索する際、文節されたテキスト情報が如何なる属性に対応する情報であるかを判定する工程と、前記文節されたテキスト情報に属性を確定しない要素が存在するかどうかを判断する工程と、前記判断する工程により、前記文節されたテキスト情報に属性を確定しない要素が存在すると判断すると、属性を確定するための音声情報を要求する工程と、前記判断する工程により、前記文節されたテキスト情報に属性を確定しない要素が存在しないと判断すると、前記文節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを特定する工程と、前記音声情報を要求する工程により前記音声情報を要求しても、前記文節されたテキスト情報の属性を確定するための音声情報が得られないと判断すると、前記一時保存する工程により保存されている過去に分節されたテキスト情報と前記過去に分節されたテキスト情報から得られた属性との対応関係に基づいて推測された属性に対応する情報を保有しているサーバを特定する工程と、を含むことを特徴とする。 Further, in order to solve the above-mentioned problem, the control method of the information processing apparatus according to the present invention described in claim 4 is that each of a plurality of servers provided outside has information corresponding to what attribute. A method for controlling an information processing apparatus having a database for storing information in advance, the step of converting input speech information into text information, the step of segmenting the converted text information, and the database stored in the database A step of associating an attribute obtained from the segmented text information with a server having information corresponding to the attribute based on the information, and the segmented text information and the text information a step of temporarily store the correspondence between the attribute information corresponding to the predetermined attribute from the server that is associated with the said associating step When searching the steps of clause text information is determined and determining whether the information corresponding to any attribute, whether the clauses are elements that do not confirm the attribute in the text information exists, the determination If it is determined that there is an element that does not determine the attribute in the phrased text information, the step of requesting voice information for determining the attribute, and the step of determining include the attribute in the phrased text information. The voice information is requested by the step of identifying a server having information corresponding to the attribute obtained from the sentenced text information and the step of requesting the voice information. However, if it is determined that the voice information for determining the attribute of the text information that has been phrased cannot be obtained, the temporary storage process is performed. Identifying a server which holds information corresponding to the inferred attributes based on the correspondence relationship of the text information segment in the past is stored, and an attribute obtained from the text information segmented in the past by And a process.
そして、本発明における情報処理装置の制御方法は、請求項4に記載の情報処理装置の制御方法において、前記特定する工程により特定したサーバを用いて所定の属性に対応する情報を検索する際、前記文節されたテキスト情報が検索を実行するための必須項目をすべて満たしているか否かを判断する工程と、前記判断する工程により、前記文節されたテキスト情報が検索を実行するための必須項目をすべて満たしていないと判断すると、前記満たしていない必須項目を補充するための音声情報を要求する工程と、前記判断する工程により、前記文節されたテキスト情報が検索を実行するための必須項目をすべて満たしていると判断すると、前記特定したサーバを用いて検索を開始する工程と、前記音声情報を要求する工程により前記音声情報を要求しても、前記文節されたテキスト情報が検索を実行するための必須項目をすべて満たすための音声情報が得られないと判断すると、前記一時保存する工程により保存されている過去に分節されたテキスト情報と前記過去に分節されたテキスト情報から得られた属性との対応関係に基づいて推測された属性に対応する情報を保有しているサーバを用いて検索を開始する工程と、を含むことを特徴とする。 The information processing apparatus control method according to the present invention is the information processing apparatus control method according to claim 4, wherein when searching for information corresponding to a predetermined attribute using the server specified by the specifying step, Determining whether the phrased text information satisfies all the required items for performing the search, and determining the required items for the phrased text information to perform the search by the determining step. If it is determined that all of the required items are not satisfied, the step of requesting voice information for replenishing the required items that are not satisfied and the step of determining determine all the required items for the text information segmented to perform a search. If it is determined that the voice information is satisfied, the voice information is obtained by starting a search using the specified server and requesting the voice information. If it is determined that the speech information for satisfying all the required items for performing the search cannot be obtained even if the text information segmented is requested, the segmented text information is segmented into the past stored by the temporarily storing step. Starting a search using a server having information corresponding to the attribute estimated based on the correspondence between the text information obtained and the attribute obtained from the text information segmented in the past. It is characterized by that.
また、本発明における情報処理装置の制御方法は、請求項5に記載の情報処理装置の制御方法において、前記検索を開始する工程により前記検索が開始された結果、所定の属性に対応する情報の情報量が所定の閾値以上であるか否かを判断する工程と、前記判断する工程により、前記所定の属性に対応する情報の情報量が前記所定の閾値以上であると判断すると、前記所定の属性に対応する情報の情報量を前記所定の閾値未満に絞り込むための音声情報を要求する工程と、前記判断する工程により、前記所定の属性に対応する情報の情報量が前記所定の閾値未満であると判断すると、検索を実行して得られた検索結果を出力する工程と、を含むことを特徴とする。 The information processing apparatus control method according to the present invention is the information processing apparatus control method according to claim 5, wherein as a result of the search being started by the search starting step, information corresponding to a predetermined attribute is stored. If the information amount corresponding to the predetermined attribute is determined to be greater than or equal to the predetermined threshold by the step of determining whether the information amount is equal to or greater than the predetermined threshold and the step of determining, the predetermined amount The information amount of information corresponding to the predetermined attribute is less than the predetermined threshold by the step of requesting audio information for narrowing the information amount of information corresponding to the attribute to less than the predetermined threshold and the determining step. And a step of outputting a search result obtained by executing the search .
さらに、上記課題を解決するため、請求項7に記載の本発明におけるプログラムは、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースを有する情報処理装置のコンピュータに、入力される音声情報をテキスト情報に変換する処理と、前記変換されたテキスト情報を分節する処理と、前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける処理と、前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する処理と、前記対応付ける処理により対応付けされたサーバから所定の属性に対応する情報を検索する際、文節されたテキスト情報が如何なる属性に対応する情報であるかを判定する処理と、前記文節されたテキスト情報に属性を確定しない要素が存在するかどうかを判断する処理と、前記判断する処理により、前記文節されたテキスト情報に属性を確定しない要素が存在すると判断すると、属性を確定するために必要な音声情報を要求する処理と、前記判断する処理により、前記文節されたテキスト情報に属性を確定しない要素が存在しないと判断すると、前記文節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを特定する処理と、前記音声情報を要求する処理により前記音声情報を要求しても、前記文節されたテキスト情報の属性を確定するための音声情報が得られないと判断すると、前記一時保存する処理により保存されている過去に分節されたテキスト情報と前記過去に分節されたテキスト情報から得られた属性との対応関係に基づいて推測された属性に対応する情報を保有しているサーバを特定する処理と、を実現させることを特徴とする。 Furthermore, in order to solve the above-described problem, the program according to the present invention described in claim 7 stores in advance information indicating what attribute each of a plurality of externally provided servers has. Based on the information stored in the database, the processing for converting speech information input to the text information into the computer of the information processing apparatus having a database, the processing for segmenting the converted text information, A process for associating each attribute obtained from the text information with a server having information corresponding to the attribute, and temporarily storing the correspondence between the segmented text information and the attribute obtained from the text information a process for, when searching for information corresponding to a predetermined attribute from a correspondence server by the associating process By the process of determining what attribute the phrased text information corresponds to, the process of determining whether there is an element that does not determine the attribute in the phrased text information, and the process of determining If it is determined that there is an element that does not determine the attribute in the phrased text information, the attribute is determined in the phrased text information by the process of requesting voice information necessary for determining the attribute and the determination process. If it is determined that there is no element to be requested, the voice information is requested by the process of specifying a server that holds information corresponding to the attribute obtained from the sentenced text information and the process of requesting the voice information. However, if it is determined that voice information for determining the attribute of the phrased text information cannot be obtained, the temporary storage processing is performed. Processing for specifying a server that holds information corresponding to attributes that are estimated based on the correspondence between the text information segment in the past is stored, and an attribute obtained from the text information segmented in the past And realizing the above.
また、本発明におけるプログラムは、請求項7に記載のプログラムにおいて、前記特定する処理により特定したサーバを用いて所定の属性に対応する情報を検索する際、前記文節されたテキスト情報が検索を実行するための必須項目をすべて満たしているか否かを判断する処理と、前記判断する処理により、前記文節されたテキスト情報が検索を実行するための必須項目をすべて満たしていないと判断すると、前記満たしていない必須項目を補充するための音声情報を要求する処理と、前記判断する処理により、前記分節されたテキスト情報が検索を実行するための必須項目をすべて満たしていると判断すると、前記特定したサーバを用いて検索を開始する処理と、前記音声情報を要求する処理により前記音声情報を要求しても、前記文節されたテキスト情報が検索を実行するための必須項目をすべて満たすための音声情報が得られないと判断すると、前記一時保存する処理により保存されている過去に分節されたテキスト情報と前記過去に分節されたテキスト情報から得られた属性との対応関係に基づいて推測された属性に対応する情報を保有しているサーバを用いて検索を開始する処理と、を実現させることを特徴とする。 The program according to the present invention is the program according to claim 7, wherein when searching for information corresponding to a predetermined attribute using the server specified by the specified process, the phrased text information is searched. If it is determined by the process for determining whether or not all the required items for the search are satisfied and the determined text information does not satisfy all the required items for performing the search, If it is determined that the segmented text information satisfies all of the required items for performing the search by the process of requesting voice information for supplementing the required non-required items and the process of determining, the specified Even if the voice information is requested by the process of starting a search using a server and the process of requesting the voice information, If it is determined that the voice information for satisfying all the required items for executing the search cannot be obtained, the text information segmented in the past and the past segmented text information stored by the temporary storage processing And a process of starting a search using a server having information corresponding to an attribute estimated based on a correspondence relationship with the attribute obtained from the text information .
そして、本発明におけるプログラムは、請求項8に記載のプログラムにおいて、前記検索を開始する処理により前記検索が開始された結果、所定の属性に対応する情報の情報量が所定の閾値以上であるか否かを判断する処理と、前記判断する処理により、前記所定の属性に対応する情報の情報量が前記所定の閾値以上であると判断すると、前記所定の属性に対応する情報の情報量を前記所定の閾値未満に絞り込むための音声情報を要求する処理と、前記判断する処理により、前記所定の属性に対応する情報の情報量が前記所定の閾値未満であると判断すると、検索を実行して得られた検索結果を出力する処理と、を実現させることを特徴とする。 The program according to the present invention is the program according to claim 8, wherein, as a result of the search being started by the process of starting the search, an information amount of information corresponding to a predetermined attribute is greater than or equal to a predetermined threshold value. If it is determined that the information amount of the information corresponding to the predetermined attribute is greater than or equal to the predetermined threshold by the process of determining whether or not and the determining process, the information amount of the information corresponding to the predetermined attribute is If it is determined that the amount of information corresponding to the predetermined attribute is less than the predetermined threshold by the process of requesting voice information for narrowing down below the predetermined threshold and the determination, the search is performed. And a process of outputting the obtained search result .
本発明によれば、検索を継続するために必要とされる質問に対して的外れな回答が寄せられたとしても、その的外れな回答の意図を汲んで、追随して検索を継続することが可能な情報処理装置、制御方法、及びプログラムが得られる。 According to the present invention, even if an unreasonable answer is given to a question required for continuing the search, it is possible to continue the search by following the intention of the inappropriate answer. Information processing apparatus, control method, and program can be obtained.
次に、本発明を実施するための形態について図面を参照して詳細に説明する。なお、各図中、同一又は相当する部分には同一の符号を付しており、その重複説明は適宜に簡略化乃至省略する。本発明の内容を簡潔に説明すると、入力される音声情報をテキスト情報に変換する手段と、変換されたテキスト情報を分節する手段と、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースと、データベースに格納された情報に基づいて、分節されたテキスト情報から得られる属性と、属性に対応する情報を保有しているサーバとをそれぞれを対応付ける手段と、分節されたテキスト情報とテキスト情報から得られる属性との対応関係を一時保存する手段と、対応付けされたサーバから属性に対応する情報を検索する手段と、検索により得られた属性に対応する情報の情報量が所定の閾値以上であるか否かを判断する手段と、情報量が所定の閾値以上であると判断すると、情報量を絞り込むための音声情報を要求する手段と、情報量を絞り込めない音声情報を獲得しても、対応関係に基づいて、音声情報を変換し、分節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを特定し、サーバの中から属性に対応する所定の情報量を有する情報を検索する手段と、を含むことにより、検索を継続するために必要とされる質問に対して的外れな回答が寄せられたとしても、その的外れな回答の意図を汲んで、追随して検索を継続することができるのである。 Next, embodiments for carrying out the present invention will be described in detail with reference to the drawings. In addition, in each figure, the same code | symbol is attached | subjected to the part which is the same or it corresponds, The duplication description is simplified thru | or abbreviate | omitted suitably. The contents of the present invention will be briefly described. Means for converting input speech information into text information, means for segmenting the converted text information, and each of a plurality of externally provided servers have any attribute. A database that stores in advance information indicating whether or not the corresponding information is held, an attribute obtained from the segmented text information based on the information stored in the database, and a server that holds the information corresponding to the attribute; Obtained by searching, means for temporarily storing the correspondence between segmented text information and attributes obtained from the text information, means for retrieving information corresponding to the attributes from the associated server, and Means for determining whether the information amount of information corresponding to the given attribute is equal to or greater than a predetermined threshold, and determining that the information amount is equal to or greater than the predetermined threshold And means for requesting speech information for narrowing down the amount of information, and even if speech information that cannot narrow down the amount of information is acquired, the speech information is converted based on the correspondence and obtained from segmented text information Means for identifying the server holding the information corresponding to the attribute, and searching for information having a predetermined amount of information corresponding to the attribute from the server. Even if an unreasonable answer is given to a question, the search can be continued following the intention of the unreasonable answer.
まず、図1を用いて本発明の実施形態における情報処理装置の構成について説明する。図1は、本発明の実施形態における情報処理装置の構成について説明する概略ブロック図である。図1を参照すると、本発明の実施形態における情報処理装置100は、電子情報端末、PDA、ノート型PC、タブレット型PC等を具体例とする情報処理装置である。
First, the configuration of the information processing apparatus according to the embodiment of the present invention will be described with reference to FIG. FIG. 1 is a schematic block diagram illustrating the configuration of an information processing apparatus according to an embodiment of the present invention. Referring to FIG. 1, an
図1において、本発明の実施形態における情報処理装置(以下、パーソナルコンピュータ(PC)ともいう。)100は、マイク101と、音声認識部102と、ROM(Read Only Memory)103と、RAM(Random Access Memory)104と、スピーカ105、音声合成部106と、CPU(Central Processing Unit)107と、表示部108と、入力部109と、電源部110と、ネットワーク接続部111と、HDD(Hard Disk Drive)112と、から構成される。
1, an information processing apparatus (hereinafter also referred to as a personal computer (PC)) 100 according to an embodiment of the present invention includes a
マイク101は、ユーザの音声を音声データ(電気信号)に変換するものである。音声認識部102は、マイク101によって音声データに変換されたユーザの音声を認識するものである。ROM103は、PC100全体の動作を制御するプログラムを格納するものである。RAM104は、ROM103に格納されたプログラムが展開される記憶領域である。スピーカ105は、後述するPC100のコンシェルジュが出力する音声データを音声に変換するものである。音声合成部106は、PC100のコンシェルジュが出力する音声データを、所望の音声に変換されるよう合成するものである。CPU107は、PC100全体の動作を制御するものであり、ROM103に格納された制御プログラムをロードし、PC100の動作によって得られた様々なデータをRAM104に展開するものである。
The
表示部108は、LCD(Liquid Crystal Display)等で構成される表示画面であり、PC100によって実行されたアプリケーションの結果や図示しないTVチューナによって受信されたテレビ番組を表示するものであり、PC100の出力装置を構成している。入力部109は、キーボード、マウス、タッチパネル等、ユーザがPC100に対して指示を与えるものであり、PC100の入力装置である。電源部110は、PC100に対してAC(Alternative Current:交流)又はDC(Direct Current:直流)電源を与えるものである。ネットワーク接続部111は、インターネットに代表される図示しないネットワーク網に接続され、ネットワーク網とのインタフェースを図るものである。HDD112は、PC100のアプリケーションソフトウェアを格納したり、図示しないTVチューナによって受信されたテレビ番組等のコンテンツを録画したりするものである。なお、表示部108と入力部109は、LCDとタッチパネルとが一体となったタッチパネルディスプレイであっても良い。この場合、キーボードやマウスといった入力装置に代えて、指や図示しないスタイラスペンをタッチパネルディスプレイに接触させて直接文字を書く動作等を行ってデータ入力やコマンド入力といった操作を行うことができる。
The
次に、図2を参照して、本発明に実施形態における情報処理装置の主要部の構成について説明する。図2は、本発明の実施形態における情報処理装置の主要部の構成について説明する概略ブロック図である。 Next, the configuration of the main part of the information processing apparatus according to the embodiment of the present invention will be described with reference to FIG. FIG. 2 is a schematic block diagram illustrating the configuration of the main part of the information processing apparatus according to the embodiment of the present invention.
図2において、本発明の実施形態におけるPC100は、マイク201から入力されたユーザの音声が音声データ(電気信号)に変換されて、当該音声データが音声信号解釈部202によって解釈され、その結果がクライアント型音声認識部203において認識される。クライアント型音声認識部203は、認識した音声データをクライアントアプリケーション部204に渡す。
In FIG. 2, the
クライアントアプリケーション部204は、ユーザからの問い合わせに対する回答が、オフライン状態にあるローカルコンテンツ部208に格納されているか否かを確認し、ローカルコンテンツ部208に格納されている場合は、当該ユーザからの問い合わせに対する回答を、後述するテキスト読上部209、クライアント型音声合成部210を経由して、スピーカ211から音声出力する。
The
ユーザからの問い合わせに対する回答が、ローカルコンテンツ部208に格納されていない場合は、PC100単独で回答を持ち合わせていないことになるので、インターネット等のネットワーク網207に接続されるネットワーク接続部206を介して、インターネット上の検索エンジン等を用いてユーザからの問い合わせに対する回答を検索し、得られた検索結果を、テキスト読上部209、クライアント型音声合成部210を経由して、スピーカ211から音声出力する。
If the answer to the inquiry from the user is not stored in the
クライアントアプリケーション部204は、ローカルコンテンツ部208、又はネットワーク網207から得られた回答をテキスト(文字)データに変換し、テキスト読上部209に渡す。テキスト読上部209は、テキストデータを読み上げ、クライアント型音声合成部210に渡す。クライアント型音声合成部210は、音声データを人間が認識可能な音声データに合成しスピーカ211に渡す。スピーカ211は、音声データ(電気信号)を音声に変換する。また、スピーカ211から音声を発するのに合わせて、ディスプレイ部に当該音声に関連する詳細な情報を表示する。
The
次に、本発明の実施形態における情報処理装置のソフトウェア機能について説明する。図3は、本発明の実施形態における情報処理装置のソフトウェア機能について説明する機能ブロック図である。 Next, the software function of the information processing apparatus in the embodiment of the present invention will be described. FIG. 3 is a functional block diagram illustrating software functions of the information processing apparatus according to the embodiment of this invention.
図3に示すように、本発明の実施形態におけるPC100は、ネットワーク313を介して外部に設けられた複数のサーバ701、702、・・・、70Nに接続されている。サーバ701、702、・・・、70Nは、それぞれ、後述する様々な属性に対応する情報を保有している。
As shown in FIG. 3, the
そして、PC100は、ユーザから発せられる音声を入力するマイク301と、マイク301から入力された音声入力を音声信号(音声情報)として取り扱い、増幅等を行う音声入力部302と、音声入力部302から入力される音声情報をテキスト情報に変換すると共に、変換されたテキスト情報を所定の音節毎に分節するテキスト解析部303と、分節されたテキスト情報が、如何なる属性に対応する情報であるかを判定し、当該分節されたテキスト情報から属性を取得する要素属性判定部304と、を有している。また、要素属性判定部304は、分節されたテキスト情報と、このテキスト情報から得られる属性との対応関係を一時的に保存する機能も備えている。
Then, the
さらに、PC100は、サーバ701、702、・・・、70Nのうち、どのサーバが、如何なる属性に対応する情報を保有しているかという情報を予め格納しているサーバAPI(Application Programming Interface)データベース307と、分節されたテキスト情報から得られる属性が、様々な属性に対応する情報を保有しているサーバ701、702、・・・、70Nのうち、どのサーバが保有している属性に対応するものであるかを対応付けて特定するサーバ特定部305と、特定されたサーバにアクセスして、分節されたテキスト情報から得られる属性に対応するサーバから、当該属性に対応する情報を検索する検索部306と、を有している。
Furthermore, the
そして、PC100は、検索部306によって検索された結果を文章(テキスト情報)として生成する文章生成部310と、文章生成部310によって生成されたテキスト情報(検索結果等)をディスプレイ部205(図2)に表示する表示部309と、テキスト情報で得られた検索結果を、スピーカ312から出力するための音声信号(音声情報)に変換する音声出力部311と、音声出力部311によって変換された音声を出力するスピーカ312と、を有している。
Then, the
また、後述するように、1つの属性は、ある1つのテキスト情報だけでなく、互いに類似する複数のテキスト情報から得られる場合もある。したがって、分節されたテキスト情報が複数の互いに類似するテキスト情報であっても、同一の属性が得られるようにすることが求められる。そこで、PC100は、用語データベース308を有しており、この用語データベース308には、互いに類似するテキスト情報を纏めた類義語辞書が予め保持されている。
Further, as will be described later, one attribute may be obtained from a plurality of pieces of text information similar to each other as well as a certain piece of text information. Therefore, even if the segmented text information is a plurality of pieces of text information similar to each other, it is required to obtain the same attribute. Therefore, the
次に、本発明の実施形態における情報処理装置の起動時の画面表示について説明する。図4から図6は、本発明の実施形態における情報処理装置の起動時の画面表示について説明する図である。 Next, screen display at the time of starting the information processing apparatus according to the embodiment of the present invention will be described. 4 to 6 are diagrams for explaining screen display when the information processing apparatus is activated in the embodiment of the present invention.
本発明の実施形態に係るPC100のコンシェルジュ400、500、600は、起動時の時間帯や曜日に応じて、様々な挨拶を行うことができる。例えば、起動時が朝の時間帯であるときには、図4に示すように、コンシェルジュ400が、「おはようございます!」と発声するのに合わせてディスプレイ部205(図2)に関連情報を表示する。同様に、起動時が昼間の時間帯であれば、図5に示すように、コンシェルジュ500は、「こんにちは!」と発声し、夜の時間帯であれば図6に示すように、コンシェルジュ600は、「こんばんは!」と発声する。また、時間帯以外にも、平日と休日といった曜日に応じた発声も行うことができる。
The
次に、本発明の実施形態における情報処理装置の具体的な動作について説明する。図7から図9は、本発明の実施形態における情報処理装置の具体的な動作について説明する図である。 Next, a specific operation of the information processing apparatus according to the embodiment of the present invention will be described. 7 to 9 are diagrams illustrating specific operations of the information processing apparatus according to the embodiment of the present invention.
PC100が、図4から図6に示したように起動している状態で、ユーザが、知りたい情報、検索したい情報をPC100に対して質問すると、PC100は、その質問に対して回答する。例えば、図7に示すように、ユーザ800が、「チャーリィ!女子会を渋谷で開きたい♪」とPC100に対して質問すると、PC100は、入力された音声情報を、「ジョシカイヲシブヤデヒラキタイ」というテキスト情報に変換すると共に、「ジョシカイ」、「シブヤ」、「ヒラキタイ」に分節し、この分節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを、サーバAPIデータベース307(図3)に基づいてテキスト情報毎に特定する。
When the
しかし、PC100は、テキスト情報「ジョシカイ」の属性に対応する情報を保有しているサーバを特定することができない(サーバAPIデータベース307に存在しない。)ので、テキスト情報「ジョシカイ」の属性を特定するため、「近いもの(パーティ・宴会、友達・同僚・家族と楽しむ)があったのですが、どれにしましょうか?」とユーザ800に対して追加質問を行っている。そして、ユーザ800は、PC100がテキスト情報「ジョシカイ」の属性を特定することができるように、「友達!」という音声情報を入力している。
However, since the
この質問と回答とのやり取りで重要なことは、PC100は、ユーザ800から発せられる音声情報である、「チャーリィ!女子会を渋谷で開きたい♪」のうち、「チャーリィ」という音声に反応し、この音声に続けて発せられる音声を認識し、ユーザ800との対話を開始しているのである。すなわち、PC100は、ユーザ800から発せられる音声情報に基づいて、これをテキスト情報に変換し、この変換されたテキスト情報の中に、所定のキーワード(本実施形態の場合は「チャーリィ」というキーワード)が含まれているか否かを判断し、キーワードが含まれていると判断すると、ユーザ800との対話を開始し、このキーワード以降、ユーザ800から発せられる音声情報(質問)を所定のテキスト情報に変換し、この変換された所定のテキスト情報に基づいて特定される、ユーザから要求されるコマンド(例えばユーザから発話される質問に対する回答等)を実行するのである。なお、このキーワードを何にするかは、ユーザが予め定めておくものとする。
The important thing in the exchange of this question and answer is that the
また、上記の例では、PC100は、ユーザ800から発せられるある特定の音声情報に反応し、この音声情報に続けて発せられる音声情報をテキスト情報として認識し、所定のコマンドを実行しているが、PC100が、音声認識部102(図1)によりテキスト情報を認識し、所定のコマンドを実行する契機としては、ユーザ800から発せられる特定の音声情報に限定されることなく、音声認識部102によりテキスト情報を認識することができる音声情報であれば、如何なる音源を用いても良いことは勿論である。
In the above example, the
そして、PC100は、ユーザ800からの質問の内容である「女子会」、すなわちテキスト情報「ジョシカイ」から得られる属性に対応する情報を保有しているサーバを特定できないので、サーバを用いた検索を行うことができない。そこで、PC100は、テキスト情報「ジョシカイ」の属性を特定するため、「近いもの(パーティ・宴会、友達・同僚・家族と楽しむ)があったのですが、どれにしましょうか?」と追加質問を行い、テキスト情報「ジョシカイ」が如何なる属性のものであるかを特定するため、ユーザ800に対して聞き直しを行い、音声入力を要求しているのである。
Since the
そして、テキスト情報「ジョシカイ」が、如何なる属性のものであるかを特定できるよう、ユーザ800が、「友達!」という音声を発した段階で、PC100は、テキスト情報「ジョシカイ」が、如何なる属性のものであるか、すなわち「女子会」なるものが「友達」と楽しむパーティという属性を有するものであることが分かるので、改めて「友達」と楽しむパーティという属性に対応する情報を保有しているサーバを特定するのである。そして、図8に示すように、「こんなお店が見つかりましたよ。」と回答し、ディスプレイ部205(図2)にリスト表示する。
Then, at a stage where the
しかしながら、友達と楽しむパーティという属性に対応する情報を保有しているサーバを用いて検索を行った結果、候補となるお店が複数存在する。すなわち、検索により得られた情報量が予め定められた所定の閾値以上存在することになるので、情報量を絞り込むため、PC100は、ユーザ800に対して、「何料理にしましょうか?」という逆質問を動的に行う。要するに、ユーザ800から発せられた友達と楽しむパーティという属性に基づいて検索を行った結果、検索結果が多数存在し、この多数の検索結果の中から最終的な候補を絞り込む、要するに、検索により得られる情報量を所定の閾値未満に絞り込むため、PC100は、ユーザ800に対して「何料理にしましょうか?」と逆質問を行い、情報量を絞り込むための音声情報の要求を行っているのである。
However, as a result of searching using a server having information corresponding to the attribute of a party to enjoy with friends, there are a plurality of candidate shops. That is, since the amount of information obtained by the search is greater than a predetermined threshold value, the
そうすると、図9に示すように、ユーザ800は、「イタリア料理、4000円ぐらいで、」といった回答、すなわち、PC100が要求している「何料理にしましょうか?」という、検索により得られた情報量が予め定められた所定の閾値以上存在することになるので、情報量を絞り込むために必要なキーワードを要求しているのに対し、ユーザ800は、「イタリア料理、」という音声に加えて「4000円ぐらいで、」という音声を発している。すなわち、多数のお店情報に共通して付されるレストランというキーワード以外の料理の種類に関するキーワードに、予算に関する「4000円くらいで、」というキーワードを付加するといった、いわば要求しているキーワードとは直接的に無関係な自由な条件に関するキーワードも発している。そして、PC100は、料理の種類に関するキーワードに、予算に関するキーワードが付加されたとしても、ユーザ800によって発せられたキーワードを分析し、「こんなお店が見つかりました。どんなタイプのお店でしょうか?」と回答すると共に、ディスプレイ部205(図2)にお店のリストを表示する。
Then, as shown in FIG. 9, the
また、図9の例では、ユーザ800は、料理の種類に関するキーワードと、予算に関するキーワードを発しているが、ユーザ800が、料理の種類に関するキーワードである「イタリア料理、」と言わずに、単に予算に関するキーワードである、「4000円くらいで、」と発した場合であっても、PC100は、「こんなお店が見つかりました。どんなタイプのお店でしょうか?」と回答すると共に、ディスプレイ部205(図2)にお店のリストを表示するのである。
In the example of FIG. 9, the
本実施形態におけるPC100には、音声対話システムのソフトウェアアプリケーションプログラムがインストールされているが、このソフトウェアアプリケーションプログラムを常駐モードにするか、非常駐モードにするかを予め選択することができる。そして、常駐モードを選択すると、次回起動時からはスタートアップ時から起動する。さらに、常駐モードでは、常時、音をモニタリングし、ノイズなのか音声なのかを即座に判断している。
The
常駐モードにされていると、音声認識されたテキスト情報の中から「チャーリィ」といった所定のキーワードの有無だけを認識し、当該所定のキーワードが認識されると、音声認識されたテキストを、記憶して文脈解析するルーチンに引き渡す動作に移行する。 In the resident mode, only the presence / absence of a predetermined keyword such as “Charlie” is recognized from the speech-recognized text information, and when the predetermined keyword is recognized, the speech-recognized text is stored. To move to the routine to analyze the context.
本実施形態におけるPC100には、一通りの応答、及び結果が存続する時間、具体的には、現在の話題が天気に関するものである場合、その天気に対する一通りの応答、及び天気に関する検索結果が存続する時間として、所定の時間からなる待機時間という概念を用いている。この待機時間は、ユーザ800が、何らかのアクションを起こした場合、例えば、ユーザ800が、話題を天気に関するものから他の話題に変える質問を行った場合、又は、ユーザ800の求めに応じて返事を行った場合、例えば、ユーザ800から、天気に関する話題とは異なる質問がなされ、その質問に応じてPC100が返事を行った場合、の何れかのタイミングにおいてリセットされる。そして、この待機時間は、ユーザ800に対して何らかの検索結果を回答した直後から直ちにカウントされる。
In the
そして、この待機時間の間は、すべての情報、すなわち、ユーザ800との間で取り交わされたすべての情報、具体的には、待機時間が経過する前のキーワード、キーワードに基づいて行った検索、及び検索結果を履歴情報として保持し、活用している。そして、待機時間内に、ユーザ800から新たな質問、及び/又は命令が発せられた場合、この保持している履歴情報を活用することとしている。すなわち、保持している履歴情報に共通する事項を抽出し、当該新たな質問、及び/又は命令を特定する事項と共にキーワードとして検索を行うのである。そして、待機時間が経過すると、待機時間が経過する前に保持されていたキーワード、キーワードに基づいて行った検索、及び検索結果等の履歴を削除する。
During this waiting time, all information, that is, all information exchanged with the
また、この待機時間が経過すると、PC100は、ネットワーク接続部206(図2)を介して接続されるネットワーク網207上のサーバとのセッション(接続)を開放する。この時点で、PC100にそれまで保持されていたサーバから得た情報が破棄される。そして、ユーザ800によるPC100を用いた他の作業の邪魔にならないよう、さらに、待機時間が経過したこと(PC100のモードが変わったこと)を示すため、PC100の表示部108(図1)のウィンドウモード(ユーザインタフェース)を、図11に示すようなコンパクトなウィンドウモードに移行する。図11は、本発明の実施形態における情報処理装置のユーザインタフェースが最小化された時の画面表示について説明する図である。
When this standby time has elapsed, the
そして、PC100は、ユーザ800から発せられる次のコマンドを待つ。この状態では、キーワード、キーワードに基づいて行った検索、及び検索結果の履歴情報を保持している待機時間を既に経過しているので、ユーザ800から発せられる音声情報に、所定のキーワード(本実施形態の場合は「チャーリィ」というキーワード)が含まれているか否かを判断し、キーワードが含まれていると判断すると、ユーザ800から入力される音声情報から認識されたテキスト情報に含まれる質問をキーワードとして検索を行い、検索結果を出力しているのである。
Then, the
なお、待機時間経過後、PC100を、ウェークアップさせる契機として、上記所定のキーワード(後述するウェークアップワード、本実施形態では、「チャーリィ」)の認識以外に、例えば、ディスプレイ部205(図2)に表示された所定のボタンをマウスポインタでクリックする、PC100のハードウェアボタンを押下する、又は、ユーザ800が発する声により声紋を認識する等、如何なる方法を用いても良いことは勿論である。
In addition to the recognition of the predetermined keyword (a wake-up word to be described later, “Charlie” in the present embodiment) as an opportunity to wake up the
そして、ユーザ800から発せられる質問に対しローカルコンテンツ部208に格納されている情報で回答が済む場合は、ネットワーク網207に接続することなく回答を行い、ネットワーク網207に対するアクセスが必要な質問であれば、セッションを接続し、新たな状態、すなわち、履歴情報がない状態で質問に対する回答を検索する。
Then, if a question issued from the
このように、ユーザは、PC100を起動状態にさえしておけば、後は、今やっている普通の作業(読書等)を何ら中断することなく、すなわち、PC100とは無関係の作業を行っていたり、PC100を使って何か別の作業を行っていたりしても、PC100に触れることなく、PC100に対して自然な言い方で質問すれば、PC100は回答してくれるのである。また、候補が複数存在する場合であっても、PC100が誘導してくれるのである。よって、検索のためのキーワードを会話の最初からすべて入力することなく、自然な会話で、声だけで簡単に、しかも快適に情報を入手することができるのである。
In this way, as long as the
そして、PC100は、上述したように、オフライン状態にあるローカルコンテンツ部208(図2)を有しており、ユーザ800からなされた質問に対する回答が、このローカルコンテンツ部208に格納されているか否かを確認し、ローカルコンテンツ部208に格納されている場合は、ネットワーク接続部206(図2)を介してネットワーク網207に接続することなく、ユーザに対してスピーカ211(図2)から回答を行う。要するに、ネットワーク網207に対しては、必要に応じて接続し、検索を行い、ローカルコンテンツ部208に格納されている情報で回答が済む場合は、ネットワーク網207に接続しないのである。
As described above, the
次に、ユーザ800からなされる質問が如何なる属性のものであるか特定するため、PC100が追加質問を行い、それに対し、PC100が、質問が如何なる属性のものであるかを特定できるよう、ユーザ800が再び回答し、PC100が、質問が如何なる属性のものであるかを特定し、検索を行った結果、候補が複数存在し、この複数の候補の中から最終的な候補を絞り込むためのキーワードを要求するPC100が、キーワードに基づいて導かれる複数の属性を含む検索結果(「こんなお店が見つかりましたよ。何料理にしましょうか?」)を提示し、ユーザ800に対してある特定の属性からなる検索結果を絞り込むために必要なキーワードを要求したとき、ユーザ800が、ある特定の属性からなるキーワードに、他の属性からなるキーワードを付加して言った場合、又は、ある特定の属性からなるキーワードを言わずに、他の属性からなるキーワードを言った場合であっても、PC100は、ユーザ800から言われた属性からなるキーワードに基づいて検索結果を回答するといった、PC100が行っている具体的な音声解析の中身について述べる。
Next, in order to identify what attribute the question made by the
複数の属性を含む検索結果の中から、ある特定の属性からなる検索結果を絞り込むために必要なキーワードを、PC100からユーザ800に対して要求し、ユーザ800が、ある特定の属性からなるキーワードに、他の属性からなるキーワードを付加して言った場合、又は、ある特定の属性からなるキーワードを言わずに、他の属性からなるキーワードを言った場合、PC100は、ユーザ800から発せられたすべての言葉に対してキーワード分析を行っている。これは、PC100からユーザ800に対して複数の検索結果の中からいずれかを選択するよう要求した場合であっても同様である。
From the search results including a plurality of attributes, the
そして、このとき、上記した要素属性判定部304(図3)に一時的に保存されている
、これまでに分節されたテキスト情報と、このテキスト情報から得られた属性との対応関
係を参照しているのである。すなわち、ユーザ800から発せられたすべての言葉を分節
し、この分節されたテキスト情報が、要素属性判定部304に一時的に保存されている、
これまでに分節されたテキスト情報と、このテキスト情報から得られた属性との対応関係
に基づいて、如何なる属性に対応するものであるかを特定し、この特定された属性に対応
する情報を有しているサーバを特定し、この特定したサーバの中から情報を検索している
のである。
At this time, the correspondence between the text information segmented so far temporarily stored in the element attribute determination unit 304 (FIG. 3) and the attribute obtained from the text information is referred to. -ing That is, all the words uttered by the
Based on the correspondence between the text information segmented so far and the attribute obtained from this text information, it is specified what attribute it corresponds to, and information corresponding to this specified attribute is present. The server is identified, and information is retrieved from the identified server.
これにより、ユーザ800が、ある特定の属性からなるキーワードに、他の属性からなるキーワードを付加して言った場合、又は、ある特定の属性からなるキーワードを言わずに、他の属性からなるキーワードを言った場合(上記の例では、「イタリア料理、4000円くらいで、」のように、料理の種類に関するキーワードと、予算に関するキーワードを発した場合、又は、「4000円くらいで、」のように、予算に関するキーワードを発した場合)であっても、予算(という属性)のキーワード=4000円のように、発言された言葉に対してキーワード分析を行い、そのキーワードの属性に対応する条件を埋めることができるのである。さらにいえば、PC100は、ユーザ800から発せられたすべての言葉に対してキーワード分析を行っているため、上記の例の場合、仮に「天気」について突然話題が振られたとしても、追従することができるのである。
Accordingly, when the
このように、複数の属性を含む検索結果の中からある属性からなる検索結果を絞り込むためのキーワードの要求に対して、ある特定の属性からなるキーワードに、他の属性からなるキーワードを付加して言った場合、又は、ある特定の属性からなるキーワードを言わずに、他の属性からなるキーワードを言った場合であっても、PC100は、その回答の意図を汲んで、追随して検索を継続することができるのである。
In this way, in response to a keyword request for narrowing a search result consisting of a certain attribute among search results including a plurality of attributes, a keyword consisting of another attribute is added to a keyword consisting of a specific attribute. Even if it says, or even if it says a keyword consisting of another attribute without saying a keyword consisting of a specific attribute, the
次に、本発明の実施形態における情報処理装置の動作について説明する。図10は、本発明の実施形態における情報処理装置の動作について説明するフローチャートである。 Next, the operation of the information processing apparatus in the embodiment of the present invention will be described. FIG. 10 is a flowchart for explaining the operation of the information processing apparatus according to the embodiment of the present invention.
図10において、ステップ(以下、「S」という。)1001の処理では、まず、PC100のマイク301(図3)から音声が入力される。入力された音声は、音声入力部302において音声信号(音声情報)として取り扱われ、増幅等が行われた後、S1002の処理へ移行する。S1002の処理では、テキスト解析部303において、音声情報がテキスト情報に変換されると共に、所定の音節毎に分節され解析される。そして、S1003の処理では、要素属性判定部304において、分節されたテキスト情報が、如何なる属性に対応する情報であるかが判定され、S1004の処理へ移行する。
In FIG. 10, in the process of step (hereinafter referred to as “S”) 1001, first, sound is input from the microphone 301 (FIG. 3) of the
S1004の処理では、サーバAPIデータベース307(図3)を参照することにより、分節されたテキスト情報から得られる属性のうち、サーバ701、702、・・・、70Nが保有している属性に対応しない要素、すなわち、属性が確定しない要素(テキスト情報)があるか否かが判断される。属性が確定しない要素がある(S1004:YES)と判断されると、S1010の処理へ移行し、属性が確定しない要素がない(S1004:NO)と判断されると、S1005の処理へ移行する。
In the process of S1004, by referring to the server API database 307 (FIG. 3), the attributes obtained from the segmented text information do not correspond to the attributes held by the
S1010の処理では、分節されたテキスト情報の属性を確定するための音声情報を要求する旨の質問がなされる。そして、要求された音声情報が入力されると、再びS1001の処理を行う。属性の確定しない要素がないとき(S1004:NO)、又は、S1010の処理で要求された音声情報をテキスト情報に変換した結果、当該テキスト情報から属性を得ることができ、属性の確定しない要素がないとき(S1004:NO)は、S1005の処理において、テキスト情報から得られる属性に対応する情報を保有するサーバが、サーバ特定部305(図3)によって特定される。 In the process of S1010, an inquiry is made to request audio information for determining the attribute of the segmented text information. When the requested voice information is input, the process of S1001 is performed again. When there is no element whose attribute is not fixed (S1004: NO), or as a result of converting the voice information requested in the process of S1010 into text information, an attribute can be obtained from the text information. When there is not (S1004: NO), the server specifying unit 305 (FIG. 3) specifies a server that holds information corresponding to the attribute obtained from the text information in the process of S1005.
S1006の処理では、S1005の処理で特定されたサーバを用いて検索を実行する際、分節されたテキスト情報が、検索を実行するための必須項目(必須要件)をすべて満たしているか(不足項目があるか)否かが判断される。不足項目がある(S1006:YES)と判断されると、S1011の処理へ移行し、不足項目がない(S1006:NO)と判断されると、S1007の処理へ移行する。 In the process of S1006, when the search is executed using the server specified in the process of S1005, whether the segmented text information satisfies all the essential items (essential requirements) for executing the search (the missing items are Whether or not) is determined. If it is determined that there is a missing item (S1006: YES), the process proceeds to S1011. If it is determined that there is no missing item (S1006: NO), the process proceeds to S1007.
S1011の処理では、不足項目を補充するための質問、すなわち、音声情報の入力を要求する。そして、要求された音声情報が入力されると、再びS1001の処理を行う。不足項目がない(S1006:NO)と判断されたとき、又はS1011の処理で要求された音声情報をテキスト情報に変換し、当該テキスト情報から得られる属性に基づいて行う検索の不足項目が補充され、不足項目がない(S1006:NO)と判断されたときは、S1007の処理において、S1005の処理で特定されたサーバを用いた検索が開始される。 In the process of S1011, a request for supplementing the deficient item, that is, input of voice information is requested. When the requested voice information is input, the process of S1001 is performed again. When it is determined that there is no missing item (S1006: NO), or the voice information requested in the processing of S1011 is converted into text information, the missing item for search performed based on the attribute obtained from the text information is supplemented. If it is determined that there is no missing item (S1006: NO), in the process of S1007, the search using the server specified in the process of S1005 is started.
S1008の処理では、S1007の処理で検索が実行された結果、検索結果(ある属性に対応する情報)の情報量が所定の閾値以上(検索結果の情報量が所定の閾値未満)であるか否かが判断される。所定の閾値以上(所定の閾値未満)である(S1008:NO)と判断されると、S1012の処理へ移行し、所定の閾値未満である(S1008:YES)と判断されると、S1009の処理へ移行する。なお、この所定の閾値は、検索対象となる属性に応じて、任意の値に設定することが可能である。 In the process of S1008, as a result of the search performed in the process of S1007, whether the information amount of the search result (information corresponding to a certain attribute) is equal to or greater than a predetermined threshold (the information amount of the search result is less than the predetermined threshold). Is judged. If it is determined that the value is equal to or greater than the predetermined threshold (less than the predetermined threshold) (S1008: NO), the process proceeds to S1012. If it is determined that the value is less than the predetermined threshold (S1008: YES), the process of S1009 is performed. Migrate to The predetermined threshold value can be set to an arbitrary value according to the attribute to be searched.
S1012の処理では、検索結果(ある属性に対応する情報)の情報量を所定の閾値未満に絞り込むための質問、すなわち、音声情報の入力を要求する。そして、要求された音声情報が入力されると、再びS1001の処理を行う。検索結果の情報量が所定の閾値未満である(S1008:YES)と判断されたとき、又はS1012の処理で要求された音声情報をテキスト情報に変換し、当該テキスト情報から得られる属性に基づいて行う検索結果の情報量が所定の閾値未満である(S1008:YES)と判断されたときは、S1009の処理へ移行する。S1009の処理では、検索結果がスピーカ211(図2)から出力されると共に、ディスプレイ部205(図2)に表示される。 In the process of S1012, a request for narrowing the information amount of the search result (information corresponding to a certain attribute) to less than a predetermined threshold, that is, input of voice information is requested. When the requested voice information is input, the process of S1001 is performed again. When it is determined that the information amount of the search result is less than the predetermined threshold (S1008: YES), or the speech information requested in the processing of S1012 is converted into text information, and based on the attribute obtained from the text information When it is determined that the information amount of the search result to be performed is less than the predetermined threshold (S1008: YES), the process proceeds to S1009. In the process of S1009, the search result is output from the speaker 211 (FIG. 2) and displayed on the display unit 205 (FIG. 2).
なお、上記実施の形態では、図10のS1008の処理において、検索結果の情報量が所定の閾値以上であったとき(S1008:NO)、S1012の処理においてなされる音声情報の要求に対し、検索結果の情報量を所定の閾値未満に絞り込みを行うための音声情報が得られなかった場合について説明しているが、本発明の実施形態は、この場合に限定されない。 In the above embodiment, when the information amount of the search result is equal to or larger than the predetermined threshold in the process of S1008 in FIG. 10 (S1008: NO), the search is performed in response to the voice information request made in the process of S1012. Although a case has been described where audio information for narrowing down the amount of information to be less than a predetermined threshold has not been obtained, the embodiment of the present invention is not limited to this case.
すなわち、S1004の処理において、サーバAPIデータベース307(図3)を参照することにより、分節されたテキスト情報から得られる属性のうち、サーバ701、702、・・・、70Nが保有している属性に対応しない要素がある(S1004:YES)と判断されると、S1010の処理においてなされる、分節されたテキスト情報の属性を確定するための音声情報の要求に対し、分節されたテキスト情報の属性を確定するための音声情報が得られなかった場合も、要素属性判定部304(図3)に一時的に保存されている、これまでに分節されたテキスト情報と、このテキスト情報から得られた属性との対応関係を参照し、ユーザ800から発せられた音声情報をテキスト情報に変換、分節し、この分節されたテキスト情報が、要素属性判定部304に一時的に保存されている、これまでに分節されたテキスト情報と、このテキスト情報から得られた属性との対応関係に基づいて、如何なる属性に対応するものであるかを推測し、この推測された属性に対応するサーバを特定し、この特定したサーバの中から情報を検索しているのである。
That is, in the processing of S1004, by referring to the server API database 307 (FIG. 3), among the attributes obtained from the segmented text information, the attributes held by the
また、S1006の処理において、S1005の処理で特定されたサーバを用いて検索を実行する際、分節されたテキスト情報が、検索を実行するための必須項目(必須要件)をすべて満たしていない(S1006:YES)と判断されると、S1011の処理においてなされる、不足項目を補充するための音声情報の要求に対し、不足項目を補充するための音声情報が得られなかった場合も、要素属性判定部304(図3)に一時的に保存されている、これまでに分節されたテキスト情報と、このテキスト情報から得られた属性との対応関係を参照し、ユーザ800から発せられた音声情報をテキスト情報に変換、分節し、この分節されたテキスト情報が、要素属性判定部304に一時的に保存されている、これまでに分節されたテキスト情報と、このテキスト情報から得られた属性との対応関係に基づいて、如何なる属性に対応するものであるかを推測し、この推測された属性に対応するサーバを特定し、この特定したサーバの中から情報を検索しているのである。
In the process of S1006, when the search is executed using the server specified in the process of S1005, the segmented text information does not satisfy all the essential items (essential requirements) for executing the search (S1006). : YES), element attribute determination is performed even when voice information for supplementing the missing item is not obtained in response to the voice information request for supplementing the missing item made in the processing of S1011. Audio information issued from the
なお、図10に示した本発明の実施形態における情報処理装置100を構成する各機能ブロックの各動作は、コンピュータ上のプログラムに実行させることもできる。すなわち、情報処理装置100のCPU107が、ROM103、RAM104等から構成される記憶部に格納されたプログラムをロードし、プログラムの各処理ステップが順次実行されることによって行われる。
In addition, each operation | movement of each functional block which comprises the
以上説明してきたように、本発明によれば、入力される音声情報をテキスト情報に変換する手段と、変換されたテキスト情報を分節する手段と、外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースと、データベースに格納された情報に基づいて、分節されたテキスト情報から得られる属性と、属性に対応する情報を保有しているサーバとをそれぞれを対応付ける手段と、分節されたテキスト情報とテキスト情報から得られる属性との対応関係を一時保存する手段と、対応付けされたサーバから属性に対応する情報を検索する手段と、検索により得られた属性に対応する情報の情報量が所定の閾値以上であるか否かを判断する手段と、情報量が所定の閾値以上であると判断すると、情報量を絞り込むための音声情報を要求する手段と、情報量を絞り込めない音声情報を獲得しても、対応関係に基づいて、音声情報を変換し、分節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを特定し、サーバの中から属性に対応する所定の情報量を有する情報を検索する手段と、を含むことにより、検索を継続するために必要とされる質問に対して的外れな回答が寄せられたとしても、その的外れな回答の意図を汲んで、追随して検索を継続することができるのである。 As described above, according to the present invention, means for converting input speech information into text information, means for segmenting the converted text information, and each of a plurality of servers provided outside, A database that stores in advance information on what attribute information is held, an attribute obtained from segmented text information based on the information stored in the database, and information corresponding to the attribute Means for associating each server with each other, means for temporarily storing the correspondence between the segmented text information and the attribute obtained from the text information, means for retrieving information corresponding to the attribute from the associated server, Means for determining whether or not the information amount of information corresponding to the attribute obtained by the search is greater than or equal to a predetermined threshold, and the information amount is greater than or equal to the predetermined threshold If it is determined, the voice information for narrowing down the amount of information and the voice information that cannot narrow down the amount of information are acquired, but the voice information is converted based on the correspondence and obtained from the segmented text information. And a means for searching for information having a predetermined amount of information corresponding to the attribute from the server, by identifying a server that holds information corresponding to the attribute to be required to continue the search. Even if an unreasonable answer is given to the question, the search can be continued following the intention of the unreasonable answer.
以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範囲な趣旨及び範囲から逸脱することなく、これら具体例に様々な修正及び変更が可能である。 The present invention has been described above by the preferred embodiments of the present invention. While the invention has been described with reference to specific embodiments thereof, various modifications and changes can be made to these embodiments without departing from the broader spirit and scope of the invention as defined in the claims. is there.
100 情報処理装置(PC)
101、201、301 マイク
102 音声認識部
103 ROM
104 RAM
105、211 スピーカ
106 音声合成部
107 CPU
108 表示部
109 入力部
110 電源部
111 ネットワーク接続部
112 HDD
202 音声信号解釈部
203 クライアント型音声認識部
204 クライアントアプリケーション部
205 ディスプレイ部
206 ネットワーク接続部
207、313 ネットワーク
208 ローカルコンテンツ部
209 テキスト読上部
210 クライアント型音声合成部
211、312 スピーカ
302 音声入力部
303 テキスト解析部
304 要素属性判定部
305 サーバ特定部
306 検索部
307 サーバAPIデータベース
308 用語データベース
309 表示部
310 文章生成部
311 音声出力部
400、500、600、900 コンシェルジュ
701、702、・・・、70N サーバ
800 ユーザ
100 Information processing equipment (PC)
101, 201, 301
104 RAM
105, 211
108
202 Speech
Claims (9)
前記変換されたテキスト情報を分節する手段と、
外部に設けられた複数のサーバの各々が、如何なる属性に対応する情報を保有しているかという情報を予め格納するデータベースと、
前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける手段と、
前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する手段と、を含み、
前記対応付けされたサーバから所定の属性に対応する情報を検索する際、文節されたテキスト情報が如何なる属性に対応する情報であるかを判定し、
前記文節されたテキスト情報に属性を確定しない要素が存在すると判断すると、属性を確定するための音声情報を要求し、
前記文節されたテキスト情報に属性を確定しない要素が存在しないと判断すると、前記文節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを特定し、
前記音声情報を要求しても、前記文節されたテキスト情報の属性を確定するための音声情報が得られないと判断すると、前記一時保存する手段に保存されている過去に分節されたテキスト情報と前記過去に分節されたテキスト情報から得られた属性との対応関係に基づいて推測された属性に対応する情報を保有しているサーバを特定することを特徴とする情報処理装置。 Means for converting input voice information into text information;
Means for segmenting the converted text information;
A database that stores in advance information on what attributes each of the plurality of servers provided outside has, and
Means for associating attributes obtained from the segmented text information with a server having information corresponding to the attributes based on the information stored in the database;
Means for temporarily storing a correspondence relationship between the segmented text information and an attribute obtained from the text information ,
When searching for information corresponding to a predetermined attribute from the associated server , it is determined what attribute the phrased text information corresponds to,
If it is determined that there is an element that does not determine the attribute in the sentenced text information, the voice information for determining the attribute is requested,
If it is determined that there is no element that does not determine the attribute in the phrased text information, a server having information corresponding to the attribute obtained from the phrased text information is identified,
If it is determined that the speech information for determining the attribute of the segmented text information cannot be obtained even if the speech information is requested, the previously segmented text information stored in the temporary storage unit and An information processing apparatus that identifies a server that holds information corresponding to an attribute estimated based on a correspondence relationship with an attribute obtained from text information segmented in the past .
前記分節されたテキスト情報が検索を実行するための必須項目をすべて満たしていると判断すると、前記特定したサーバを用いて検索を開始し、
前記音声情報を要求しても、前記文節されたテキスト情報が検索を実行するための必須項目をすべて満たすための音声情報が得られないと判断すると、前記一時保存する手段に保存されている過去に分節されたテキスト情報と前記過去に分節されたテキスト情報から得られた属性との対応関係に基づいて推測された属性に対応する情報を保有しているサーバを用いて検索を開始することを特徴とする請求項1に記載の情報処理装置。 When searching for information corresponding to a predetermined attribute using the specified server, it is determined whether or not the phrased text information satisfies all required items for performing the search, and the phrased text is determined. If it is determined that the information does not satisfy all the required items for performing the search, the audio information for supplementing the required items that are not satisfied is requested,
When it is determined that the segmented text information satisfies all the required items for performing the search, the search is started using the specified server,
If it is determined that even if the speech information is requested, the speech information for satisfying all the required items for performing the search cannot be obtained, the past text stored in the temporary storage means To start a search using a server having information corresponding to an attribute estimated based on a correspondence relationship between the text information segmented in the past and the attribute obtained from the text information segmented in the past. The information processing apparatus according to claim 1 .
入力される音声情報をテキスト情報に変換する工程と、
前記変換されたテキスト情報を分節する工程と、
前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける工程と、
前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する工程と、
前記対応付ける工程により対応付けされたサーバから所定の属性に対応する情報を検索する際、文節されたテキスト情報が如何なる属性に対応する情報であるかを判定する工程と、
前記文節されたテキスト情報に属性を確定しない要素が存在するかどうかを判断する工程と、
前記判断する工程により、前記文節されたテキスト情報に属性を確定しない要素が存在すると判断すると、属性を確定するための音声情報を要求する工程と、
前記判断する工程により、前記文節されたテキスト情報に属性を確定しない要素が存在しないと判断すると、前記文節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを特定する工程と、
前記音声情報を要求する工程により前記音声情報を要求しても、前記文節されたテキスト情報の属性を確定するための音声情報が得られないと判断すると、前記一時保存する工程により保存されている過去に分節されたテキスト情報と前記過去に分節されたテキスト情報から得られた属性との対応関係に基づいて推測された属性に対応する情報を保有しているサーバを特定する工程と、
を含むことを特徴とする制御方法。 A method of controlling an information processing apparatus having a database that stores in advance information on what attribute each of a plurality of servers provided outside has.
Converting the input speech information into text information;
Segmenting the converted text information;
Correlating the attribute obtained from the segmented text information with a server having information corresponding to the attribute, based on the information stored in the database;
Temporarily storing the correspondence between the segmented text information and the attribute obtained from the text information;
A step of determining what attribute the text information segmented is information corresponding to when searching for information corresponding to a predetermined attribute from the server associated by the associating step ;
Determining whether there is an element whose attribute is not fixed in the sentenced text information;
If it is determined in the determining step that there is an element that does not determine the attribute in the phrased text information, requesting voice information for determining the attribute; and
If it is determined in the determining step that there is no element whose attribute is not determined in the phrased text information, a step of identifying a server that holds information corresponding to the attribute obtained from the phrased text information; ,
If it is determined that the voice information for determining the attribute of the phrased text information is not obtained even if the voice information is requested by the step of requesting the voice information, the voice information is stored by the step of temporarily storing. Identifying a server having information corresponding to an attribute estimated based on a correspondence relationship between text information segmented in the past and attributes obtained from the text information segmented in the past ;
The control method characterized by including.
前記判断する工程により、前記文節されたテキスト情報が検索を実行するための必須項目をすべて満たしていないと判断すると、前記満たしていない必須項目を補充するための音声情報を要求する工程と、
前記判断する工程により、前記文節されたテキスト情報が検索を実行するための必須項目をすべて満たしていると判断すると、前記特定したサーバを用いて検索を開始する工程と、
前記音声情報を要求する工程により前記音声情報を要求しても、前記文節されたテキスト情報が検索を実行するための必須項目をすべて満たすための音声情報が得られないと判断すると、前記一時保存する工程により保存されている過去に分節されたテキスト情報と前記過去に分節されたテキスト情報から得られた属性との対応関係に基づいて推測された属性に対応する情報を保有しているサーバを用いて検索を開始する工程と、
を含むことを特徴とする請求項4に記載の制御方法。 A step of determining whether or not the phrased text information satisfies all essential items for performing a search when searching for information corresponding to a predetermined attribute using the server specified by the specifying step; ,
When the determining step determines that the phrased text information does not satisfy all the required items for performing a search, requesting voice information for supplementing the unrequired required items;
When the determining step determines that the phrased text information satisfies all the required items for performing a search, starting the search using the specified server;
Even if the voice information is requested by the step of requesting the voice information, the temporary storage is performed when it is determined that the phrased text information does not provide voice information for satisfying all necessary items for performing the search. A server that holds information corresponding to the attribute estimated based on the correspondence between the text information segmented in the past stored in the process and the attribute obtained from the text information segmented in the past Using the process to start the search ,
The control method according to claim 4, further comprising:
前記判断する工程により、前記所定の属性に対応する情報の情報量が前記所定の閾値以上であると判断すると、前記所定の属性に対応する情報の情報量を前記所定の閾値未満に絞り込むための音声情報を要求する工程と、
前記判断する工程により、前記所定の属性に対応する情報の情報量が前記所定の閾値未満であると判断すると、検索を実行して得られた検索結果を出力する工程と、
を含むことを特徴とする請求項5に記載の制御方法。 Determining whether the amount of information corresponding to a predetermined attribute is equal to or greater than a predetermined threshold as a result of the search being started by the step of starting the search;
When the determining step determines that the information amount of the information corresponding to the predetermined attribute is equal to or greater than the predetermined threshold, the information amount of the information corresponding to the predetermined attribute is reduced to less than the predetermined threshold. Requesting voice information;
When the determining step determines that the amount of information corresponding to the predetermined attribute is less than the predetermined threshold, outputting a search result obtained by executing a search ;
The control method according to claim 5, further comprising:
入力される音声情報をテキスト情報に変換する処理と、
前記変換されたテキスト情報を分節する処理と、
前記データベースに格納された情報に基づいて、前記分節されたテキスト情報から得られる属性と、前記属性に対応する情報を保有しているサーバとをそれぞれを対応付ける処理と、
前記分節されたテキスト情報と前記テキスト情報から得られる属性との対応関係を一時保存する処理と、
前記対応付ける処理により対応付けされたサーバから所定の属性に対応する情報を検索する際、文節されたテキスト情報が如何なる属性に対応する情報であるかを判定する処理と、
前記文節されたテキスト情報に属性を確定しない要素が存在するかどうかを判断する処理と、
前記判断する処理により、前記文節されたテキスト情報に属性を確定しない要素が存在すると判断すると、属性を確定するために必要な音声情報を要求する処理と、
前記判断する処理により、前記文節されたテキスト情報に属性を確定しない要素が存在しないと判断すると、前記文節されたテキスト情報から得られる属性に対応する情報を保有しているサーバを特定する処理と、
前記音声情報を要求する処理により前記音声情報を要求しても、前記文節されたテキスト情報の属性を確定するための音声情報が得られないと判断すると、前記一時保存する処理により保存されている過去に分節されたテキスト情報と前記過去に分節されたテキスト情報から得られた属性との対応関係に基づいて推測された属性に対応する情報を保有しているサーバを特定する処理と、
を実現させるためのプログラム。 A computer of an information processing apparatus having a database that stores in advance information on what attribute each of a plurality of servers provided outside possesses information corresponding to,
A process for converting input voice information into text information;
Processing to segment the converted text information;
Based on the information stored in the database, a process of associating the attribute obtained from the segmented text information with a server that holds information corresponding to the attribute;
A process of temporarily storing the correspondence between the segmented text information and the attribute obtained from the text information;
A process of determining what attribute the text information segmented is information corresponding to when retrieving information corresponding to a predetermined attribute from the server associated by the associating process ;
A process of determining whether there is an element whose attribute is not fixed in the sentenced text information;
When determining that there is an element that does not determine the attribute in the sentenced text information by the determining process, a process of requesting voice information necessary to determine the attribute;
A process for identifying a server having information corresponding to an attribute obtained from the phrased text information when it is determined that there is no element whose attribute is not determined in the phrased text information by the judgment process; ,
Even if the voice information is requested by the process for requesting the voice information, if it is determined that the voice information for determining the attribute of the phrased text information cannot be obtained, the voice information is saved by the temporary saving process. A process of identifying a server having information corresponding to an attribute estimated based on a correspondence relationship between text information segmented in the past and attributes obtained from the text information segmented in the past ;
A program to realize
前記判断する処理により、前記文節されたテキスト情報が検索を実行するための必須項目をすべて満たしていないと判断すると、前記満たしていない必須項目を補充するための音声情報を要求する処理と、
前記判断する処理により、前記分節されたテキスト情報が検索を実行するための必須項目をすべて満たしていると判断すると、前記特定したサーバを用いて検索を開始する処理と、
前記音声情報を要求する処理により前記音声情報を要求しても、前記文節されたテキスト情報が検索を実行するための必須項目をすべて満たすための音声情報が得られないと判断すると、前記一時保存する処理により保存されている過去に分節されたテキスト情報と前記過去に分節されたテキスト情報から得られた属性との対応関係に基づいて推測された属性に対応する情報を保有しているサーバを用いて検索を開始する処理と、
を実現させるための請求項7に記載のプログラム。 A process of determining whether or not the phrased text information satisfies all essential items for performing a search when searching for information corresponding to a predetermined attribute using a server specified by the specified process; ,
If it is determined by the process to determine that the phrased text information does not satisfy all the required items for performing a search, a process of requesting voice information for supplementing the required items that are not satisfied;
When it is determined that the segmented text information satisfies all the required items for performing a search by the determining process, a process of starting a search using the specified server;
Even if the voice information is requested by the process of requesting the voice information, the temporary storage is performed when it is determined that the phrased text information cannot obtain the voice information for satisfying all the essential items for executing the search. A server having information corresponding to the attribute estimated based on the correspondence between the text information segmented in the past stored by the processing and the attribute obtained from the text information segmented in the past Using the process to start the search ,
The program of Claim 7 for implement | achieving.
前記判断する処理により、前記所定の属性に対応する情報の情報量が前記所定の閾値以上であると判断すると、前記所定の属性に対応する情報の情報量を前記所定の閾値未満に絞り込むための音声情報を要求する処理と、
前記判断する処理により、前記所定の属性に対応する情報の情報量が前記所定の閾値未満であると判断すると、検索を実行して得られた検索結果を出力する処理と、
を実現させるための請求項8に記載のプログラム。 A process of determining whether or not the amount of information corresponding to a predetermined attribute is equal to or greater than a predetermined threshold as a result of the search being started by the process of starting the search;
If it is determined that the information amount of information corresponding to the predetermined attribute is greater than or equal to the predetermined threshold by the determining process, the information amount of information corresponding to the predetermined attribute is reduced to less than the predetermined threshold. Processing to request voice information;
A process of outputting a search result obtained by executing a search when determining that the amount of information corresponding to the predetermined attribute is less than the predetermined threshold by the determining process;
The program of Claim 8 for implement | achieving.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013204746A JP6069157B2 (en) | 2013-09-30 | 2013-09-30 | Information processing apparatus, control method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013204746A JP6069157B2 (en) | 2013-09-30 | 2013-09-30 | Information processing apparatus, control method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015069102A JP2015069102A (en) | 2015-04-13 |
JP6069157B2 true JP6069157B2 (en) | 2017-02-01 |
Family
ID=52835788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013204746A Active JP6069157B2 (en) | 2013-09-30 | 2013-09-30 | Information processing apparatus, control method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6069157B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9704716B2 (en) | 2013-03-13 | 2017-07-11 | Asm Ip Holding B.V. | Deposition of smooth metal nitride films |
US9786492B2 (en) | 2015-11-12 | 2017-10-10 | Asm Ip Holding B.V. | Formation of SiOCN thin films |
US9786491B2 (en) | 2015-11-12 | 2017-10-10 | Asm Ip Holding B.V. | Formation of SiOCN thin films |
US9831094B2 (en) | 2005-10-27 | 2017-11-28 | Asm International N.V. | Enhanced thin film deposition |
US9941425B2 (en) | 2015-10-16 | 2018-04-10 | Asm Ip Holdings B.V. | Photoactive devices and materials |
US10643925B2 (en) | 2014-04-17 | 2020-05-05 | Asm Ip Holding B.V. | Fluorine-containing conductive films |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3397372B2 (en) * | 1993-06-16 | 2003-04-14 | キヤノン株式会社 | Speech recognition method and apparatus |
JP2000076040A (en) * | 1998-09-03 | 2000-03-14 | Matsushita Electric Ind Co Ltd | Voice input network terminal equipment |
JP2001125896A (en) * | 1999-10-26 | 2001-05-11 | Victor Co Of Japan Ltd | Natural language interactive system |
JP4686905B2 (en) * | 2000-07-21 | 2011-05-25 | パナソニック株式会社 | Dialog control method and apparatus |
JP2002288155A (en) * | 2001-03-23 | 2002-10-04 | Nippon Telegr & Teleph Corp <Ntt> | Device and method for estimating word attribute, its program, and recording medium |
JP2004045900A (en) * | 2002-07-12 | 2004-02-12 | Toyota Central Res & Dev Lab Inc | Voice interaction device and program |
JP2006079462A (en) * | 2004-09-10 | 2006-03-23 | Nippon Telegr & Teleph Corp <Ntt> | Interactive information providing method for information retrieval and interactive information providing apparatus |
JP5341548B2 (en) * | 2009-02-18 | 2013-11-13 | トヨタ自動車株式会社 | Voice recognition device |
-
2013
- 2013-09-30 JP JP2013204746A patent/JP6069157B2/en active Active
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10297444B2 (en) | 2005-10-27 | 2019-05-21 | Asm International N.V. | Enhanced thin film deposition |
US9831094B2 (en) | 2005-10-27 | 2017-11-28 | Asm International N.V. | Enhanced thin film deposition |
US10964534B2 (en) | 2005-10-27 | 2021-03-30 | Asm International | Enhanced thin film deposition |
US10074541B2 (en) | 2013-03-13 | 2018-09-11 | Asm Ip Holding B.V. | Deposition of smooth metal nitride films |
US9704716B2 (en) | 2013-03-13 | 2017-07-11 | Asm Ip Holding B.V. | Deposition of smooth metal nitride films |
US10643925B2 (en) | 2014-04-17 | 2020-05-05 | Asm Ip Holding B.V. | Fluorine-containing conductive films |
US11450591B2 (en) | 2014-04-17 | 2022-09-20 | Asm Ip Holding B.V. | Fluorine-containing conductive films |
US11823976B2 (en) | 2014-04-17 | 2023-11-21 | ASM IP Holding, B.V. | Fluorine-containing conductive films |
US9941425B2 (en) | 2015-10-16 | 2018-04-10 | Asm Ip Holdings B.V. | Photoactive devices and materials |
US10861986B2 (en) | 2015-10-16 | 2020-12-08 | Asm Ip Holding B.V. | Photoactive devices and materials |
US11362222B2 (en) | 2015-10-16 | 2022-06-14 | Asm Ip Holding B.V. | Photoactive devices and materials |
US9786492B2 (en) | 2015-11-12 | 2017-10-10 | Asm Ip Holding B.V. | Formation of SiOCN thin films |
US9786491B2 (en) | 2015-11-12 | 2017-10-10 | Asm Ip Holding B.V. | Formation of SiOCN thin films |
Also Published As
Publication number | Publication date |
---|---|
JP2015069102A (en) | 2015-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11727219B2 (en) | System and method for inferring user intent from speech inputs | |
US20230206940A1 (en) | Method of and system for real time feedback in an incremental speech input interface | |
US10497365B2 (en) | Multi-command single utterance input method | |
US11423885B2 (en) | Utilizing pre-event and post-event input streams to engage an automated assistant | |
AU2015261693B2 (en) | Disambiguating heteronyms in speech synthesis | |
KR101772032B1 (en) | Device, method, and user interface for voice-activated navigation and browsing of a document | |
CN111710333B (en) | Method and system for generating speech transcription | |
Schalkwyk et al. | “Your word is my command”: Google search by voice: A case study | |
US10181322B2 (en) | Multi-user, multi-domain dialog system | |
US8949266B2 (en) | Multiple web-based content category searching in mobile search application | |
US8635243B2 (en) | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application | |
JP6069157B2 (en) | Information processing apparatus, control method, and program | |
CN111357048A (en) | Method and system for controlling home assistant device | |
US20110054899A1 (en) | Command and control utilizing content information in a mobile voice-to-speech application | |
US20110054900A1 (en) | Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application | |
US20110054895A1 (en) | Utilizing user transmitted text to improve language model in mobile dictation application | |
US20110060587A1 (en) | Command and control utilizing ancillary information in a mobile voice-to-speech application | |
US20110054894A1 (en) | Speech recognition through the collection of contact information in mobile dictation application | |
US20110054898A1 (en) | Multiple web-based content search user interface in mobile search application | |
KR101891492B1 (en) | Method and computer device for providing contextual natural language conversation by modifying plain response, and computer readable recording medium | |
TW201629949A (en) | A caching apparatus for serving phonetic pronunciations | |
KR20130035983A (en) | Using context information to facilitate processing of commands in a virtual assistant | |
JP2015069103A (en) | Information processing device, control method, and program | |
JP2015052745A (en) | Information processor, control method and program | |
KR101932263B1 (en) | Method, computer device and computer readable recording medium for providing natural language conversation by timely providing a substantive response |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150825 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160419 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160615 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6069157 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |