JP2013238986A - Processing apparatus, processing system, and output method and program - Google Patents

Processing apparatus, processing system, and output method and program Download PDF

Info

Publication number
JP2013238986A
JP2013238986A JP2012110831A JP2012110831A JP2013238986A JP 2013238986 A JP2013238986 A JP 2013238986A JP 2012110831 A JP2012110831 A JP 2012110831A JP 2012110831 A JP2012110831 A JP 2012110831A JP 2013238986 A JP2013238986 A JP 2013238986A
Authority
JP
Japan
Prior art keywords
unit
output
search
user
situation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012110831A
Other languages
Japanese (ja)
Inventor
Yusuke Tsukuda
友介 佃
Haruomi Azuma
治臣 東
Hideki Ohashi
英樹 大橋
Takahiro Hiramatsu
嵩大 平松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2012110831A priority Critical patent/JP2013238986A/en
Publication of JP2013238986A publication Critical patent/JP2013238986A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a processing apparatus, a processing system, and an output method and program for achieving more natural responses.SOLUTION: A processing apparatus includes: a voice recognition unit 21 that recognizes a user's voice; a search request unit 25 that requests search for information on the basis of the voice recognized by the voice recognition unit 21; an acquisition unit 27 that acquires a search result on the basis of the search for information requested by the search request unit 25; a situation recognition unit 29 that recognizes a situation of the user; and an output control unit 33 that determines whether or not it is a timing for causing an output unit 19 to output the search result on the basis of the situation of the user recognized by the situation recognition unit 29, and if it is the timing for the output, causes the output unit 19 to output the search result.

Description

本発明は、処理装置、処理システム、出力方法及びプログラムに関する。   The present invention relates to a processing apparatus, a processing system, an output method, and a program.

従来から、コンピュータに、ユーザが発した音声を認識させ、ユーザの発話の意図を理解・推論させて、適切な応答を行わせる技術が知られている。このような技術では、人間同士が対話するような自然な応答をコンピュータに行わせることが求められている。例えば特許文献1には、ユーザが疑問を発した際に、疑問に対する答えを応答する技術が開示されている。   2. Description of the Related Art Conventionally, a technique for causing a computer to recognize a voice uttered by a user, understand and infer the intention of the user's utterance, and perform an appropriate response is known. In such a technique, it is required to make a computer perform a natural response that allows humans to interact with each other. For example, Patent Document 1 discloses a technology that responds to an answer to a question when the user asks a question.

しかしながら、上述したような従来技術では、応答を行うタイミングが考慮されていないため、ユーザにとって適切なタイミングで応答が行われるとは限らない。特に、複数ユーザ間で対話が行われている場合には、ユーザ同士の対話を阻害してしまう可能性もある。   However, in the related art as described above, since the timing of response is not considered, the response is not always performed at an appropriate timing for the user. In particular, when a dialogue is performed between a plurality of users, there is a possibility that the dialogue between the users is hindered.

本発明は、上記事情に鑑みてなされたものであり、より自然な応答を行わせることができる処理装置、処理システム、出力方法及びプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and an object thereof is to provide a processing device, a processing system, an output method, and a program that can cause a more natural response.

上述した課題を解決し、目的を達成するために、本発明の一態様にかかる処理装置は、ユーザの音声を認識する音声認識部と、前記音声認識部で認識された音声に基づいて、情報の検索を要求する検索要求部と、前記検索要求部で要求された情報の検索に基づいて、検索結果を取得する取得部と、前記ユーザの状況を認識する状況認識部と、前記状況認識部で認識されたユーザの状況に基づいて、前記検索結果を出力部に出力させるタイミングであるか否かを判定し、出力させるタイミングである場合、前記検索結果を前記出力部に出力させる出力制御部と、を備える。   In order to solve the above-described problems and achieve the object, a processing device according to an aspect of the present invention provides a voice recognition unit that recognizes a user's voice and information based on the voice recognized by the voice recognition unit. A search request unit that requests a search, an acquisition unit that acquires a search result based on a search for information requested by the search request unit, a situation recognition unit that recognizes the user's situation, and the situation recognition unit An output control unit that determines whether or not it is a timing to output the search result to the output unit based on the user status recognized in step S3, and outputs the search result to the output unit if it is a timing to output the search result And comprising.

また、本発明の別の態様にかかる処理システムは、ユーザの音声を認識する音声認識部と、前記音声認識部で認識された音声に基づいて、情報の検索を要求する検索要求部と、前記検索要求部で要求された情報を検索する検索部と、前記検索部の情報の検索結果を取得する取得部と、前記ユーザの状況を認識する状況認識部と、前記状況認識部で認識されたユーザの状況に基づいて、前記検索結果を出力部に出力させるタイミングであるか否かを判定し、出力させるタイミングである場合、前記検索結果を前記出力部に出力させる出力制御部と、を備える。   A processing system according to another aspect of the present invention includes a speech recognition unit that recognizes a user's voice, a search request unit that requests a search for information based on the speech recognized by the speech recognition unit, A search unit that searches for information requested by a search request unit, an acquisition unit that acquires a search result of information of the search unit, a situation recognition unit that recognizes the user's situation, and a situation recognition unit that is recognized An output control unit that determines whether it is a timing to output the search result to an output unit based on a user's situation, and outputs the search result to the output unit when it is a timing to output the search result; .

また、本発明の別の態様にかかる出力方法は、音声認識部が、ユーザの音声を認識する音声認識ステップと、検索要求部が、前記音声認識部で認識された音声に基づいて、情報の検索を要求する検索要求ステップと、取得部が、前記検索要求部で要求された情報の検索に基づいて、検索結果を取得する取得ステップと、状況認識部が、前記ユーザの状況を認識する状況認識ステップと、出力制御部が、前記状況認識部で認識されたユーザの状況に基づいて、前記検索結果を出力部に出力させるタイミングであるか否かを判定し、出力させるタイミングである場合、前記検索結果を前記出力部に出力させる出力制御ステップと、を含む。   An output method according to another aspect of the present invention includes: a voice recognition step in which a voice recognition unit recognizes a user's voice; and a search request unit based on the voice recognized by the voice recognition unit. A search requesting step for requesting a search, an acquisition unit for acquiring a search result based on a search for information requested by the search requesting unit, and a situation in which the situation recognition unit recognizes the situation of the user When the recognition step and the output control unit determine whether it is a timing to output the search result to the output unit based on the user situation recognized by the situation recognition unit, And an output control step for causing the output unit to output the search result.

また、本発明の別の態様にかかるプログラムは、ユーザの音声を認識する音声認識ステップと、前記音声認識部で認識された音声に基づいて、情報の検索を要求する検索要求ステップと、前記検索要求部で要求された情報の検索に基づいて、検索結果を取得する取得ステップと、前記ユーザの状況を認識する状況認識ステップと、前記状況認識部で認識されたユーザの状況に基づいて、前記検索結果を出力部に出力させるタイミングであるか否かを判定し、出力させるタイミングである場合、前記検索結果を前記出力部に出力させる出力制御ステップと、してコンピュータを機能させるためのものである。   According to another aspect of the present invention, there is provided a program for recognizing a user's voice, a search requesting step for requesting information search based on the voice recognized by the voice recognition unit, and the search Based on a search for information requested by the request unit, an acquisition step for acquiring a search result, a situation recognition step for recognizing the situation of the user, and a situation of the user recognized by the situation recognition unit, It is determined whether or not it is time to output the search result to the output unit, and if it is time to output, the output control step for outputting the search result to the output unit is for causing the computer to function. is there.

本発明によれば、より自然な応答を行わせることができるという効果を奏する。   According to the present invention, there is an effect that a more natural response can be performed.

図1は、本実施形態の処理システムの構成の一例を示すブロック図である。FIG. 1 is a block diagram illustrating an example of a configuration of a processing system according to the present embodiment. 図2は、本実施形態の音声認識部の構成の一例を示すブロック図である。FIG. 2 is a block diagram illustrating an example of the configuration of the voice recognition unit of the present embodiment. 図3は、本実施形態の処理システムで実行される処理の一例を示すフローチャートである。FIG. 3 is a flowchart showing an example of processing executed in the processing system of the present embodiment.

以下、添付図面を参照しながら、本発明にかかる処理装置、処理システム、出力方法及びプログラムの実施形態を詳細に説明する。   Hereinafter, embodiments of a processing device, a processing system, an output method, and a program according to the present invention will be described in detail with reference to the accompanying drawings.

まず、本実施形態の処理システムの構成について説明する。   First, the configuration of the processing system of this embodiment will be described.

図1は、本実施形態の処理システム1の構成の一例を示すブロック図である。図1に示すように、処理システム1は、処理装置の一例としてのネットワークエージェント(以下、「NA」と称する)10と、検索部の一例としての検索サーバ101と、を備える。NA10及び検索サーバ101は、インターネット107を介して接続されている。   FIG. 1 is a block diagram showing an example of the configuration of the processing system 1 of the present embodiment. As illustrated in FIG. 1, the processing system 1 includes a network agent (hereinafter referred to as “NA”) 10 as an example of a processing device, and a search server 101 as an example of a search unit. The NA 10 and the search server 101 are connected via the Internet 107.

検索サーバ101は、Web上で公開されている情報を検索するものであり、例えば、Web上で検索エンジン機能を提供するものなどであればよい。具体的には、検索サーバ101は、NA10から検索クエリを受信し、受信した検索クエリに従ってWeb上で公開されている情報を検索し、検索結果をNA10に送信する。ここで、検索サーバ101が検索する情報は、Webの動的ページ上で公開されている動的情報であっても、Webの静的ページ上で公開されている静的情報であってもよい。なお、図1に示す例では、検索サーバを1台例示しているが、これに限定されるものではなく、何台であってもよい。   The search server 101 searches information published on the Web, and may be anything that provides a search engine function on the Web, for example. Specifically, the search server 101 receives a search query from the NA 10, searches information published on the Web in accordance with the received search query, and transmits the search result to the NA 10. Here, the information searched by the search server 101 may be dynamic information published on a Web dynamic page or static information published on a Web static page. . In the example illustrated in FIG. 1, one search server is illustrated, but the number is not limited to this, and any number may be used.

NA10は、Web上で公開されている情報や機能にアクセスする端末である。本実施形態では、NA10は、スマートフォンやタブレットなど携帯型の端末を想定しているが、これに限定されるものではなく、インターネットにアクセス可能な装置であればよい。   The NA 10 is a terminal that accesses information and functions published on the Web. In this embodiment, NA10 assumes portable terminals, such as a smart phone and a tablet, However, It is not limited to this, What is necessary is just an apparatus which can access the internet.

本実施形態では、ユーザU1がNA10を所有しており、ユーザU1がユーザU2との対話にNA10を使用する場合を想定してNA10(処理システム1)について説明するが、ユーザが単独でNA10を使用することもできるし、3人以上のユーザが共用してNA10を使用することもできる。   In the present embodiment, the NA 10 (processing system 1) will be described assuming that the user U1 owns the NA 10 and the user U1 uses the NA 10 for dialogue with the user U2. The NA 10 can be used by three or more users.

NA10は、図1に示すように、音声入力部11と、GPS(Global Positioning System)受信部13と、通信部15と、撮像部16と、記憶部17と、出力部19と、制御部20とを、備える。   As shown in FIG. 1, the NA 10 includes a voice input unit 11, a GPS (Global Positioning System) receiving unit 13, a communication unit 15, an imaging unit 16, a storage unit 17, an output unit 19, and a control unit 20. Are provided.

音声入力部11は、ユーザU1やユーザU2などが発する音声をNA10に入力するものであり、マイクロフォンなどの集音器により実現できる。   The voice input unit 11 inputs voices uttered by the user U1, user U2, and the like to the NA 10, and can be realized by a sound collector such as a microphone.

GPS受信部13は、GPS衛星からの電波を受信するものであり、GPS受信機などにより実現できる。   The GPS receiver 13 receives radio waves from GPS satellites and can be realized by a GPS receiver or the like.

通信部15は、インターネット107を介して検索サーバ101などの外部機器と通信するものであり、NIC(Network Interface Card)などの通信装置により実現できる。   The communication unit 15 communicates with an external device such as the search server 101 via the Internet 107 and can be realized by a communication device such as a NIC (Network Interface Card).

撮像部16は、ユーザU1やユーザU2などを撮像するものであり、デジタルカメラなどの撮像装置により実現できる。   The imaging unit 16 images the user U1, the user U2, and the like, and can be realized by an imaging device such as a digital camera.

記憶部17は、NA10で実行される各種プログラムやNA10で行われる各種処理に使用されるデータなどを記憶する。記憶部17は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、光ディスク、ROM(Read Only Memory)、及びRAM(Random Access Memory)などの磁気的、光学的、又は電気的に記憶可能な記憶装置により実現できる。   The storage unit 17 stores various programs executed by the NA 10 and data used for various processes performed by the NA 10. The storage unit 17 is, for example, magnetic, optical, or electrical such as a hard disk drive (HDD), a solid state drive (SSD), a memory card, an optical disk, a read only memory (ROM), and a random access memory (RAM). This can be realized by a storage device that can be stored.

出力部19は、制御部20の処理結果を出力するものであり、液晶ディスプレイやタッチパネル式ディスプレイなどの表示出力用の表示装置、スピーカなどの音声出力用の音声装置、又は印刷出力用の印刷装置などで実現してもよいし、これらの装置を併用して実現してもよい。   The output unit 19 outputs the processing result of the control unit 20, and includes a display output display device such as a liquid crystal display and a touch panel display, a sound output sound device such as a speaker, or a print output printing device. For example, these devices may be used in combination.

制御部20は、NA10の各部を制御するものであり、音声認識部21と、検索要求部25と、取得部27と、状況認識部29と、出力制御部33とを、含む。音声認識部21、検索要求部25、取得部27、状況認識部29、及び出力制御部33は、例えば、CPU(Central Processing Unit)などの処理装置にプログラムを実行させること、即ち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェア及びハードウェアを併用して実現してもよい。   The control unit 20 controls each unit of the NA 10, and includes a voice recognition unit 21, a search request unit 25, an acquisition unit 27, a situation recognition unit 29, and an output control unit 33. The voice recognition unit 21, the search request unit 25, the acquisition unit 27, the situation recognition unit 29, and the output control unit 33, for example, cause a processing device such as a CPU (Central Processing Unit) to execute a program, that is, realized by software. Alternatively, it may be realized by hardware such as an IC (Integrated Circuit), or may be realized by using software and hardware together.

音声認識部21は、音声入力部11から入力された音声を認識して音声認識結果を得る。図2は、本実施形態の音声認識部21の構成の一例を示すブロック図である。図2に示すように、音声認識部21は、音響分析部51と、変換部53と、判定部55と、抽出部57とを、含む。   The voice recognition unit 21 recognizes the voice input from the voice input unit 11 and obtains a voice recognition result. FIG. 2 is a block diagram illustrating an example of the configuration of the speech recognition unit 21 according to the present embodiment. As shown in FIG. 2, the speech recognition unit 21 includes an acoustic analysis unit 51, a conversion unit 53, a determination unit 55, and an extraction unit 57.

音響分析部51は、音声入力部11から入力された音声を解析し、特徴量を抽出する。変換部53は、音響分析部51により抽出された特徴量を、記憶部17に記憶されている音声認識用の辞書データなどを用いて、テキスト(文字列)に変換する。判定部55は、自然言語処理技術などを用いて、変換部53により変換されたテキストが疑問系(疑問文)であるか否かを判定する。抽出部57は、判定部55により疑問系であると判定された場合、疑問の対象となっているキーワードを抽出する。   The acoustic analysis unit 51 analyzes the voice input from the voice input unit 11 and extracts a feature amount. The conversion unit 53 converts the feature amount extracted by the acoustic analysis unit 51 into text (character string) using dictionary data for speech recognition stored in the storage unit 17. The determination unit 55 determines whether the text converted by the conversion unit 53 is questionable (question sentence) using a natural language processing technique or the like. When the determination unit 55 determines that the extraction unit 57 is questionable, the extraction unit 57 extracts the keyword that is the subject of the question.

音声認識手法の詳細については、例えば、前述した特許文献1、特開2004−45591号公報、及び特開2008−281901号公報などに開示されている公知の手法を用いることができるため、ここでは、詳細な説明は省略する。   For details of the speech recognition method, for example, a known method disclosed in the above-described Patent Document 1, Japanese Patent Application Laid-Open No. 2004-45591, Japanese Patent Application Laid-Open No. 2008-281901, and the like can be used. Detailed description will be omitted.

検索要求部25は、音声認識部21で認識された音声(音声認識部21の音声認識結果)に基づいて、情報の検索を要求する。具体的には、検索要求部25は、音声認識部21の音声認識結果が疑問系である場合、検索サーバ101に情報の検索を要求する。   The search request unit 25 requests information search based on the voice recognized by the voice recognition unit 21 (the voice recognition result of the voice recognition unit 21). Specifically, the search request unit 25 requests the search server 101 to search for information when the voice recognition result of the voice recognition unit 21 is questionable.

例えば、ユーザU1及びユーザU2が歴史の話をしており、ユーザU1が「関が原の戦いは何年にあった?」とユーザU2に質問したとする。そして、判定部55により疑問系であると判定され、抽出部57により疑問の対象となっているキーワードとして「関が原の戦い」及び「年」が抽出されたとする。この場合、検索要求部25は、抽出されたキーワードである「関が原の戦い」及び「年」を検索クエリとし、検索サーバ101にウェブ上での検索を要求する。   For example, it is assumed that the user U1 and the user U2 are talking about history, and the user U1 asks the user U2 “How many years has the Sekigahara battle been?”. Then, it is assumed that the determination unit 55 determines that the system is questionable, and the extraction unit 57 extracts “Sekigahara Battle” and “Year” as the questionable keywords. In this case, the search request unit 25 uses the extracted keywords “Sekigahara Battle” and “Year” as a search query, and requests the search server 101 to search on the web.

取得部27は、情報の検索結果を取得する。具体的には、取得部27は、検索サーバ101から情報の検索結果を取得する。例えば、検索サーバ101により「関が原の戦い」及び「年」を検索クエリとする検索が行われた場合、取得部27は、検索結果として「1600年」を取得し、応答文を生成する。   The acquisition unit 27 acquires a search result of information. Specifically, the acquisition unit 27 acquires information search results from the search server 101. For example, when the search server 101 performs a search using “Sekigahara Battle” and “Year” as search queries, the acquisition unit 27 acquires “1600” as a search result and generates a response sentence.

状況認識部29は、ユーザU1やユーザU2などの状況を認識してユーザ状況認識結果を得る。なお、状況認識部29は、逐次、ユーザU1やユーザU2などの状況を認識する。ここで、ユーザ状況認識結果は、ユーザU1やユーザU2などの目配せの有無、ユーザU1やユーザU2などが首を傾けているか否か、並びにユーザU1及びユーザU2が沈黙しているか否かの少なくともいずれかなどが該当する。   The situation recognition unit 29 recognizes the situation of the user U1 or the user U2 and obtains a user situation recognition result. Note that the situation recognition unit 29 sequentially recognizes the situation of the user U1 and the user U2. Here, the user situation recognition result includes at least the presence / absence of the user U1 and the user U2, whether or not the user U1 and the user U2 are tilted, and whether or not the user U1 and the user U2 are silent. One of them is applicable.

目配せの有無や首を傾けているか否かは、撮像部16により撮像された画像を解析することで判別できる。例えば、状況認識部29は、撮像部16により撮像された画像を解析し、ユーザU1やユーザU2などの視線が正面に向けられたか否かを判定することで、目配せの有無を判断できる。また例えば、状況認識部29は、撮像部16により撮像された画像を解析し、ユーザU1やユーザU2の頭部の傾きがある所定の角度を超えたかを判定することで、首を傾けているか否かを判断できる。   The presence / absence of the eyes and whether the head is tilted can be determined by analyzing the image captured by the imaging unit 16. For example, the situation recognizing unit 29 can determine the presence or absence of gaze by analyzing the image captured by the imaging unit 16 and determining whether or not the line of sight of the user U1 or the user U2 is directed to the front. In addition, for example, the situation recognition unit 29 analyzes the image captured by the imaging unit 16 and determines whether the head tilt of the user U1 or the user U2 exceeds a certain angle, thereby tilting the neck. You can determine whether or not.

沈黙しているか否かは、音声入力部11に入力される音声の有無から判別できる。例えば、状況認識部29は、音声認識部21(判定部55)により疑問系と判定された音声が音声入力部11に入力されてからの経過時間を監視し、所定時間内に次の音声が入力されたか否かを判定することにより、沈黙しているか否かを判断できる。   Whether or not the user is silent can be determined from the presence or absence of a voice input to the voice input unit 11. For example, the situation recognizing unit 29 monitors the elapsed time after the voice determined to be questionable by the voice recognition unit 21 (determination unit 55) is input to the voice input unit 11, and the next voice is received within a predetermined time. By determining whether or not the input has been made, it can be determined whether or not the user is silent.

出力制御部33は、状況認識部29で認識されたユーザの状況(状況認識部29のユーザ状況認識結果)に基づいて、取得部27により取得された検索結果を出力部19に出力させるタイミングであるか否かを判定し、出力させるタイミングである場合、当該検索結果を出力部19に出力させる。なお、出力制御部33は、逐次、ユーザ状況認識結果を用いて検索結果を出力部19に出力させるタイミングであるか否かを判定する。そして出力制御部33は、一定期間内に検索結果を出力部19に出力させるタイミングであると判定しなかった場合、検索結果を出力部19に出力させない。以降の説明では、「出力部19に出力させるタイミング」を「出力タイミング」として説明する。   The output control unit 33 is configured to output the search result acquired by the acquisition unit 27 to the output unit 19 based on the user situation recognized by the situation recognition unit 29 (user situation recognition result of the situation recognition unit 29). It is determined whether or not there is a timing to output, and the search result is output to the output unit 19. Note that the output control unit 33 sequentially determines whether it is time to output the search result to the output unit 19 using the user situation recognition result. If the output control unit 33 does not determine that it is time to output the search result to the output unit 19 within a certain period, the output control unit 33 does not cause the output unit 19 to output the search result. In the following description, “timing to be output by the output unit 19” is described as “output timing”.

例えば、出力制御部33は、ユーザ状況認識結果が、目配せ有りを示していたり、首を傾けていることを示していたり、沈黙していることを示していたりする場合、取得部27により生成された応答文(検索結果)を出力部19に出力させる。   For example, the output control unit 33 is generated by the acquisition unit 27 when the user situation recognition result indicates that there is a gaze, indicates that the head is tilted, or indicates that the user is silent. The response section (search result) is output to the output unit 19.

出力制御部33は、例えば、出力部19に音声出力を行わせる場合、取得部27により生成された応答文(検索結果)を音声合成して音声に変換し、出力部19に音声出力させる。出力制御部33は、また例えば、出力部19に音声出力を行わせる場合、取得部27により生成された応答文(検索結果)を描画データに変換し、出力部19に画面出力させる。   For example, when the output control unit 33 causes the output unit 19 to perform voice output, the response sentence (search result) generated by the acquisition unit 27 is voice-synthesized and converted into voice, and the output unit 19 outputs the voice. Further, for example, when the output unit 19 performs audio output, the output control unit 33 converts the response sentence (search result) generated by the acquisition unit 27 into drawing data and causes the output unit 19 to output the screen.

なお、NA10は、上述した各部の全てを必須の構成とする必要はなく、その一部を省略した構成としてもよい。   Note that the NA 10 does not have to have all the above-described components as essential components, and may be configured such that some of them are omitted.

次に、本実施形態の処理システムの動作について説明する。   Next, the operation of the processing system of this embodiment will be described.

図3は、本実施形態の処理システム1で実行される処理の一例を示すフローチャートである。   FIG. 3 is a flowchart illustrating an example of processing executed by the processing system 1 of the present embodiment.

まず、音声認識部21は、音声入力部11から入力されたユーザU1やユーザU2などの音声を認識して音声認識結果を得る(ステップS101)。   First, the voice recognition unit 21 recognizes the voice of the user U1 or the user U2 input from the voice input unit 11 and obtains a voice recognition result (step S101).

続いて、音声認識部21は、音声認識結果が疑問系であるか否かを判定する(ステップS103)。なお、音声認識結果が疑問系でない場合(ステップS103でNo)、NA10による応答出力は行われないため、ステップS101へ戻る。   Subsequently, the voice recognition unit 21 determines whether or not the voice recognition result is questionable (step S103). If the voice recognition result is not questionable (No in step S103), the NA 10 does not output a response, and the process returns to step S101.

音声認識結果が疑問系である場合(ステップS103でYes)、検索要求部25は、音声認識結果に基づく検索クエリで、検索サーバ101にウェブ上での検索を要求する(ステップS104)。   When the voice recognition result is questionable (Yes in step S103), the search request unit 25 requests the search server 101 to search on the web with a search query based on the voice recognition result (step S104).

続いて、検索サーバ101は、NA10から検索クエリを受信し、受信した検索クエリに従ってWeb上で公開されている情報を検索し、検索結果をNA10に送信する(ステップS105)。   Subsequently, the search server 101 receives a search query from the NA 10, searches information published on the Web according to the received search query, and transmits the search result to the NA 10 (step S105).

続いて、取得部27は、検索サーバ101から情報の検索結果を取得する(ステップS107)。   Subsequently, the acquisition unit 27 acquires a search result of information from the search server 101 (step S107).

続いて、状況認識部29は、ユーザU1やユーザU2などの状況を逐次認識してユーザ状況認識結果を得、出力制御部33は、状況認識部29により得られたユーザ状況認識結果を用いて、取得部27により取得された検索結果の出力タイミングであるか否かを判定する(ステップS109)。   Subsequently, the situation recognition unit 29 sequentially recognizes the situation of the user U1 and the user U2 to obtain a user situation recognition result, and the output control unit 33 uses the user situation recognition result obtained by the situation recognition unit 29. Then, it is determined whether it is the output timing of the search result acquired by the acquisition unit 27 (step S109).

状況認識部29及び出力制御部33は、出力タイミングと判定されるまで、ステップS109の処理を繰り返し(ステップS109でNo)、出力タイミングと判定されると(ステップS109でYes)、検索結果を出力部19に出力させる(ステップS111)。これにより、NA10による応答が望まれたタイミングでの出力が可能となり、対話の促進効果も期待できる。   The situation recognition unit 29 and the output control unit 33 repeat the process of step S109 until the output timing is determined (No in step S109). If the output timing is determined (Yes in step S109), the search result is output. It is made to output to the part 19 (step S111). As a result, it is possible to output at a timing when a response by the NA 10 is desired, and a dialogue promoting effect can be expected.

なお、状況認識部29及び出力制御部33は、一定期間内に検索結果の出力タイミングであると判定されなかった場合、検索結果を出力部19に出力させずに、処理を終了する。これにより、NA10による応答が望まれていない場合には、応答を行わず、対話の妨げになることを回避することが可能となる。   If the situation recognition unit 29 and the output control unit 33 do not determine that the search result output timing is within a certain period, the status recognition unit 29 and the output control unit 33 end the processing without causing the output unit 19 to output the search result. As a result, when a response by the NA 10 is not desired, the response is not performed, and it is possible to avoid a hindrance to the dialogue.

以上のように本実施形態では、ユーザ状況認識結果を用いて出力タイミングであるか否かを判定し、出力タイミングであれば出力を行うので、より自然な応答をNA10に行わせることができる。   As described above, in the present embodiment, it is determined whether or not it is the output timing using the user situation recognition result, and if it is the output timing, the output is performed, so that a more natural response can be performed by the NA 10.

特に本実施形態によれば、複数ユーザ間で対話が行われていて疑問が生じた場合に、他のユーザが応答を行った場合には、NA10による応答を行わず、他のユーザも応答を行わなかった場合には、NA10による応答を行うことができるため、ユーザ同士の対話を阻害せず、より自然な応答をNA10に行わせることができる。   In particular, according to the present embodiment, when a question arises when a dialogue is performed between a plurality of users, when another user responds, the NA 10 does not respond and the other users also respond. If not, a response by the NA 10 can be made, so that the interaction between users is not hindered, and a more natural response can be made to the NA 10.

(変形例)
なお、本発明は、上記実施形態に限定されるものではなく、種々の変形が可能である。
(Modification)
In addition, this invention is not limited to the said embodiment, A various deformation | transformation is possible.

(変形例1)
上記実施形態では、一般的なWeb検索の検索結果を応答内容としたが、ユーザU1やユーザU2の移動履歴の検索結果を応答内容としてもよい。例えば、GPS受信部13により受信されたGPS衛星からの電波によって認識されたユーザU1やユーザU2の位置情報をWeb上でストレージ機能を提供するクラウド上に履歴しておく。そして、過去に行った場所を問われた場合に、クラウド上の移動履歴を検索して当該場所の情報を取得し、出力タイミングで出力するようにしてもよい。このようにすれば、ユーザに依存する疑問に対しても応答することが可能となる。
(Modification 1)
In the above embodiment, the search result of the general Web search is used as the response content, but the search result of the movement history of the user U1 or the user U2 may be used as the response content. For example, the location information of the user U1 and the user U2 recognized by the radio wave from the GPS satellite received by the GPS receiving unit 13 is recorded on a cloud providing a storage function on the Web. And when the place visited in the past is asked, the movement history on a cloud may be searched, the information of the said place may be acquired, and you may make it output at an output timing. In this way, it is possible to respond to questions that depend on the user.

(変形例2)
上記実施形態において、出力タイミングだけでなく出力方法を考慮してもよい。具体的には、出力制御部33は、出力部19が表示出力及び音声出力など複数態様での出力が可能な場合には、いずれの態様で出力するかを判定し、判定した態様でパブリック情報の絞り込み結果を出力するようにしてもよい。例えば、出力制御部33は、GPS受信部13により受信されたGPS衛星からの電波によって認識されたユーザU1やユーザU2の位置情報から公共の場であると判定した場合には、音声出力ではなく、表示出力としてもよい。
(Modification 2)
In the above embodiment, not only the output timing but also the output method may be considered. Specifically, when the output unit 19 can output in a plurality of modes such as display output and audio output, the output control unit 33 determines which mode to output, and in the determined mode public information The narrowing-down result may be output. For example, if the output control unit 33 determines that the location is a public place from the location information of the user U1 and the user U2 recognized by the radio waves from the GPS satellites received by the GPS receiving unit 13, the output control unit 33 does not output sound. It is good also as a display output.

(ハードウェア構成)
本実施形態及び変形例のNA10のハードウェア構成の一例について説明する。本実施形態及び変形例のNA10は、CPUなどの制御装置と、ROMやRAMなどの記憶装置と、HDDなどの外部記憶装置と、ディスプレイなどの表示装置と、マイクロフォンなどの音声入力装置と、通信インタフェースなどの通信装置と、を備えており、通常のコンピュータを利用したハードウェア構成となっている。
(Hardware configuration)
An example of the hardware configuration of the NA 10 of this embodiment and the modification will be described. The NA 10 according to the present embodiment and the modification includes a control device such as a CPU, a storage device such as a ROM and a RAM, an external storage device such as an HDD, a display device such as a display, a voice input device such as a microphone, and a communication device. And a communication device such as an interface, and has a hardware configuration using a normal computer.

本実施形態及び変形例のNA10で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、CD−R、メモリカード、DVD(Digital Versatile Disk)、フレキシブルディスク(FD)等のコンピュータで読み取り可能な記憶媒体に記憶されて提供される。   The programs executed by the NA 10 of this embodiment and the modification are files in an installable format or an executable format, and are CD-ROM, CD-R, memory card, DVD (Digital Versatile Disk), flexible disk (FD). Or the like stored in a computer-readable storage medium.

また、本実施形態及び変形例のNA10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、本実施形態及び変形例のNA10で実行されるプログラムを、インターネット等のネットワーク経由で提供または配布するようにしてもよい。また、本実施形態及び変形例のNA10で実行されるプログラムを、ROM等に予め組み込んで提供するようにしてもよい。   Further, the program executed by the NA 10 of the present embodiment and the modification may be provided by being stored on a computer connected to a network such as the Internet and downloaded via the network. Further, the program executed by the NA 10 of this embodiment and the modification may be provided or distributed via a network such as the Internet. Further, the program executed by the NA 10 of this embodiment and the modification may be provided by being incorporated in advance in a ROM or the like.

本実施形態及び変形例のNA10で実行されるプログラムは、上述した各部をコンピュータ上で実現させるためのモジュール構成となっている。実際のハードウェアとしては、CPUがHDDからプログラムをRAM上に読み出して実行することにより、上記各部がコンピュータ上で実現されるようになっている。   The program executed by the NA 10 of this embodiment and the modification has a module configuration for realizing the above-described units on a computer. As actual hardware, the CPU reads out a program from the HDD to the RAM and executes the program, whereby the above-described units are realized on the computer.

1 処理システム
10 NA(ネットワークエージェント)
11 音声入力部
13 GPS受信部
15 通信部
16 撮像部
17 記憶部
19 出力部
20 制御部
21 音声認識部
25 検索要求部
27 取得部
29 状況認識部
33 出力制御部
51 音響分析部
53 変換部
55 判定部
57 抽出部
101 検索サーバ
107 インターネット
1 Processing System 10 NA (Network Agent)
DESCRIPTION OF SYMBOLS 11 Voice input part 13 GPS receiving part 15 Communication part 16 Imaging part 17 Storage part 19 Output part 20 Control part 21 Voice recognition part 25 Search request part 27 Acquisition part 29 Situation recognition part 33 Output control part 51 Acoustical analysis part 53 Conversion part 55 Determination unit 57 Extraction unit 101 Search server 107 Internet

特開2007−121577号公報JP 2007-121577 A

Claims (8)

ユーザの音声を認識する音声認識部と、
前記音声認識部で認識された音声に基づいて、情報の検索を要求する検索要求部と、
前記検索要求部で要求された情報の検索に基づいて、検索結果を取得する取得部と、
前記ユーザの状況を認識する状況認識部と、
前記状況認識部で認識されたユーザの状況に基づいて、前記検索結果を出力部に出力させるタイミングであるか否かを判定し、出力させるタイミングである場合、前記検索結果を前記出力部に出力させる出力制御部と、
を備える処理装置。
A voice recognition unit that recognizes the user's voice;
A search request unit that requests a search for information based on the voice recognized by the voice recognition unit;
An acquisition unit for acquiring a search result based on a search for information requested by the search request unit;
A situation recognition unit for recognizing the situation of the user;
Based on the situation of the user recognized by the situation recognition unit, it is determined whether it is time to output the search result to the output unit, and when it is time to output, the search result is output to the output unit. An output control unit
A processing apparatus comprising:
前記状況認識部は、逐次、前記ユーザの状況を認識し、
前記出力制御部は、逐次、前記状況認識部で認識されたユーザの状況に基づいて、前記検索結果を前記出力部に出力させるタイミングであるか否かを判定する請求項1に記載の処理装置。
The situation recognition unit sequentially recognizes the situation of the user,
The processing apparatus according to claim 1, wherein the output control unit sequentially determines whether or not it is a timing to output the search result to the output unit based on a user situation recognized by the situation recognition unit. .
前記出力制御部は、一定期間内に前記検索結果を前記出力部に出力させるタイミングであると判定しなかった場合、前記検索結果を前記出力部に出力させない請求項2に記載の処理装置。   The processing apparatus according to claim 2, wherein the output control unit does not output the search result to the output unit when it is not determined that it is time to output the search result to the output unit within a certain period. 前記検索要求部は、前記音声認識結果が疑問系である場合、前記情報の検索を要求する請求項1〜3のいずれか1つに記載の処理装置。   The processing device according to any one of claims 1 to 3, wherein the search request unit requests a search for the information when the voice recognition result is questionable. 前記状況認識部で認識されたユーザの状況は、前記ユーザの目配せの有無、前記ユーザが首を傾けているか否か、並びに前記ユーザ及び対話相手が沈黙しているか否かの状況のうち少なくともいずれかである請求項1〜4のいずれか1つに記載の処理装置。   The status of the user recognized by the status recognition unit is at least one of the presence / absence of the user's attention, whether or not the user is tilted, and whether or not the user and the conversation partner are silent. The processing apparatus according to any one of claims 1 to 4. ユーザの音声を認識する音声認識部と、
前記音声認識部で認識された音声に基づいて、情報の検索を要求する検索要求部と、
前記検索要求部で要求された情報を検索する検索部と、
前記検索部の情報の検索結果を取得する取得部と、
前記ユーザの状況を認識する状況認識部と、
前記状況認識部で認識されたユーザの状況に基づいて、前記検索結果を出力部に出力させるタイミングであるか否かを判定し、出力させるタイミングである場合、前記検索結果を前記出力部に出力させる出力制御部と、
を備える処理システム。
A voice recognition unit that recognizes the user's voice;
A search request unit that requests a search for information based on the voice recognized by the voice recognition unit;
A search unit for searching for information requested by the search request unit;
An acquisition unit for acquiring a search result of information of the search unit;
A situation recognition unit for recognizing the situation of the user;
Based on the situation of the user recognized by the situation recognition unit, it is determined whether it is time to output the search result to the output unit, and when it is time to output, the search result is output to the output unit. An output control unit
A processing system comprising:
音声認識部が、ユーザの音声を認識する音声認識ステップと、
検索要求部が、前記音声認識部で認識された音声に基づいて、情報の検索を要求する検索要求ステップと、
取得部が、前記検索要求部で要求された情報の検索に基づいて、検索結果を取得する取得ステップと、
状況認識部が、前記ユーザの状況を認識する状況認識ステップと、
出力制御部が、前記状況認識部で認識されたユーザの状況に基づいて、前記検索結果を出力部に出力させるタイミングであるか否かを判定し、出力させるタイミングである場合、前記検索結果を前記出力部に出力させる出力制御ステップと、
を含む出力方法。
A voice recognition step in which a voice recognition unit recognizes a user's voice;
A search requesting step for requesting a search for information based on the voice recognized by the voice recognition unit;
An obtaining step for obtaining a search result based on a search for information requested by the search requesting unit;
A situation recognition unit that recognizes the situation of the user;
The output control unit determines whether or not it is a timing to output the search result to the output unit based on the situation of the user recognized by the situation recognition unit. An output control step for outputting to the output unit;
Output method including
ユーザの音声を認識する音声認識ステップと、
前記音声認識部で認識された音声に基づいて、情報の検索を要求する検索要求ステップと、
前記検索要求部で要求された情報の検索に基づいて、検索結果を取得する取得ステップと、
前記ユーザの状況を認識する状況認識ステップと、
前記状況認識部で認識されたユーザの状況に基づいて、前記検索結果を出力部に出力させるタイミングであるか否かを判定し、出力させるタイミングである場合、前記検索結果を前記出力部に出力させる出力制御ステップと、
してコンピュータを機能させるためのプログラム。
A voice recognition step for recognizing the user's voice;
A search requesting step for requesting a search for information based on the voice recognized by the voice recognition unit;
An acquisition step of acquiring a search result based on a search for information requested by the search request unit;
A situation recognition step for recognizing the situation of the user;
Based on the situation of the user recognized by the situation recognition unit, it is determined whether it is time to output the search result to the output unit, and when it is time to output, the search result is output to the output unit. An output control step to
Program to make the computer function.
JP2012110831A 2012-05-14 2012-05-14 Processing apparatus, processing system, and output method and program Pending JP2013238986A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012110831A JP2013238986A (en) 2012-05-14 2012-05-14 Processing apparatus, processing system, and output method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012110831A JP2013238986A (en) 2012-05-14 2012-05-14 Processing apparatus, processing system, and output method and program

Publications (1)

Publication Number Publication Date
JP2013238986A true JP2013238986A (en) 2013-11-28

Family

ID=49763965

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012110831A Pending JP2013238986A (en) 2012-05-14 2012-05-14 Processing apparatus, processing system, and output method and program

Country Status (1)

Country Link
JP (1) JP2013238986A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015141140A (en) * 2014-01-29 2015-08-03 株式会社ミツトヨ Remotely-operable measuring instrument and measuring system
JP2020030231A (en) * 2018-08-20 2020-02-27 Zホールディングス株式会社 Information processing device, information processing method, and information processing program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015141140A (en) * 2014-01-29 2015-08-03 株式会社ミツトヨ Remotely-operable measuring instrument and measuring system
JP2020030231A (en) * 2018-08-20 2020-02-27 Zホールディングス株式会社 Information processing device, information processing method, and information processing program
JP7187212B2 (en) 2018-08-20 2022-12-12 ヤフー株式会社 Information processing device, information processing method and information processing program

Similar Documents

Publication Publication Date Title
US10079014B2 (en) Name recognition system
US9424836B2 (en) Privacy-sensitive speech model creation via aggregation of multiple user models
US9542956B1 (en) Systems and methods for responding to human spoken audio
US11810557B2 (en) Dynamic and/or context-specific hot words to invoke automated assistant
JP2022539675A (en) Detection and/or registration of hot commands to trigger responsive actions by automated assistants
JP7256237B2 (en) Rendering Responses to User Spoken Speech Utilizing Localized Text Response Maps
US20160125883A1 (en) Speech recognition client apparatus performing local speech recognition
NZ732357A (en) Headless task completion within digital personal assistants
US9148741B2 (en) Action generation based on voice data
JP2017107078A (en) Voice interactive method, voice interactive device, and voice interactive program
US10950240B2 (en) Information processing device and information processing method
JP2018045001A (en) Voice recognition system, information processing apparatus, program, and voice recognition method
JP6625772B2 (en) Search method and electronic device using the same
KR20200011198A (en) Method, apparatus and computer program for providing interaction message
KR20150041592A (en) Method for updating contact information in callee electronic device, and the electronic device
JP2016006607A (en) Interactive communication system, terminal device, and program
JP2013254395A (en) Processing apparatus, processing system, output method and program
CN106980640B (en) Interaction method, device and computer-readable storage medium for photos
JP2013238986A (en) Processing apparatus, processing system, and output method and program
JP2018055022A (en) Voice recognition system, information processor, and program
KR20130116128A (en) Question answering system using speech recognition by tts, its application method thereof
JP2013250490A (en) Processing apparatus, processing system, and voice recognition method and program
CN111968630A (en) Information processing method and device and electronic equipment
US20240119930A1 (en) Artificial intelligence device and operating method thereof
JP2013238985A (en) Processing apparatus, processing system, and searching method and program