JP2022169645A - Device and program, or the like - Google Patents

Device and program, or the like Download PDF

Info

Publication number
JP2022169645A
JP2022169645A JP2022129500A JP2022129500A JP2022169645A JP 2022169645 A JP2022169645 A JP 2022169645A JP 2022129500 A JP2022129500 A JP 2022129500A JP 2022129500 A JP2022129500 A JP 2022129500A JP 2022169645 A JP2022169645 A JP 2022169645A
Authority
JP
Japan
Prior art keywords
output
user
dialogue
robot
character strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022129500A
Other languages
Japanese (ja)
Other versions
JP7408105B2 (en
Inventor
隆之 水野
Takayuki Mizuno
幹雄 島津江
Mikio Shimazue
裕一 梶田
Yuichi Kajita
勇喜 清水
Yuki Shimizu
昌浩 和田
Masahiro Wada
圭三 高橋
Keizo Takahashi
慶介 高橋
Keisuke Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yupiteru Corp
Yupiteru Kagoshima Corp
Original Assignee
Yupiteru Corp
Yupiteru Kagoshima Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yupiteru Corp, Yupiteru Kagoshima Corp filed Critical Yupiteru Corp
Priority to JP2022129500A priority Critical patent/JP7408105B2/en
Publication of JP2022169645A publication Critical patent/JP2022169645A/en
Priority to JP2023208965A priority patent/JP2024026341A/en
Application granted granted Critical
Publication of JP7408105B2 publication Critical patent/JP7408105B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Toys (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a device equipped with a communication function, and a program.
SOLUTION: A robot 1 has a voice output function and a function for communicating with a user. The robot 1 interacts with the user using an interaction engine, and converts the last speech of the user to character string data simultaneously with the interaction, to be displayed on a touch panel section 7 serving as a display unit.
EFFECT: The user can visually confirm the speech of the user, thereby contributing to correction or direction of subsequent communication.
SELECTED DRAWING: Figure 1
COPYRIGHT: (C)2023,JPO&INPIT

Description

本発明は、例えばコミュニケーション等を行う機能を備えた装置及びプログラム等に関するものである。 TECHNICAL FIELD The present invention relates to a device, a program, and the like having a function of, for example, communication.

特許文献1には、対話式のコミュニケーションロボットに関する技術が開示されている。 Patent Literature 1 discloses a technology related to an interactive communication robot.

特開2011-000681号公報JP 2011-000681 A

しかし、従来のコミュニケーションロボットは十分な能力を備えていないという課題があった。そこで従来よりも優れた能力を有する装置及びプログラム等を提供することを目的とする。
本願の発明の目的はこれに限定されず、本明細書および図面等に開示される構成の部分から奏する効果を得ることを目的とする構成についても分割出願・補正等により権利取得する意思を有する。例えば本明細書において「~できる」と記載した箇所を「~が課題で
ある」と読み替えた課題が本明細書には開示されている。課題はそれぞれ独立したものとして記載しているものであり、この課題を解決するための構成についても単独で分割出願・補正等により権利取得する意思を有する。課題が明細書の記載から黙字的に把握されるものであっても、本出願人は本明細書に記載の構成の一部を補正または分割出願にて特許請求の範囲とする意思を有する。またこれら独立の課題を組み合わせた課題も開示されている。
However, there was a problem that conventional communication robots did not have sufficient capabilities. Therefore, it is an object of the present invention to provide a device, a program, and the like, which have better performance than the conventional ones.
The purpose of the invention of the present application is not limited to this, and we intend to acquire rights for the configuration aiming to obtain the effect produced by the configuration disclosed in the specification and drawings by divisional application, amendment, etc. . For example, the present specification discloses a problem in which the phrase "can be done" is read as "is the problem." The problems are described as independent ones, and we have the intention to independently acquire the rights for the structure for solving the problems by filing a divisional application, an amendment, etc. Even if the problem is implicitly understood from the description of the specification, the applicant intends to claim part of the configuration described in this specification in an amended or divisional application. . Also disclosed is a combination of these independent tasks.

(1)ユーザー又は他の機器の少なくともいずれか一方への出力情報の出力をすることでコミュニケーションを行う機能とを備える装置であって、前記コミュニケーションのための前記出力情報の生成を制御する機能又は前記コミュニケーションのための前記出力情報の出力を行うタイミングを制御する機能を備えるとよい。
このようにすれば、ユーザーまたは他の機器の少なくともいずれか一方は、生成が制御された出力情報又はタイミングが制御された出力情報の少なくともいずれか一方を得ることができる。従来よりも優れた装置を提供できる。
装置はコミュニケーションのための前記出力情報の生成を制御として例えばコミュニケーションに応じた出力情報を生成するとよい。このようにすれば特にユーザー又は他の機器において装置とのコミュニケーションを図る際の利便性が高まる。コミュニケーションはどのような出力情報を出力して行うようにしてもよいが、特に過去のコミュニケーションの履歴情報を記憶しておき当該履歴情報にも基いて行うとよい。また異なる複数のユーザーまたは他の機器とのコミュニケーションの履歴情報に基いて行うとよい。特に出力情報の出力は1の出力手段から行うようにしてもよいが、異なる複数の出力手段から可能な構成とし、これらのうちいずれかの出力手段を選択して出力を行うようにするとよい。出力手段としては例えば音声出力手段、表示手段、通信手段等とするとよい。コミュニケーションは、音声や目視あるいはそれら以外の五感、例えば触感にうったえコミュニケーションを図る構成としてもよい。
(1) A device having a function of communicating by outputting output information to at least one of a user or other device, wherein the function of controlling the generation of the output information for the communication; It is preferable to provide a function of controlling the timing of outputting the output information for the communication.
In this way, the user and/or other device can obtain output information whose generation is controlled and/or whose timing is controlled. It is possible to provide a better device than before.
The device preferably controls the generation of the output information for communication, and generates output information according to communication, for example. This will enhance the convenience of communicating with the device, especially for users or other devices. Communication may be performed by outputting any kind of output information, but it is particularly preferable to store history information of past communication and perform communication based on the history information. Moreover, it is preferable to carry out based on history information of communication with a plurality of different users or other devices. In particular, the output information may be output from one output means, but it is preferable that the configuration is such that a plurality of different output means can be used, and one of these output means is selected for output. The output means may be, for example, audio output means, display means, communication means, or the like. Communication may be performed by voice, sight, or other five senses, such as tactile sensation.

「装置」は特に出力情報を音声出力をする機能を備えるとよい。このようにすれば、例えば音声を入力して動作するデバイスを制御できる。装置は、特にコミュニケーションするためのインターフェースを備え、コミュニケーションを実行するための判断手段を備えるとよい。
なお「装置」の構成の含まれる部分は複数の筺体で構成してもよいが、特に1つの筺体で構成するとよい。
また装置は、例えば、有線や無線を通じてネットワークにアクセスする機能を備えるシステムとするとよい。特に、例えば、スマートフォン、タブレット端末、スマートスピーカ、スマートカメラ等とするとよい。また、外観も限定されるものではないが、特に、いかにも他者とコミュニケーションをとるような装置とするとよい。特にロボットとするとよい。例えば人や動物を模したような、あるいは例えばそれら以外の擬人化した形態のロボットとすると特によい。
The "device" preferably has a function of outputting the output information by voice. In this way, for example, a device that operates by inputting voice can be controlled. The device may in particular comprise an interface for communicating, and may comprise decision means for carrying out the communication.
Note that the part including the configuration of the "apparatus" may be composed of a plurality of housings, but it is particularly preferable to be composed of a single housing.
Also, the device may be, for example, a system that has the ability to access a network via wire or wireless. In particular, for example, a smart phone, a tablet terminal, a smart speaker, a smart camera, or the like may be used. Also, the appearance is not limited, but it is preferable to use a device that communicates with other people. In particular, it is preferable to use a robot. For example, it is particularly good if the robot is in an anthropomorphic form, such as a human, animal, or other anthropomorphic form.

装置は、コミュニケーションするための入力側のインターフェースを備えるとよく、例えばキーボードのような入力装置、例えば文字を読み込んでデータ化する光学文字認識(OCR:Optical character recognition)とのインターフェースでもよいが、入力側のインターフェースとして音声によるものを備えるとよい。音声によるものとしては、例えばマイクロフォンで電気信号に変換した音声信号に基づく音声データの取得する機能を備えるとよい。
出力側のインターフェースとして音声によるものを備えるとよく、例えばスピーカ装置、イヤフォン等がよい。出力側のインターフェースとして目視によるものを備えるとよく、例えば表示内容を変更可能なディスプレイを備えるとよく、例えば液晶ディスプレイ(LCD)、プラズマディスプレイ(PDP)、有機ELディスプレイ、ブラウン管等の表示
装置を備えるとよい。また、例えば印刷物による出力を備えるとよい。また特に出力側のインターフェースとして実際に動きを発生するものを備えるとよい。実際に動きを発生するものとしてアクチュエータを備えるとよい。例えばモータ等を備えるとよい。特に装置は実際に動きを発生する部材を備えるロボットとするとよい。装置は特に出力情報の出力を、実際に動きを発生する部材の動きとして行なうとよい。特に、出力側のインターフェースとしては音声によるものと目視によるものと実際に動きを発生するものをいずれも備えるとよい。
「ユーザー」は例えば装置を扱える人であって、一人でもよいが、複数人とするとよい。
「他の装置」は上記の装置の具体的な1つと例えば外観、機能等が同じであっても異なるものであってもよい。他の装置は音声出力をする機能を備えてなくともよい。音声出力機能を備えるとよい。また他の装置は音声入力をする機能を備えてなくともよいが音声入力機能を備えるとよい。
他の機器は、ネットワークにアクセスできない機器としてもよいが、ネットワークにアクセスできる機器とするとよい。特にインターネットにアクセスできる機器とするとよい。
出力情報は出力手段からある出力をさせる構成とするとよい。「ある出力」は、例えば外部に対する報知である。明らかな「報知」という形態でなくともそれによって結果的に何かの変化があったことだけでも「報知」と解釈できる。「ある出力」は必ずしも報知することを目的としたものでなくともよい。例えばなんらかの情報を有する、あるいはなんらの情報も有さない音や光の出力がよく、例えば何か物理的な量の変化、物の移動等がよい。
The device preferably has an interface on the input side for communication. For example, it may be an interface with an input device such as a keyboard, or an optical character recognition (OCR) that reads characters and converts them into data. It is preferable to provide a voice interface as the side interface. For audio, for example, it is preferable to have a function of acquiring audio data based on an audio signal converted into an electric signal by a microphone.
It is preferable to provide an audio interface as an output side interface, for example, a speaker device, an earphone, or the like. It is preferable to provide a visual interface as an output side interface, for example, it is preferable to provide a display capable of changing display contents, for example, a display device such as a liquid crystal display (LCD), a plasma display (PDP), an organic EL display, or a cathode ray tube is provided. Good. In addition, it is preferable to provide an output in the form of printed matter, for example. In particular, it is preferable to provide an interface on the output side that actually generates movement. An actuator may be provided to actually generate the movement. For example, a motor or the like may be provided. In particular, the device may be a robot with members that actually generate movement. In particular, the device may output the output information as the movement of the member that actually produces the movement. In particular, as an interface on the output side, it is preferable to provide an audio interface, a visual interface, and an interface that actually generates movement.
A "user" is, for example, a person who can handle the device, and may be one person, but may be a plurality of persons.
The "other device" may be the same as or different from a specific one of the devices described above, for example, in appearance, function, and the like. Other devices may not have the function of outputting audio. It is preferable to have an audio output function. Further, the other device may not have the function of inputting voice, but it is preferable to have the function of inputting voice.
The other device may be a device that cannot access the network, but may be a device that can access the network. In particular, it is preferable to use a device that can access the Internet.
It is preferable that the output information is configured to cause a certain output from the output means. "Some output" is, for example, notification to the outside. Even if it is not in the form of a clear "notification", it can be interpreted as "notification" even if there is some change as a result. "A certain output" does not necessarily have to be intended for notification. For example, the output of sound or light that has some information or no information is good, for example, the change of some physical quantity, the movement of an object, etc. is good.

(2)前記装置は、音声による前記コミュニケーションによって表示部での表示態様を変化させるように表示させる表示機能を備えているとよい。 (2) Preferably, the device has a display function to change the display mode on the display section according to the voice communication.

音声によってコミュニケーションを取る際に表示部に音声によるコミュニケーションとの関係で表示態様が変化させられるため、音声を目で見る表示に変更してコミュニケーションできることとなり、コミュニケーションを図る際の利便性が高まる。
「表示部」は、音声による前記コミュニケーションによって前記表示部での表示態様を変化させるように表示させるデバイスとするとよく、例えば液晶ディスプレイ(LCD)、プラズマディスプレイ(PDP)、有機ELディスプレイ、ブラウン管等のような表示装置がよい。特に表示部は装置に備えるとよい。
「音声による前記コミュニケーションによって表示部での表示態様を変化させるように表示させる」は、ユーザー又は他の機器の音声を表示部に表示させてその態様を変化させる場合と、装置自身の音声も表示部に表示させてその態様を変化させる場合のいずれか一方のみとしてもよいが、特に両方を備えるとよく、このときどちらか片方だけ表示させても両方とも表示させてもよいが、片方だけ表示させる状態と両方を表示させる状態との双方を備え、切り替え可能な構成とするとよい。例えば、片方だけ表示させる例としては下記実施の形態1のロボット1で顔画面S1が表示されている場合の態様であり、両方とも表示させる例としては下記実施の形態1のロボット1でチャット画面S2が表示されている場合の態様である。
表示態様としては、例えば音声との関係で画面を様々に変化させることとするとよく、例えば、音声によって表示画面に表示されたオブジェクトが動くようなアニメーションを実行させるとよい。例えば、音声の出力に伴って画像を変動させたり、音声の変化によって画像に他の画像を重ねたりするとよい。また、例えば、音声データを文字データに変換して表示させたりするとよい。その文字データの表示は音声の変化に応じて刻々と変化させるとよい。
音声による前記コミュニケーションは、前記出力情報の生成を制御する機能又は前記コミュニケーションのための前記出力情報の出力を行うタイミングを制御する機能によって
制御するとよく、特に前記コミュニケーションは前記出力情報の生成を制御する機能及び前記コミュニケーションのための前記出力情報の出力を行うタイミングを制御する機能によって制御するとよい。
また、表示部での表示態様を変化させる機能は、前記出力情報の生成を制御する機能又は前記コミュニケーションのための前記出力情報の出力を行うタイミングを制御する機能によって制御するとよく、特に前記コミュニケーションは前記出力情報の生成を制御する機能及び前記コミュニケーションのための前記出力情報の出力を行うタイミングを制御する機能によって制御するとよい。
以下(3)以降も同様に、装置からの出力を行なう構成については、前記出力情報の生成を制御する機能又は前記コミュニケーションのための前記出力情報の出力を行うタイミングを制御する機能によって制御するとよく、特に前記コミュニケーションは前記出力情報の生成を制御する機能及び前記コミュニケーションのための前記出力情報の出力を行うタイミングを制御する機能によって制御するとよい。
Since the display mode of the display unit can be changed in relation to the communication by voice when communicating by voice, it is possible to communicate by changing the display of voice to be seen by eyes, and the convenience of communication is enhanced.
The “display unit” may be a device that displays so as to change the display mode on the display unit by the communication by voice, such as a liquid crystal display (LCD), a plasma display (PDP), an organic EL display, a cathode ray tube, etc. Such a display device is preferable. In particular, the display unit is preferably provided in the device.
"Display so as to change the display mode on the display unit according to the communication by voice" refers to the case where the voice of the user or other device is displayed on the display unit and the mode is changed, and the voice of the device itself is also displayed. In the case of displaying on the part and changing its mode, only one of them may be provided, but it is particularly preferable to provide both. At this time, either one or both may be displayed, but only one is displayed. It is preferable to have both a state in which the display is displayed and a state in which both are displayed, and to have a switchable configuration. For example, an example of displaying only one face screen is the case where the face screen S1 is displayed in the robot 1 of Embodiment 1 below, and an example of displaying both is the chat screen of the robot 1 of Embodiment 1 below. This is a mode when S2 is displayed.
As a display mode, for example, the screen may be changed in various ways in relation to the sound. For example, an animation may be executed in which an object displayed on the display screen is moved by the sound. For example, it is preferable to change the image according to the sound output, or to superimpose another image on the image according to the sound change. Also, for example, voice data may be converted into character data and displayed. The display of the character data should be changed every moment according to the change of voice.
The communication by voice may be controlled by a function of controlling the generation of the output information or a function of controlling the timing of outputting the output information for the communication, and in particular the communication controls the generation of the output information. It is preferable to control by a function for controlling the timing of outputting the output information for the function and the communication.
Further, the function of changing the display mode on the display unit may be controlled by the function of controlling the generation of the output information or the function of controlling the timing of outputting the output information for the communication. The control may be performed by a function of controlling the generation of the output information and a function of controlling the timing of outputting the output information for the communication.
In the following (3) and later, similarly, the configuration for outputting from the device may be controlled by the function of controlling the generation of the output information or the function of controlling the timing of outputting the output information for the communication. In particular, the communication may be controlled by a function of controlling the generation of the output information and a function of controlling the timing of outputting the output information for the communication.

(3)前記表示部での前記表示態様の変化は、前記ユーザー又は前記他の機器の少なくともいずれか一方の発話のみに基づく構成とするとことがよい。 (3) It is preferable that the change of the display mode on the display unit is based on only speech by at least one of the user and the other device.

ユーザーや他の機器からの発話に基づいて装置が表示部での表示態様を変化させることでユーザーや他の機器側では自身の発話が装置に認識されているかが目視でわかることとなり、コミュニケーションを図る際の利便性が高まる。また、異種のヒューマンインターフェースによる特殊なコミュニケーションとなって、新鮮でおもしろさを感じる。
発話は直接的にユーザー又は他の機器から行われてもよく、間接的に発話を例えば文字データ化したものを使用してもよい。また、発話をなんらかの対応する情報、例えば他の音や視覚化した模様等に変換し、それに基づいて表示部で表示態様を変化させるようにしてもよい。
(3)では「ユーザー又は他の機器の少なくともいずれか一方の発話に基づく」ものであるため、例えば装置自身は音声のコミュニケーション機能とするとよい。
前記ユーザー又は前記他の機器の少なくともいずれか一方の発話に基づく構成としては、例えば、音声認識機能により音声を文字列に変換して前記ユーザー又は前記他の機器の少なくともいずれか一方の発話内容を特定する構成を備えるとよい。
By changing the display mode of the device based on the speech from the user or other device, the user or other device can visually check whether the device recognizes their own speech, thereby improving communication. Convenience at the time of planning increases. In addition, it becomes a special communication by a different kind of human interface, and it feels fresh and interesting.
The speech may be made directly by the user or another device, or may be indirectly converted into character data, for example. Alternatively, the utterance may be converted into some corresponding information, such as other sounds or visualized patterns, and the display mode may be changed on the display unit based on the converted information.
In (3), since it is "based on the speech of at least one of the user and/or other device", the device itself may have a voice communication function, for example.
As a configuration based on the utterance of at least one of the user and/or the other device, for example, speech is converted into a character string by a speech recognition function, and the content of the utterance of at least one of the user and/or the other device is obtained. A specific configuration may be provided.

(4)前記表示部での前記表示態様の変化は、前記装置からの音声出力と交互に行われるようにした。
コミュニケーションが一方的にならず、安定して意思疎通しながらコミュニケーションを図ることができる。「交互」とは、例えば基本的に装置側とユーザー又は他の機器側とのコミュニケーションが対話形式で進行するように構成とするとよく、片方だけが一方的に発話する構成でない構成とするとよい。
(4) The change of the display mode on the display unit is alternately performed with the voice output from the device.
Communication is not one-sided, and communication can be achieved while communicating stably. "Alternately" means, for example, a configuration in which communication between the device side and the user or other device side basically progresses in an interactive manner, and may be a configuration in which only one side does not speak unilaterally.

(5)前記表示態様は前記ユーザー又は前記他の機器の少なくともいずれか一方の発話が変換された文字情報でを備えるとよい。 (5) Preferably, the display mode is character information obtained by converting the speech of at least one of the user and the other device.

このようにすれば、ユーザーや他の機器側では自身の発話がどのように装置に認識されているかが表示された文字情報から具体的にわかることとなり、正しくコミュニケーションができているかを表示された文字情報の内容から判断できる。また、発話した内容の目視での確認ができる。また、認識が誤っているならもう一度言ったり、他の表現で言い直したりして正しいコミュニケーションに導くことができる。
「文字情報」は、例えば日本語であれば、例えば通常の漢字、ひらがな、かたかな等のユーザー又は他の機器の発話に基づく文字であり、発話が文を構成している場合には、漢字、ひらがな、かたかな、外国語表記等の混じった文節を有する文であることがよい。外国語、例えば英語や中国語等で発話される場合には、それらの文字で表示されることがよ
い。
例えば、音声認識機能と音声出力機能とを備え、音声認識機能によって音声認識し文字情報に変換された前記ユーザー又は前記他の機器の少なくともいずれか一方の発話の内容を表示部に表示させ、その内容に基づく返答文字情報を生成し、当該返答文字情報を音声合成機能により音声情報に変換して、音声として出力させる機能を備えると特によい。
In this way, the user or other device side can specifically understand from the displayed character information how their own speech is recognized by the device, and it is displayed whether communication is being performed correctly. It can be judged from the contents of character information. In addition, it is possible to visually confirm the uttered contents. Also, if the recognition is wrong, you can say it again or restate it with other expressions to guide you to correct communication.
In the case of Japanese, for example, "character information" is characters such as normal kanji, hiragana, katakana, etc. based on the utterance of the user or other equipment, and when the utterance constitutes a sentence, It should be a sentence that has a mixture of kanji, hiragana, katakana, foreign language notation, etc. When spoken in a foreign language, such as English or Chinese, it is preferable to display in those characters.
For example, having a voice recognition function and a voice output function, displaying on a display unit the content of at least one of said user or said other device that has been speech-recognized by the voice recognition function and converted into character information, and It is particularly preferable to have a function of generating response character information based on the content, converting the response character information into voice information by a voice synthesis function, and outputting it as voice.

(6)前記発話が変換された文字は発話の開始から終了までの全内容が同時に前記表示部に表示されるようにするとよい。
ユーザーや他の機器からのある長さを持った発話全体が装置側に受け止められるため、その発話に対する装置からの正しいコミュニケーションが期待できる。また、自らが発話した内容の目視での確認が瞬時にできることとなり、以後のコミュニケーションの修正や方向性に寄与する。
発話の開始から終了は、人が一息で発話できる時間を加味して設定するとよい。発話の終了は、例えば、所定の時間、音声の発話がないとみなされる音の大きさが続いた時点とするとよい。発話の開始は例えば音の大きさが所定のレベルを越えたことを条件に開始するとよい。発話の開始は例えば音の大きさが所定のレベル以上のレベルの急激な変化が検出されたことを条件に開始するとよい。
(6) It is preferable that all contents from the start to the end of the speech are simultaneously displayed on the display unit as to the characters converted from the speech.
Since the entire utterance of a certain length from the user or other device can be received by the device, correct communication from the device in response to the utterance can be expected. In addition, it is possible to instantly visually confirm the content of what the user has said, which contributes to the correction and direction of subsequent communication.
It is preferable to set the time from the start to the end of the speech taking into consideration the time that a person can speak in one breath. The end of the speech may be, for example, a point in time at which the volume of sound continues for a predetermined period of time, at which no speech is assumed to occur. Speech may be started, for example, on the condition that the loudness of the sound exceeds a predetermined level. Speech may be started, for example, on the condition that a sudden change in the loudness level of a predetermined level or more is detected.

(7)前記装置は、前記装置と前記ユーザー又は前記他の機器の少なくともいずれか一方の音声によるコミュニケーションの対話履歴を文字情報として前記表示部に表示させる機能を備えるとよい。 (7) The device preferably has a function of displaying, as character information, a dialogue history of voice communication between the device and at least one of the user and the other device on the display unit.

装置とユーザー又は他の機器との間でどのように対話がされたかが容易にわかり、音声によるコミュニケーションにおける利便性が高まる。
対話履歴の表示は、例えばどちらが対話したものかがわかるように表示させることがよい。そのためには、例えば吹き出しを設けていずれの発話に基づく文字情報かを区別することがよい。過去の対話については画面上でスクロールして確認できることがよい。対話形式であることを示すために装置側とユーザー又は他の機器側とで異なるアバターキャラクターを表示させるとよい。いつ発話したのかその日時が同時に表示されるとユーザーが対話履歴から過去を思い出す契機となるのでよい
It is easy to understand how the device interacts with the user or other equipment, which increases the convenience of voice communication.
It is preferable to display the dialogue history so that, for example, it can be seen which one has interacted with the other. For this purpose, for example, it is preferable to provide speech balloons to distinguish character information based on which utterance. It is preferable that past dialogues can be checked by scrolling on the screen. It is preferable to display different avatar characters on the device side and on the user or other device side to indicate the interactive format. If the date and time of the utterance are displayed at the same time, it will be an opportunity for the user to recall the past from the dialogue history.

(8)前記装置は、前記対話履歴を文字情報として表示させる際に、前記ユーザー又は前記他の機器の交替があり、前記装置の対話対象が代わった場合には前記表示部にその旨が表示させる機能を備えるとよい。 (8) When the device displays the dialogue history as character information, if there is a change in the user or the other device and the dialogue target of the device is changed, the device displays that fact on the display unit. It is better to have a function to let

装置の対話対象が代われば対話内容にも変化がある。対話対象が代わった旨を表示させることで、例えば過去の対話履歴を見た際にその表示があることでその前後で対話内容が代わることが読み手にわかるため、対話内容の切れ目がわかることとなる。
装置は前記ユーザー又は前記他の機器の交代を検出する機能を備えるとよい。交代の検出は、音声の特徴の変化から検出する機能を備えるとよいが、カメラを用いて周囲の人または機器の状態を取得して検出する機能を備える構成が望ましく、特に両者に基づいて検出する構成とするとよい。
If the dialogue object of the device changes, the contents of the dialogue also change. By displaying that the dialogue target has changed, for example, when looking at the past dialogue history, the reader can understand that the dialogue content has changed before and after that display, so that the discontinuity of the dialogue content can be understood. Become.
The device may be equipped with functionality to detect replacement of said user or said other device. It is preferable to have a function to detect changes in voice characteristics for detection of alternation, but it is desirable to have a configuration that has a function to acquire and detect the state of surrounding people or equipment using a camera, especially detection based on both. It should be configured to

(9)前記装置は音声認識機能によって前記ユーザー又は前記他の機器の少なくともいずれか一方の音声の認識状況を前記装置の表示部に表示させる機能を備えるようにするとよい。 (9) The device preferably has a function of displaying the speech recognition status of at least one of the user and the other device on the display section of the device by means of a speech recognition function.

例えば、ユーザーや他の機器が発話している場合に、それを間違いなく聞いていることをユーザー等に理解させることで円滑に対話が行われていることをユーザー等に理解させることができる。
例えば、視覚を通じた機能として、表示部に音声認識の度合いに応じて、例えば表示画面や表示画面に表示されるオブジェクトの色を変えたり、例えば音声の認識状況応じて異なるオブジェクトを表示をさせたり、音声認識の度合いに応じて量的な表示、例えばよく認識していれば高い数値を示したりすることがよい。聴覚を通じた機能として、例えば音声認識の度合いに応じて音を大きくしたり小さくしたりすることがよく、例えば音色を変えたりすることがよい。
特に擬人化された態様での表示を表示部に行なうようにし、その表情を変化させる構成とするとよい。
For example, when the user or another device is speaking, the user can be made to understand that the conversation is going on smoothly by making the user understand that they are definitely listening to it.
For example, as a visual function, depending on the degree of speech recognition on the display unit, for example, the display screen or the color of the object displayed on the display screen can be changed, or, for example, different objects can be displayed according to the speech recognition status. It is preferable to display a quantitative display according to the degree of speech recognition, for example, to indicate a high numerical value if the speech is well recognized. As an auditory function, for example, it is preferable to increase or decrease the sound according to the degree of speech recognition, for example, it is preferable to change the timbre.
In particular, it is preferable to have a configuration in which an anthropomorphic form is displayed on the display section and the facial expression is changed.

(10)音声を認識して文字列に変換した結果を用いて前記音声出力を行うことで前記コミュニケーションを行うための機能を備え、音声を認識して文字列に変換した結果が、予め前記結果の文字列と出力内容との対応関係を記憶した記憶手段に記憶された文字列と一致する部分がある場合に当該文字列に対応する出力内容を音声出力する機能を備えるようにするとよい。 (10) A function for performing the communication by outputting the voice using the result of recognizing voice and converting it into a character string, and the result of recognizing voice and converting it into a character string is provided in advance. When there is a part that matches the character string stored in the storage means storing the correspondence relationship between the character string and the output content, it is preferable to provide a function of outputting the output content corresponding to the character string by voice.

音声を認識して変換した文字列が音声記憶手段に記憶された文字列と一致する部分がある場合に、装置内のみで必要な音声出力ができれば、ユーザーや他の機器からの発話に迅速に応じることができる。また、外部サーバーに接続しないため、接続のためのコストが削減できる。
例えば、記憶手段に記憶された文字列として多数のビルトインシナリオを用意することがよい。ビルトインシナリオは予定された対話であって例えば、ユーザーからの「おはよう」に対して装置側から「お元気ですか」と返答するような簡単な挨拶や、一定の処理を実行するための、例えば「設定画面を開いて」(ユーザー)、「本当にいいですか」(装置)、「はい」(ユーザー)、「じゃあ、設定画面を開くね」(装置)のようなシナリオ等がよい。記憶手段としては、例えばコンピュータ内部のROMやSSDや外付けのSDカードmicroSDカード、CD-ROM等がよい。
When a character string converted by recognizing voice has a part that matches a character string stored in a voice storage means, if the necessary voice output can be performed only within the device, it is possible to quickly respond to the user's or another device's speech. can respond. In addition, since there is no connection to an external server, connection costs can be reduced.
For example, it is preferable to prepare a large number of built-in scenarios as character strings stored in storage means. A built-in scenario is a scheduled interaction, for example, a simple greeting such as "How are you?" Scenarios such as "Open the setting screen" (user), "Are you sure?" (device), "Yes" (user), "Okay, open the setting screen" (device) are good. As the storage means, for example, a ROM or SSD inside the computer, an external SD card, a micro SD card, a CD-ROM, or the like may be used.

ここで「文字列と一致する部分がある場合」とは、完全に記憶された文字列と一致する場合と、ある部分が異なっていてもよい正規表現である場合である。正規表現とは文字列の集合を一つの文字列で表現する言語処理方法の一つであり、例えば「×××音量大きく××」という場合に「ユピ坊音量大きくしてよ」とか「おい音量大きくして」「音量大きくしてください」等のように異なる部分があっても要部が一致すれば解釈として「音量を大きく」する表現として認識するような場合である。そして、「当該文字列に対応する出力内容を音声出力する」とは、例えば、このような「音量を大きく」するという当該文字列に応じて「はい、音量を大きくします」というような音声出力がよい。また、このような音声出力に続いて装置はある処理をするようにしてもよい。例えば、「はい、音量を大きくします」という発話の後で装置は実際に以後の対話における自身の発話の音量を大きくすることがよい。
音声を認識して文字列に変換する処理は、装置で行なうようにしてもよいが、ネットワークに接続された音声認識サーバーに対して音声データを送信し、音声認識サーバーで変換された文字列を受信するようにして行なうようにしてもよい。望ましくは両者を備えるとよく、コミュニケーションの状況等に応じていずれの結果を用いるかを決定する機能を備えるとよい。
Here, "the case where there is a part that matches the character string" means the case where the character string matches the completely stored character string, and the case where the regular expression is allowed to differ in some part. A regular expression is one of the language processing methods that expresses a set of character strings with a single character string. Even if there are different parts such as "increase the volume" and "increase the volume", if the essential parts match, the interpretation is to interpret "increase the volume". And "output the output content corresponding to the character string by voice" means, for example, a voice saying "Yes, increase the volume" in response to the character string "Increase the volume" Good output. Also, following such audio output, the device may perform certain processing. For example, after saying "yes, turn up the volume", the device should actually increase the volume of its own utterance in subsequent dialogues.
The process of recognizing the voice and converting it into a character string may be performed by the device. You may make it receive and carry out. Preferably, both are provided, and a function for determining which result to use according to the communication situation or the like is preferably provided.

(11)音声を認識して文字列に変換した結果が、予め前記結果の文字列と出力内容との対応関係を記憶した記憶手段に記憶された文字列と一致する部分がない場合に、対話エンジンを備えるサーバーに接続して音声データを出力する機能を備えるとよい。 (11) If the result of recognizing the voice and converting it into a character string does not match the character string stored in the storage means that stores the corresponding relationship between the resulting character string and the output content in advance, the dialogue is performed. It is preferable to have a function of connecting to a server having an engine and outputting voice data.

音声を認識して変換した文字列が音声記憶手段に記憶された文字列と一致する部分がない場合に、対話エンジンを備えるサーバーに接続するため、接続のためのコストが削減で
きる。
サーバーは、例えばインターネット回線を使用して接続する記憶部、制御部としてのコンピュータの機能を有する装置とするとよい。本発明では対話エンジンを備えていることがよい。外部サーバーの場合には例えばIDやパスワードや電子認証によって接続可能となる。外部サーバーはクラウドサーバーがよい。サーバーは音声認識エンジンを備え、音声認識エンジンによって音声を文字列データに変換ことができることがよい。変換された文字列データはインターネット回線を使用して装置に送信されることがよい。
対話エンジンを備えるサーバーに接続して音声データを出力する機能は、例えば、音声認識した文字列を対話エンジンに送信し、対話エンジンからその文字列に対応する対話内容を含む文字列を受信して、当該対話内容の文字列を音声合成機能で音声データに変換するとよい。
文字列の音声データへの変換は、装置に備えた音声合成エンジンで行ってもよいが、文字列を音声データに変換する音声認識サーバーに文字列を送信し、当該音声認識サーバーから変身された当該文字列に対応する音声データを受信して行うとよい。
If the character string converted by recognizing the voice does not match the character string stored in the voice storage means, the server with the dialog engine is connected, so the connection cost can be reduced.
The server may be, for example, a device that has computer functions as a storage unit and a control unit that are connected using an Internet line. The present invention preferably includes a dialog engine. In the case of an external server, for example, it is possible to connect using an ID, password, or electronic authentication. A cloud server is good for an external server. The server preferably has a speech recognition engine and can convert speech into character string data by the speech recognition engine. The converted character string data is preferably transmitted to the device using an internet line.
The function of connecting to a server equipped with a dialogue engine and outputting voice data is, for example, sending a character string recognized by speech to the dialogue engine, and receiving a character string containing dialogue content corresponding to the character string from the dialogue engine. , it is preferable to convert the character string of the dialogue contents into speech data by a speech synthesis function.
The conversion of character strings into speech data may be performed by a speech synthesis engine provided in the device, but the character strings are sent to a speech recognition server that converts the character string into speech data, It is preferable to receive voice data corresponding to the character string.

(12)音声を認識して文字列に変換した結果が、予め前記結果の文字列と出力内容との対応関係を記憶した記憶手段に記憶された文字列と一致する部分があっても、ある条件を満たすことで音声認識エンジンを備えるサーバーに接続して音声データを出力する機能を備えるようにするとよい。 (12) Even if the result of recognizing the voice and converting it to a character string has a part that matches the character string stored in the storage means that stores the corresponding relationship between the resulting character string and the output content, there is a part. It is preferable to have a function of connecting to a server having a speech recognition engine and outputting speech data by satisfying the conditions.

音声を認識して変換した文字列が記憶手段に記憶された文字列と一致する部分がある場合に、ユーザーが予測できるような決まった音声出力をすることは対話の意欲を削ぐことにもなるため、敢えてこのよう外部サーバーに接続することが、より人間的な対話ができることとなりよい。
例えば、ユーザーから「こんにちは」と発話がされ、それを装置側が認識した場合に、本来のシナリオでは「こんにちは、ご機嫌はいかがですか」というように対話をさせるビルトインシナリオであった場合に、そのシナリオを使用せずに外部サーバーに「こんにちは」という音声データをリクエストし、外部サーバーの対話エンジンを使用してその「こんにちは」に対する返答データの作成をリクエストするようにすることがよい。ある条件は例えば何回かに一回の回数や、ランダムなタイミングとするとよい。
When the character string converted by recognizing the voice has a part that matches the character string stored in the storage means, outputting a fixed voice that the user can predict will discourage dialogue. Therefore, intentionally connecting to an external server in this way may enable more human-like interaction.
For example, when the user says "Hello" and the device side recognizes it, the original scenario was a built-in scenario in which a conversation such as "Hello, how are you?" It is better to request voice data of "Hello" from the external server without using a scenario, and to request creation of response data to that "Hello" using the dialogue engine of the external server. The certain condition may be, for example, once every several times or random timing.

(13)音声認識後に音声が途切れて無音状態となったことを検知する機能と、音声認識から無音状態となるまでの音声データを記憶する記憶手段と、前記記憶手段に記憶された音声データを無音状態となったタイミングで音声認識エンジンを備えるサーバーに接続して音声データを出力する機能を備えるとよい。 (13) A function to detect that the voice is interrupted after voice recognition and silence, a storage means for storing voice data from voice recognition to the silence, and a storage means for storing the voice data stored in the storage means. It is preferable to have a function of connecting to a server having a speech recognition engine and outputting speech data at the timing of silence.

対話においてはしばしば無音状態となることがある。しかし、無音状態となっても外部の音声認識エンジンを備えるサーバーに接続したままでは無用なコストがかかってしまう。そのためこのような前もって音声認識から無音状態となるまでの音声データを記憶手段に記憶させ、リアルタイムではなくその音声データを無音状態となったタイミングで送ることで無音部分の時間分をカットできるため、コストが削減できる。 There is often silence in dialogue. However, even if there is no sound, connecting to a server equipped with an external speech recognition engine will incur unnecessary costs. Therefore, by storing the voice data from voice recognition to silence in advance in the storage means and sending the voice data at the timing of silence instead of real time, it is possible to cut the time of the silence part. Cost can be reduced.

(14)前記装置は録音機能を備え、所定の音圧レベルの音声の検出によって音声認識エンジンを備えるサーバーに接続して音声データを出力する機能を備えるようにするとよい。
常に外部の音声認識エンジンを備えるサーバーに接続したままでは無用なコストがかかってしまう。これによって無音や無音に近いような対話になっていない場合には接続せずに必要な対話が開始される場合にのみ外部サーバーに接続するため、接続のためのコストが削減できる。
音声認識エンジンを備えるサーバーは、装置ですでに録音済みの過去の所定期間の録音
データを受信して、当該録音データに対する文字列を返信するものとしてもよいが、特に、例えばストリーミングデータとしてリアルタイムに音声データを受信して、文字列を返信するタイプのものとするとよい。音声データの受信時間当たり何円という形で従量課金等されるケースが多いが、大幅にコストを削減することが可能となる。
(14) The device preferably has a recording function, and a function of connecting to a server having a speech recognition engine and outputting speech data upon detection of speech at a predetermined sound pressure level.
Constantly connecting to a server equipped with an external speech recognition engine would result in unnecessary costs. As a result, the external server is connected only when the necessary dialogue is started without connecting when the dialogue is not silent or nearly silent, so the cost for connection can be reduced.
A server equipped with a speech recognition engine may receive recorded data of a predetermined period in the past that has already been recorded by the device and return a character string corresponding to the recorded data. It may be of a type that receives voice data and returns a character string. Although there are many cases in which pay-as-you-go billing is performed in the form of how many yen per audio data reception time, it is possible to significantly reduce costs.

(15)音声認識エンジンを備えるサーバーに接続して音声データを出力した際に、前記サーバーがビジー状態である場合に、前記ユーザーに対して記憶手段に記憶された対話データから選択された対話例を音声出力する機能を備えるようにするとよい。 (15) Dialogue example selected from dialogue data stored in storage means for said user when connected to a server having a speech recognition engine and outputting voice data, and said server is in a busy state. It is preferable to provide a function for outputting as voice.

ビジー状態である場合にはその旨の報知をすることが普通であるが、例えば対話途中でそのような報知は唐突でいかにも対話とは関係ない発話であり、対話がしらけてしまう可能性もある。そのため、ビジー状態である旨の報知の代わりに例えば「もう一度いってくれる?」という呼びかけや「ほう、そうですか」などのつなぎの発話をして対話をつなぐようにすれば、その間に音声認識エンジンに接続して適切な対話を続けることが可能となるし、対話が不自然にならない。 When it is busy, it is normal to announce that fact, but for example, such an announcement in the middle of a conversation is abrupt and unrelated to the conversation, and there is a possibility that the conversation will be shy. . For this reason, instead of notifying that the system is busy, for example, if you ask "Can you come back again?" It becomes possible to connect to the engine and continue an appropriate dialogue, and the dialogue does not become unnatural.

(16)認識した前記ユーザーの発話が長すぎると判断した場合に、音声認識エンジンを備えるサーバーに接続することなく記憶手段に記憶された音声データから選択された対話例を音声出力する機能を備えるようにするとよい。 (16) A function of outputting as voice a dialogue example selected from voice data stored in a storage means without connecting to a server equipped with a voice recognition engine when it is determined that the recognized user's utterance is too long. It is better to

ユーザー側の発話が長すぎると、音声認識エンジンが誤認識をする可能性がある。そして、その結果的外れな返答が返ってくることがある。そのため、一定以上のセンテンスになってしまった場合には、あえてそのような可能性を排除して対話を仕切り直しするために「うん」とか「マジ?」とか「本当ですか?」などという対話においてどのようにも取れる相づちのような対話例を選択して音声出力することがよく、それによって適切な対話を続けることが可能となる。 If the user's utterance is too long, the speech recognition engine may misinterpret it. And as a result, you may get a wrong answer. Therefore, if the sentence becomes more than a certain amount, in order to dare to eliminate such a possibility and reorganize the dialogue It is preferable to select a dialogue example, such as a back-and-forth that can be taken in any way, and output it by voice, so that appropriate dialogue can be continued.

(17)対話による前記コミュニケーションにおいて、前記装置の音声を聞き逃した際に、前記ユーザーのある発話に基づいて前記装置は直前の音声を再度出力するとよい。
例えば「もう一度言って」とか「もう一回しゃべって」のような直前に装置が話した言葉が聞き取れなかったり、うっかり聞き忘れた場合にこのような呼びかけをすることで、直前に装置が話した言葉を発話させることができる。これによって、直前まで行っていた対話を途切れさせることなくそのまま続けることが可能となる。
(17) In the communication by dialogue, when the voice of the device is missed, the device may re-output the previous voice based on the user's utterance.
For example, if you can't hear the words spoken by the device just before, such as "say it again" or "speak again", or if you forget to hear it, you can use this kind of call to can speak words. As a result, it is possible to continue the conversation that has been going on until just before without interruption.

(18)音声を認識できなかった場合に、前記ユーザーに対して再度の発話を促すように前記装置から音声が出力されるとよい。
これによって、直前まで行っていた対話を途切れさせることなくそのまま続けることが可能となる。
(18) When the voice cannot be recognized, the device preferably outputs voice so as to prompt the user to speak again.
As a result, it is possible to continue the conversation that has been going on until just before without interruption.

(19)認識した音声内容がある条件を満たす場合に、表示部にある表示をさせるようにするとよい。
例えば、所定の言葉が含まれた発話がされ、それを音声認識した場合に、表示部にその言葉に対応する「ある表示」をさせるようにする。「所定の言葉」とは、例えば、ユーザーの誕生日、ユーザーの子供の名前、装置の愛称、会社の名称、特定の宣伝用のキャッチフレーズ等とするとよい。所定の言葉とある表示との対応関係を予め設定しておく機能を備えるとよい。これによって、単なる対話に留まらず目視を含めたコミュニケーションをすることができ、装置との間でコミュニケーションの態様が増すこととなってコミュニケーションを図る際の利便性が高まる。
(19) When the recognized voice content satisfies a certain condition, it is preferable to make a certain display on the display unit.
For example, when an utterance including a predetermined word is uttered and the speech is recognized, the display unit is caused to display a "certain display" corresponding to the word. The "predetermined word" may be, for example, the user's birthday, the user's child's name, the nickname of the device, the name of the company, a particular advertising catchphrase, or the like. It is preferable to have a function of presetting a correspondence relationship between a predetermined word and a certain display. As a result, it is possible to communicate not only by simple dialogue but also by visual observation, and the mode of communication with the device increases, thereby increasing the convenience of communication.

(20)前記装置は筐体又は筐体に接続される部分を動かす機能を備え、認識した音声
内容がある条件を満たす場合に、筐体又は筐体に接続される部分がある動きをするとよい。
例えば、所定の言葉が含まれた発話がされ、それを音声認識した場合に、筐体又は筐体に接続される部分にその言葉に対応するある動き、例えばジェスチャーをさせるようにする。これによって、単なる対話に留まらず装置の動きを含めたコミュニケーションをすることができ、装置との間でコミュニケーションの態様が増すこととなってコミュニケーションを図る際の利便性が高まる。上記の「ある表示」と組み合わせると特によい。
(20) The device preferably has a function of moving the housing or the part connected to the housing, and moves the housing or the part connected to the housing when the recognized speech content satisfies a certain condition. .
For example, when an utterance including a predetermined word is uttered and the speech is recognized, the housing or a part connected to the housing is caused to make a certain movement, such as a gesture, corresponding to the word. As a result, it is possible to communicate not only with a simple dialogue but also with the movement of the device, and the mode of communication with the device increases, thereby increasing the convenience of communication. It is especially good when combined with the "certain display" above.

(21)前記装置は前記ユーザーが目として認識できる部分である目部と、前記ユーザーの位置を認識するユーザー位置認識機能と、前記目部を動かす機能とを備え、 前記コミュニケーションとして前記位置認識機能で認識した前記ユーザーの位置方向を向くよう前記目部を動かす機能を備えるとよい。 (21) The device includes an eye part that is a part that the user can recognize as an eye, a user position recognition function that recognizes the position of the user, and a function that moves the eye part, and the position recognition function as the communication. It is preferable to provide a function of moving the eyes so as to face the direction of the position of the user recognized in .

目として認識できる目部がユーザーの位置方向を向くことで、実際に人と話しているような疑似感覚を得られることとなり、装置とコミュニケーションを取りたいという欲求もますこととなり、装置の利用価値が向上する。
「ユーザーが目として認識できる部分である目部」は表示画面に表示されるオブジェクトとしての目でもよく、そのようなバーチャルな映像ではない実際に機械的に動作する目でもよい。目部と同期して装置自体もユーザーの位置方向を向くよう制御してもよい。目部をユーザーの方向に向けるための装置だけをユーザーの位置方向を向くよう制御してもよい。
By turning the eyes that can be recognized as eyes to the direction of the user's position, it is possible to obtain the pseudo sensation of actually talking to a person, and the desire to communicate with the device is increased, and the utility value of the device. improves.
The 'eye part, which is a part that the user can recognize as an eye', may be an eye as an object displayed on a display screen, or may be an eye that is not a virtual image but actually operates mechanically. The device itself may also be controlled to face the user's position in synchronization with the eyes. Only the device for directing the eye toward the user may be controlled to direct toward the user's position.

(22)前記装置はユーザーの顔を認識する顔認識機能を備えるとよい。
個々の人物の顔を識別できるため、個々の個性に応じたコミュニケーションをとることが可能となる。例えば個々の人物の認証された顔と名前を関連付けすることで、対話の際に顔認識した人物をその名前で呼ぶことができる。また、過去の対話履歴に基づいて顔認識した人物に特化した対話を行う構成とすると特によい。
(22) The device preferably has a face recognition function for recognizing a user's face.
Since each person's face can be identified, it is possible to communicate according to each person's individuality. For example, by associating each person's authenticated face with a name, the person whose face has been recognized can be called by that name during dialogue. Moreover, it is particularly preferable to have a configuration in which a dialogue specialized for a person whose face has been recognized based on the past dialogue history is performed.

(23)前記装置は表示部を備え、前記顔認識機能によってユーザーの顔の認識状況を表示部に表示させる機能を備えるとよい。
このようにすればユーザーは自身の顔の装置での認識状況を表示部を見ることで把握できる。特に認識状況として顔認識が完了しているか、それとも未だ人物の顔として認識されていないかを表示させるとよく、このようにすれば、ユーザーは未だ認識が完了していなければなるべく装置が認識しやすいように顔を動かさないようにして協力することができる。
(23) Preferably, the device includes a display section, and has a function of displaying the recognition status of the user's face on the display section by the face recognition function.
In this way, the user can grasp the recognition status of his/her own face by looking at the display section. In particular, it is preferable to display as the recognition status whether face recognition has been completed or whether the face has not yet been recognized as a person's face. You can cooperate without moving your face so that it is easy.

(24)前記位置認識機能は、三角形の頂点に配置された3つのマイクロフォンと、音源から前記3つのマイクロフォンの各々までの音の到達時間の差に基づき、前記音源の位置を、前記三角形を含む平面に垂直な方向に沿って前記三角形を含む平面に投影した位置から前記平面の前記三角形で囲まれた領域の内側にある基準位置へ向かう音源方向を特定する特定部と、を備える音源方向特定機能であるとよい。
これによって3つのマイクロフォンで音源方向を特定することができる。そして、音源方向を特定することができれば、ユーザーが発話すればその方向に装置を向けさせることができるため、対話によるコミュニケーションをしているようにユーザーは感じることができる。
(24) The position recognition function identifies the position of the sound source based on three microphones arranged at the vertices of a triangle and the difference in the arrival time of sound from the sound source to each of the three microphones. a sound source direction specifying unit that specifies a sound source direction from a position projected onto a plane containing the triangle along a direction perpendicular to the plane to a reference position inside the area surrounded by the triangle on the plane. It should be a function.
This makes it possible to specify the sound source direction with three microphones. If the direction of the sound source can be specified, the device can be turned in that direction when the user speaks, so the user can feel as if they are communicating through dialogue.

(25)前記装置は赤外線リモコン信号出力部を備え、前記コニュニケーションは赤外線リモコン受信機能を備える前記他の機器との間のコミュニケーションであるとよい。
これによって装置の赤外線リモコン信号出力部を介して簡単に機器との間のコミュニケーションを取ることができる。
例えば、赤外線リモコン信号受信部を備えた受信側装置、例えば、赤外線リモコン信号受信部を備えた受信側装置、例えばテレビ、オーディオ装置、エアコン装置等に対して装置から赤外線リモコン信号を出力して例えばON・0FF等の制御を実行させることが可能となる。特に装置に音声対話機能を備え、例えば「テレビつけて」とか「テレビ消して」という命令語句の発話に対し、装置はその命令に基づいて赤外線リモコン信号出力部を制御する構成とよい。
(25) The device may include an infrared remote control signal output unit, and the communication may be communication with the other device having an infrared remote control reception function.
This makes it possible to easily communicate with the device via the infrared remote control signal output section of the device.
For example, an infrared remote control signal is output from a device to a receiving device equipped with an infrared remote control signal receiving section, for example, a receiving device equipped with an infrared remote control signal receiving section, such as a television, an audio device, an air conditioner, etc. Control such as ON/OFF can be executed. In particular, the device may be provided with a voice interaction function, and may be configured to control the infrared remote control signal output section based on the commands, for example, "Turn on the TV" or "Turn off the TV".

(26)前記装置は前記他の機器からのインターネットを介して遠隔操作されるようにするとよい。
他の機器から装置を遠隔操作できるため、装置の利便性が高まる。例えば、他の機器としてのスマートフォン等とするとよい。装置にはカメラを備えるとよい。装置にはカメラの向きを変える機構を備えるとよい。他の機器からアクセスして、例えば、装置側のカメラ動画を見たり、カメラの向きを代えたりすることがよい。これによって装置の近くにいなくとも装置の制御が可能となる。また、例えばスマートフォンからアクセスして、例えば装置の見守り機能をONとして、人(物)が動いたことをスマートフォンにeメールで通報するようにするとよい。また、例えば病人や被介護者の見守りとして、常に動いていることを前提とし、例えば一定時間以上その人が動いていない場合に通報するようにするとよい。他の機器とは、例えばタブレット端末やパソコン等でもよい。
(26) The device may be remotely controlled via the Internet from the other device.
Since the device can be remotely operated from another device, the convenience of the device is enhanced. For example, a smart phone or the like as another device may be used. The device may be equipped with a camera. The device may be provided with a mechanism for changing the orientation of the camera. By accessing from another device, for example, it is preferable to view a video camera on the device side or change the direction of the camera. This allows control of the device without being near the device. Also, for example, it is preferable to access from a smart phone, turn on the monitoring function of the device, and notify the smart phone that a person (object) has moved by e-mail. In addition, for example, as a watch over a sick person or a care recipient, it is preferable to notify the person when the person is not moving for a certain period of time or longer, assuming that the person is always moving. The other device may be, for example, a tablet terminal, a personal computer, or the like.

(27)装置は前記他の機器からインターネットを介して送信された文字情報を用いて前記音声出力を行うようにするとよい。
例えば受信した電子メールの文字列を読み上げる機能を備えるとよい。誰かからのeメールが届く設定にしておくことで、そのメール内容が装置から音声出力されるため、自身の端末を目視で確認する必要がなくなる。他の機器とは、例えばスマートフォンやタブレット端末やパソコン等とするとよいが、他の「装置」としてもよい。
(27) It is preferable that the device performs the voice output using character information transmitted from the other device via the Internet.
For example, it is preferable to have a function to read aloud the character string of the received e-mail. By setting to receive an e-mail from someone, the content of the e-mail is output by voice from the device, so there is no need to visually check one's own terminal. The other device may be, for example, a smart phone, a tablet terminal, a personal computer, or the like, but may be another “device”.

(28)前記音声出力は前記文字情報の内容によって前記音声出力を行う時間、時刻又は回数を変更できるとよい。
例えば「薬飲んだ」とういうメールは決まった時刻にしゃべらせたい。例えば件名の記載が合致することで、所定の時刻に装置が発話したり、例えば重要な内容を時間を空けて2回発話させるようにすれば、装置側の近くにいるユーザーにメール内容を間違いなく実行させることができる。
(28) It is preferable that the voice output can change the time, time or number of times the voice output is performed depending on the content of the character information.
For example, I want to make the e-mail "I took medicine" be spoken at a fixed time. For example, if the description of the subject matches, the device will speak at a predetermined time. can be run without

(29)前記装置は音声認識した文字情報を前記他の機器へインターネットを介して送信する機能を有するとよい。
装置の音声コミュニケーション機能を使用して音声を文字化して他の機器に文字データとして送れば、例えばeメールを送りたい場合に自身の端末に手入力しなくとも、送ることができる。
(29) The device may have a function of transmitting character information obtained by speech recognition to the other device via the Internet.
By using the voice communication function of the device to convert voice into text and send it to another device as text data, for example, when you want to send an e-mail, you can send it without manually entering it into your own terminal.

(30)入力文字列に対応する出力文字列を出力する対話エンジンを備える異なる複数のサーバーに対して音声認識した文字列を前記入力文字列として送信し、前記異なる複数のサーバーから前記出力文字列として出力された文字列を受信し、最も長い前記出力文字列を選択して対話させる機能を有するとよい。
最も長い返答であると、いかにも対話しているように感じ、対話の単調さがなくなり、聞き手(ユーザー)は対話を楽しむことができる。
(30) Transmitting a speech-recognized character string as the input character string to a plurality of different servers having a dialogue engine that outputs an output character string corresponding to the input character string, and sending the output character string from the different servers; , and select the longest output string for interaction.
The longest reply gives a feeling of dialogue, eliminates the monotony of the dialogue, and allows the listener (user) to enjoy the dialogue.

(31)入力文字列に対応する出力文字列を出力する対話エンジンを備える異なる複数のサーバーに対して音声認識した文字列を前記入力文字列として送信し、前記異なる複数のサーバーから前記出力文字列として出力された文字列を受信し、語尾に疑問符がついた前記出力文字列を選択して対話させる機能を有するとよい。
語尾に疑問符がつくと、その疑問に更に答えるような話の流れになるため、会話が続きやすくなり聞き手(ユーザー)は対話を楽しむことができる。
(31) Transmitting a speech-recognized character string as the input character string to a plurality of different servers having a dialogue engine that outputs an output character string corresponding to the input character string, and sending the output character string from the different servers; It is preferable to have a function to receive a character string output as , select the output character string with a question mark at the end of the word, and interact with the output character string.
When a question mark is added to the end of a word, the flow of the story becomes one that further answers the question.

(32)入力文字列に対応する出力文字列を出力する対話エンジンを備える異なる複数のサーバーに対して音声認識した文字列を前記入力文字列として送信し、前記異なる複数のサーバーから前記出力文字列として出力された文字列を受信し、肯定文を組み合わせた後に疑問文を組み合わせて対話させる機能を有するとよい。
このようにアレンジすることでいかにも考えて文章を練ったような応答になるため、ユーザーは真剣に自身の発話を聞いてもらっているような感覚となり、続けて会話をしたいと思うようになるため、会話が続きやすくなり聞き手(ユーザー)は対話を楽しむことができる。また、出力尺をかせぐことができるとともに聞き手(ユーザー)への返答を求めることができる。
(32) Transmitting a speech-recognized character string as the input character string to a plurality of different servers having a dialogue engine that outputs an output character string corresponding to the input character string, and sending the output character string from the different servers; It is preferable to have a function to receive the character string output as , combine affirmative sentences, and then combine interrogative sentences to have a dialogue.
By arranging it in this way, the response becomes as if the user has carefully thought out the sentences. Conversation is easier to continue and the listener (user) can enjoy the dialogue. In addition, it is possible to earn an output scale and to request a reply from the listener (user).

(33)入力文字列に対応する出力文字列を出力する対話エンジンを備える異なる複数のサーバーに対して音声認識した文字列を前記入力文字列として送信し、前記異なる複数のサーバーから前記出力文字列として出力された文字列を受信し、話題転換した文字列を最後に配置するように組み合わせて対話させる機能を有するとよい。
このようにアレンジすることで話題転換したことで次の発話を誘うような対話となり、対話が続きやすくなる。
(33) Transmitting a speech-recognized character string as the input character string to a plurality of different servers having a dialogue engine that outputs an output character string corresponding to the input character string, and sending the output character string from the different servers; It is preferable to have a function to receive the character string output as , and combine and interact so that the character string that changed the topic is arranged at the end.
By arranging in this way, the topic is changed, and the conversation invites the next utterance, making it easier to continue the conversation.

(34)入力文字列に対応する出力文字列を出力する対話エンジンを備える異なる複数のサーバーに対して音声認識した文字列を前記入力文字列として送信し、前記異なる複数のサーバーから前記出力文字列として出力された文字列を受信し、フレンドリーな前記出力文字列を初めに配置するように組み合わせて対話させる機能を有するとよい。
このようにアレンジすることで聞き手(ユーザー)が対話に引き込まれやすくなり、対話が続きやすくなる。
(34) Transmitting a speech-recognized character string as the input character string to a plurality of different servers having a dialogue engine that outputs an output character string corresponding to the input character string, and sending the output character string from the different servers; It is preferable to have a function to receive a character string output as , combine and interact so as to place the friendly output character string first.
Arranging in this way makes it easier for the listener (user) to be drawn into the dialogue, making it easier for the dialogue to continue.

(35)入力文字列に対応する出力文字列を出力する対話エンジンを備える異なる複数のサーバーに対して音声認識した文字列を前記入力文字列として送信し、前記異なる複数のサーバーから前記出力文字列として出力された文字列を受信し、それらをランダムな順で組み合わせて対話させる機能を有するとよい。
対話のバリエーションが増えることとなるため、聞き手(ユーザー)が同じ発話をした場合でもまったく同じ応答が帰ってきてしまうことがなくなり、対話に飽きることがなく対話が続きやすくなる。
(35) Transmitting a speech-recognized character string as the input character string to a plurality of different servers having a dialogue engine that outputs an output character string corresponding to the input character string, and sending the output character string from the different servers; It is preferable to have a function to receive the character strings output as , combine them in random order, and interact with them.
Since the variation of the dialogue will increase, even if the listener (user) makes the same utterance, the exact same response will not be returned, making it easier to continue the dialogue without getting bored.

(36)入力文字列に対応する出力文字列を出力する対話エンジンを備える異なる複数のサーバーに対して音声認識した文字列を前記入力文字列として送信し、前記異なる複数のサーバーから前記出力文字列として出力された文字列を受信し、それらの内に顔文字を含む前記出力文字列がある場合には、対話対象とせず、表示部には対話対象とされた前記出力文字列と一緒に表示させる機能を有するとよい。
顔文字は音声出力できないが、表示部に敢えて顔文字を表示させることで、音声と併せて対話の一部とすることで通常にはない対話のおもしろさを創出することができる。
(36) Transmitting a speech-recognized character string as the input character string to a plurality of different servers having a dialogue engine that outputs an output character string corresponding to the input character string, and sending the output character string from the different servers; , and if there is an output character string containing emoticons in them, it is not interactive, and is displayed on the display unit together with the output character string that is interactive It is preferable to have a function to allow
Emoticons cannot be output as voice, but by intentionally displaying emoticons on the display unit and making them part of the dialogue together with the voice, it is possible to create an unusually interesting dialogue.

(37)入力文字列に対応する出力文字列を出力する対話エンジンを備える異なる複数のサーバーに対して音声認識した文字列を前記入力文字列として送信し、前記異なる複数のサーバーから前記出力文字列として出力された文字列を受信し、同じ文字列が含まれる前記出力文字列同士についてはいずれか1つのみを選択して他の前記出力文字列と組み合わせて対話させる機能を有するとよい。
同じ文字列が繰り返されると対話がくどくなってしまうし、聞き手に違和感を覚えさせてしまうためである。
(37) Transmitting a speech-recognized character string as the input character string to a plurality of different servers having a dialogue engine that outputs an output character string corresponding to the input character string, and sending the output character string from the different servers; , and selects only one of the output character strings containing the same character string, combines it with the other output character string, and interacts with it.
This is because if the same character string is repeated, the dialogue becomes verbose and the listener feels uncomfortable.

(38)入力文字列に対応する出力文字列を出力する対話エンジンを備える異なる複数のサーバーに対して音声認識した文字列を前記入力文字列として送信し、前記異なる複数のサーバーから前記出力文字列として出力された文字列を受信し、前記出力文字列の語尾を語尾変換エンジンによって変換してから組み合わせて対話させる機能を有するとよい。
普通の対話エンジンの文章に比べて、より親しみやすい表現となるのでよい。
(38) Transmitting the speech-recognized character string as the input character string to a plurality of different servers having a dialogue engine that outputs an output character string corresponding to the input character string, and sending the output character string from the different servers. It is preferable to have a function to receive a character string output as , convert the ending of the output character string by an ending conversion engine, and then combine and interact.
It is good because it becomes a more friendly expression compared to the sentences of a normal dialogue engine.

(39)入力文字列に対応する出力文字列を出力する対話エンジンを備える異なる複数のサーバーに対して音声認識した文字列を前記入力文字列として送信し、前記異なる複数のサーバーから前記出力文字列として出力された文字列を受信し、すべての前記出力文字列を使用せずに一部の前記出力文字列を記憶手段に記憶させておき、以後の対話で前記記憶手段から取り出して対話に使用させる機能を有するとよい。
音声認識が失敗した場合や、外部サーバーからのレスポンスがなかなか来ない場合に使用することで、対話が途切れずにつなげることができ、自然な対話に寄与する。
(39) Transmitting a speech-recognized character string as the input character string to a plurality of different servers having a dialogue engine that outputs an output character string corresponding to the input character string, and sending the output character string from the different servers Receives the character string output as , stores a part of the output character string in a storage means without using all the output character string, and retrieves it from the storage means in the subsequent dialogue and uses it for the dialogue It is preferable to have a function to allow
By using it when speech recognition fails or when it is difficult to receive a response from an external server, dialogue can be continued without interruption, contributing to natural dialogue.

(40)音声認識エンジンを備えるサーバーを利用する際に料金が無料のサーバーと有料のサーバーをミックスして利用するとよい。
これによって例えば特に装置との対話のヘビーユーザーはサーバー接続料金を節約することができる。
(40) When using a server equipped with a speech recognition engine, it is preferable to use a mixture of free servers and paid servers.
This can save server connection charges, for example, especially for heavy users of interaction with the device.

(41)前記他の機器はスマートスピーカであり、前記装置は前記スマートスピーカに音声出力を行って前記スマートスピーカとコミュニケーションを行うようにするとよい。
スマートスピーカは表示部がないため、装置と組み合わせて使用することで利便性が高まる。
スマートスピーカとは、例えば無線通信接続機能と音声操作のアシスタント機能を持つスピーカーとするとよい。例えばGoogleHome、AmazonEcho、LINE Clova等とするとよい。スマートスピーカは例えば様々な機能・能力(スキル)を実現する機能を備えるものとするとよい。て音声でのコミュニケーションをする装置からスマートスピーカに対して発話することでその機能を実行させることができる。装置から発話させる際には、例えばユーザーがスマートスピーカのスキルを起動させるフレーズを発話し、装置がその発話を音声認識して文字列データとして保存し、あるタイミングでその文字列データを音声合成してスマートスピーカに対して発話してスキルを実行させる構成とするとよい。
(41) The other device may be a smart speaker, and the device may communicate with the smart speaker by outputting audio to the smart speaker.
Since the smart speaker does not have a display, using it in combination with the device enhances convenience.
The smart speaker may be, for example, a speaker having a wireless communication connection function and a voice operation assistant function. For example, Google Home, Amazon Echo, LINE Clova, etc. The smart speaker may be provided with functions for realizing various functions and abilities (skills), for example. The function can be executed by speaking to the smart speaker from a device that communicates by voice. When making the device speak, for example, the user speaks a phrase that activates the skill of the smart speaker, the device recognizes the speech, saves it as character string data, and synthesizes the character string data at a certain timing. to execute the skill by speaking to the smart speaker.

(42)前記他の機器はスマートスピーカであり、前記装置は前記スマートスピーカに音声出力を行って前記スマートスピーカとコミュニケーションを行うようにするとよい。
スマートスピーカを起動させたり、スキルを起動させる。あるいは問い合わせを行う。自らスマートスピーカを起動させなくとも、ある決まったタイミングや、ある予定時刻にスマートスピーカのスキルを自動的に実行させることが可能となる。
(42) The other device may be a smart speaker, and the device may communicate with the smart speaker by outputting audio to the smart speaker.
Activate a smart speaker or activate a skill. Or make an inquiry. It is possible to automatically execute the skill of the smart speaker at a certain timing or a certain scheduled time without starting the smart speaker by oneself.

(43)前記他の機器はスマートスピーカであり、前記装置は前記スマートスピーカの音声出力を翻案する翻案機能を有するとよい。
質問に対するスマートスピーカの決まった長い回答を聞くのが面倒であったりする場合や、内容をざっと再確認したい場合に便利である。
(43) The other device may be a smart speaker, and the device may have an adaptation function for adapting the audio output of the smart speaker.
It's useful if you're tired of listening to the smart speaker's fixed, long answer to a question, or if you just want a quick refresher.

(44)前記装置の音声出力はWeb記事の読み上げる機能を有するとよい。
Web記事を読まなくとも装置との対話のみで聞くことができる。
(44) It is preferable that the voice output of the device has a function of reading out a Web article.
You can listen to the article only by interacting with the device without reading the article on the Web.

(45)前記ある出力としてロボティクスプロセスオートメーションの所定の処理単位の実行が完了した時点でなされるようにするとよい。
ロボティクスプロセスオートメーションは処理単位の実行状況がわかりにくいが、装置
に処理単位の実行に応じた「ある出力」をさせることで処理状況がわかりやすくなり利便性が高まる。
(45) It is preferable that the certain output is performed when execution of a predetermined processing unit of robotics process automation is completed.
In robotics process automation, it is difficult to understand the execution status of each processing unit.

(46)前記ある出力とは報知動作とするとよい。
報知動作によってある出力がされたことがわかることとなる。
(47)ロボティクスプロセスオートメーションの実行中のコンピュータがユーザーからの入力待ち状態となった場合に、報知動作を行うようにした。
これによって入力待ち状態となったことをユーザーに報せ、次の処理を促すことが可能となる。
(46) The certain output may be a notification operation.
It will be understood that a certain output has been made by the notification operation.
(47) A notification operation is performed when a computer that is executing robotics process automation waits for an input from a user.
This makes it possible to notify the user of the input waiting state and prompt the next process.

(48)ロボティクスプロセスオートメーションを行うクライアントコンピュータと、前記クライアントコンピュータに対してロボティクスプロセスオートメーションの実行指示を与えるサーバーコンピュータとを備え、前記クライアントコンピュータに前記サーバーコンピュータからの指示があった場合、報知動作を行うようにするとよい。
これによってサーバーコンピュータからの指示があったことをユーザーに報せ、次の処理を促すことが可能となる
(48) A client computer that performs robotics process automation, and a server computer that gives instructions to the client computer to execute the robotics process automation, and when the client computer receives an instruction from the server computer, the notification operation is performed. It is recommended that you do so.
This makes it possible to notify the user that an instruction has been received from the server computer and prompt the next process.

(49)ロボティクスプロセスオートメーションを実行しているコンピュータの方向を指し示す動作を行なう前記出力情報を生成するとよい。
これによってどのコンピュータにおいて実行が行われたのかをユーザーがわかることとなり、ユーザーに次の処理を促すことが可能となる。
(50)ロボティクスプロセスオートメーションの実行状態に応じて異なる前記出力情報を生成するものとするとよい。
これによってどのような実行が行われたかを区別することができる。
(49) Preferably, the output information is operable to point toward a computer executing robotics process automation.
This makes it possible for the user to know on which computer the execution was performed, and to prompt the user for the next process.
(50) Different output information may be generated according to the execution state of the robotics process automation.
This makes it possible to distinguish what kind of execution was performed.

(51)(1)~(50)のいずれかに記載の装置の機能をコンピュータに実現させるためのプログラム。
「ある出力」など「ある」と記載した部分は例えば「所定の」とするとよい。
上述した(1)から(50)に示した発明は、任意に組み合わせることができる。例えば、(1)に示した発明の全てまたは一部の構成に、(2)以降の少なくとも1つの発明の少なくとも一部の構成を加える構成としてもよい。特に、(1)に示した発明に、(2)以降の少なくとも1つの発明の少なくとも一部の構成を加えた発明とするとよい。また、(1)から(50)に示した発明から任意の構成を抽出し、抽出された構成を組み合わせてもよい。本願の出願人は、これらの構成を含む発明について権利を取得する意思を有する。また「~の場合」「~のとき」という記載があったとしてもその場合やそのときに限られる構成として記載はしているものではない。これらの場合やときでない構成についても開示しているものであり、権利取得する意思を有する。また順番を伴った記載になっている箇所もこの順番に限らない。一部の箇所を削除したり、順番を入れ替えた構成についても開示しているものであり、権利取得する意思を有する。
(51) A program for causing a computer to implement the function of the device according to any one of (1) to (50).
The part described as "exists" such as "some output" may be changed to "predetermined", for example.
The inventions shown in (1) to (50) above can be combined arbitrarily. For example, a configuration may be adopted in which at least part of the configuration of at least one of the following inventions (2) is added to all or part of the configuration of the invention shown in (1). In particular, the invention shown in (1) may be added with at least a part of the configuration of at least one invention after (2). Also, arbitrary configurations may be extracted from the inventions shown in (1) to (50) and the extracted configurations may be combined. The applicant of this application intends to obtain rights to inventions including these configurations. In addition, even if there is a description of "in case of" or "when", it is not described as a configuration limited to that case or that time. We disclose and intend to reserve these occasions and occasions. Moreover, the parts described with order are not limited to this order. It also discloses a configuration in which some parts are deleted or the order is changed, and there is an intention to acquire the right.

ユーザーや他の機器とコミュニケーションを取る際に、装置はコミュニケーションに応じた出力情報を生成することができる。そのため、ユーザー又は他の機器において装置とのコミュニケーションを図る際の利便性が高まる。
本願の発明の効果はこれに限定されず、本明細書および図面等に開示される構成の部分から奏する効果についても開示されており、当該効果を奏する構成についても分割出願・補正等により権利取得する意思を有する。例えば本明細書において「~できる」と記載した箇所などは奏する効果を明示する記載であり、また「~できる」と記載がなくとも効果を示す部分が存在する。またこのような記載がなくとも当該構成よって把握される効果が存在する。
When communicating with a user or other device, the device can generate output information in response to the communication. This increases the convenience of communicating with the device by the user or other device.
The effect of the invention of the present application is not limited to this, and the effect produced by the parts of the configuration disclosed in the specification and drawings, etc. is also disclosed, and the configuration that produces the effect is also acquired by divisional application, amendment, etc. have the intention to For example, in this specification, the description of "can be done" is a description that clearly shows the effect, and there are parts showing the effect even if there is no description of "can be done". Moreover, even without such a description, there is an effect that can be grasped by the configuration.

本発明にかかる実施の形態1のロボットの正面図。1 is a front view of a robot according to Embodiment 1 of the present invention; FIG. 同じ実施の形態1のロボットの側面図。The side view of the robot of the same Embodiment 1. FIG. 同じ実施の形態1のロボットの背面図。FIG. 2 is a rear view of the robot of the same Embodiment 1; ロボットの電気的構成を説明するブロック図。FIG. 2 is a block diagram for explaining the electrical configuration of the robot; ロボットの顔面部に表示される顔画面のある表情の一例を捉えた説明図。Explanatory drawing capturing an example of an expression with a face screen displayed on the face of the robot. ロボットの顔面部に表示されるチャット画面のあるチャット状態の一例を捉えた説明図。Explanatory diagram capturing an example of a chat state with a chat screen displayed on the face of the robot. ロボットの顔面部に表示される顔画面を背景とする待ち受け画像を説明する説明図。FIG. 4 is an explanatory diagram for explaining a standby image with a face screen displayed on the face of the robot as a background; ロボットの顔面部に表示されるチャット画面を背景とする待ち受け画像を説明する説明図。FIG. 4 is an explanatory diagram for explaining a standby image with a chat screen displayed on the face of the robot as a background; (a)~(d)はロボットの顔面部に表示される目オブジェクトの変形パターンを説明する説明図。(a) to (d) are explanatory diagrams for explaining deformation patterns of eye objects displayed on the face of the robot. (a)~(c)はロボットの顔面部にユーザーの発話内容が文字列として徐々に表れてくる様子を説明する説明図。4(a) to 4(c) are explanatory diagrams for explaining how the user's utterance content gradually appears as a character string on the robot's face. ロボットの顔面部に表示される顔画面において目オブジェクトがユーザーの顔を追って移動している状態を説明する説明図。FIG. 4 is an explanatory diagram for explaining a state in which an eye object moves following the user's face on the face screen displayed on the face of the robot; スマートフォンの一例を説明する説明図。Explanatory drawing explaining an example of a smart phone. ロボットの起動~ウェイクアップモード~対話モード~スリープモードの関係を説明する説明図。FIG. 10 is an explanatory diagram for explaining the relationship between robot activation, wakeup mode, interactive mode, and sleep mode. 実施の形態7においてロボットとスマートスピーカの関係を説明する説明図。FIG. 21 is an explanatory diagram for explaining the relationship between a robot and a smart speaker in Embodiment 7; 実施の形態9においてスマートフォンの一例を説明する説明図。FIG. 20 is an explanatory diagram illustrating an example of a smartphone in Embodiment 9;

<実施の形態1>
図1~図3に示すように、人の声に反応して動作するコミュニケーションロボットであるロボット1は、下半身となる固定部2と、固定部2上に載置される上半身となる可動部3を筐体として備えている。可動部3は固定部2に隣接配置された胴部4と、胴部4に支持された頭部5とから構成されている。固定部2は上に開いた碗状の外観に形成され、胴部4は固定部2上縁と上下方向に連続的なカーブで構成された筒体形状に形成されている。ロボット1は固定部2と胴部4の接続部分がもっとも大径に構成されて、その接続部分を境界に上下方向に窄まった外形とされている。胴部4はその筒体形状の前方が半円形形状に大きく切り欠かれている。頭部5は胴部4の上部に埋め込まれるように嵌合されている。胴部4は固定部2に対して水平方向(図1の矢印方向)に回動し、頭部5は胴部4に対して縦方向(図2の矢印方向)と左右回転方向(図3の矢印方向)の2方向に回動する。
<Embodiment 1>
As shown in FIGS. 1 to 3, a robot 1, which is a communication robot that operates in response to human voice, has a fixed part 2 as a lower body and a movable part 3 as an upper body placed on the fixed part 2. is provided as a housing. The movable part 3 is composed of a body part 4 arranged adjacent to the fixed part 2 and a head part 5 supported by the body part 4 . The fixed part 2 is formed in a bowl-like appearance that opens upward, and the body part 4 is formed in a cylindrical shape composed of a curve continuous in the vertical direction with the upper edge of the fixed part 2 . The robot 1 has the largest diameter at the connecting portion between the fixed portion 2 and the body portion 4, and has an outer shape that narrows in the vertical direction with the connecting portion as a boundary. The trunk portion 4 has a large semicircular cutout at the front of its tubular shape. The head portion 5 is fitted into the upper portion of the body portion 4 so as to be embedded therein. The body 4 rotates horizontally (in the direction of the arrow in FIG. 1) with respect to the fixed part 2, and the head 5 rotates vertically (in the direction of the arrow in FIG. 2) and in the direction of horizontal rotation (in the direction of the arrow in FIG. arrow direction)).

頭部5は全体として球体の一部(前面部分)が1つの平面でカットされた残余である球欠状の形状に構成されている。カット状に形成された前面部分は円形形状に現れロボット1の顔面部6を構成する。顔面部6の表面に形成された長方形部分はタッチパネル機能を備えた液晶ディスプレイ(LCD)である表示部としてのタッチパネル部7とされている。タッチパネル部7に表示される内容については後述する。タッチパネル部7の周囲の顔面部6領域にはスモークパネルが配置され顔面部6全体が統一された濃色の背景となっている。頭部5の内部において顔面部6の上方左右の収容位置には照度センサ8と高輝度白色LED9がそれぞれ配設されている。顔面部6においてタッチパネル部7の上部中央位置には顔認識用カメラ10のレンズ11が配設されている。 The head 5 as a whole is configured in a shape of a sphere, which is the remainder of a sphere cut in one plane (front part). The cut front portion appears in a circular shape and constitutes the face portion 6 of the robot 1 . A rectangular portion formed on the surface of the face portion 6 serves as a touch panel portion 7 as a display portion, which is a liquid crystal display (LCD) having a touch panel function. The contents displayed on the touch panel section 7 will be described later. A smoke panel is arranged in the area of the face part 6 around the touch panel part 7, and the entire face part 6 is a unified dark background. Inside the head 5, an illuminance sensor 8 and a high-brightness white LED 9 are arranged at accommodation positions on the upper left and right sides of the face part 6, respectively. A lens 11 of a face recognition camera 10 is arranged at the upper center position of the touch panel section 7 in the face section 6 .

胴部4内部において胴部4の前方左右寄り位置と後方中央位置の120度ずつずれた同
じ高さの3箇所の位置にはマイクロフォン12が配設されている。固定部2内部において固定部2上には左右一対のスピーカ装置13が配設されている。スピーカ装置13の側方にはスピーカ装置13で発生した音を出力するための開口部14が形成されている。スピーカー用開口部14に隣接した位置には電源スイッチ15とスピーカー装置13の音量を調整するためのアップスイッチ16とダウンスイッチ17がそれぞれ配設されている。固定部2の後方位置にはUSBのOTG(On-The-Go)用の端子18、DC12V用の電源用ジャック20、マイクロSDカード用ソケット(リーダー)19が配設されている。
Microphones 12 are arranged inside the body section 4 at three positions at the same height, which are shifted by 120 degrees between the front left and right positions and the rear center position of the body section 4 . A pair of left and right speaker devices 13 are arranged on the fixed portion 2 inside the fixed portion 2 . An opening 14 for outputting the sound generated by the speaker device 13 is formed on the side of the speaker device 13 . A power switch 15 and an up switch 16 and a down switch 17 for adjusting the volume of the speaker device 13 are provided at positions adjacent to the speaker opening 14, respectively. A USB OTG (On-The-Go) terminal 18 , a DC 12 V power jack 20 , and a micro SD card socket (reader) 19 are arranged at the rear position of the fixed portion 2 .

ロボット1はインターネット回線を利用して所定の外部のクラウドサーバーに接続可能とされている。クラウドサーバーはロボット1が必要とするデータを記憶する記憶手段としての記憶領域、ロボット1が必要とする各種処理を行うための各種エンジン等を備えている。そのため、広義にはロボット1はこれらのクラウドサーバーのソフトウェア等の部分を含めた装置として解釈することができる。 The robot 1 can be connected to a predetermined external cloud server using an internet line. The cloud server has a storage area as storage means for storing data required by the robot 1, various engines for performing various processes required by the robot 1, and the like. Therefore, in a broad sense, the robot 1 can be interpreted as a device including portions such as software of these cloud servers.

次に、図4のブロック図に基づいて、実施の形態1のロボット1の電気的構成について説明する。
制御手段としてのコントローラMCには上記のタッチパネル部7、照度センサ8、高輝度白色LED9、顔認識用カメラ10、マイクロフォン12、スピーカ装置13、端子18、マイクロSDカード用ソケット19が接続され、これらに加え、無線LAN装置21、ドップラーセンサ22、第1~第3のモータ23~25等がそれぞれ接続されている。
Next, based on the block diagram of FIG. 4, the electrical configuration of the robot 1 of Embodiment 1 will be described.
The above-described touch panel unit 7, illuminance sensor 8, high-brightness white LED 9, face recognition camera 10, microphone 12, speaker device 13, terminal 18, and micro SD card socket 19 are connected to the controller MC as control means. , a wireless LAN device 21, a Doppler sensor 22, first to third motors 23 to 25, etc. are connected.

タッチパネル部7はその表面に接触することで入力する入力操作機能を有する。タッチパネル部7は後述する自然対話モードにおいては図5又は図6のような異なった画面を表示させることができる。コントローラMCは第1の画面として図5のようなロボット1の表情、特に目の周辺の変化を司る顔画面S1を変位可能にタッチパネル部7に表示させる。顔画面S1はデフォルトで表示される画面であって、ロボット1の目オブジェクト27とほっぺオブジェクト28と楕円領域29が表示される。目オブジェクト27はアニメーション画像としていくつかの目オブジェクト27の変形パターンを備えている(図9(a)~(d))。また、アニメーション画像として瞳オブジェクト27aが左右に移動する動きをする。 The touch panel unit 7 has an input operation function of inputting by touching the surface thereof. The touch panel unit 7 can display different screens as shown in FIG. 5 or 6 in a natural dialogue mode, which will be described later. The controller MC causes the touch panel section 7 to displaceably display a face screen S1 as a first screen as shown in FIG. The face screen S1 is a screen displayed by default, and the eye object 27, cheek object 28, and elliptical area 29 of the robot 1 are displayed. The eye object 27 has several deformation patterns of the eye object 27 as an animation image (FIGS. 9(a) to (d)). Also, as an animation image, the pupil object 27a moves left and right.

また、コントローラMCは第2の画面として図6のようなチャット画面S2をタッチパネル部7に表示させる。チャット画面S2は顔画面S1の状態でタッチパネル部7をタッチしてスライドさせることで顔画面S1に代えてタッチパネル部7上にチャット画面S2を表示させることができる。スライド操作によって顔画面S1とチャット画面S2は相互に表示切り替えが可能となっている。チャット画面S2については後述する。
また、タッチパネル部7は待ち受けモード(ウェイクアップモード)ではタッチパネル部7上に図7又は図8の待ち受け画像を表示させることができる。待ち受け画像については後述する。
ロボット1にはこれら以外の異なる画像として設定画面が用意され、チャット画面S2からその設定画面に移動可能である。ロボット1が初めて起動された状態では設定画面からアクセスして、例えば、ID・パスワードのサーバーへの設定登録、Wi-Fiパスワードの設定登録、ユーザー登録(例えば名前、年齢、性別等)、顔認証、データを転送する先となるeメールアドレスの設定等の必要な初期設定項目を入力する。
Further, the controller MC causes the touch panel section 7 to display a chat screen S2 as shown in FIG. 6 as a second screen. The chat screen S2 can be displayed on the touch panel section 7 instead of the face screen S1 by touching and sliding the touch panel section 7 in the state of the face screen S1. The display of the face screen S1 and the chat screen S2 can be switched between each other by a slide operation. The chat screen S2 will be described later.
Further, the touch panel section 7 can display the standby image shown in FIG. 7 or 8 on the touch panel section 7 in the standby mode (wake-up mode). The standby image will be described later.
A setting screen is prepared for the robot 1 as a different image other than these, and it is possible to move to the setting screen from the chat screen S2. When the robot 1 is activated for the first time, access from the setting screen, for example, ID / password setting registration to the server, Wi-Fi password setting registration, user registration (e.g. name, age, gender, etc.), face authentication , enter the necessary initial setting items such as setting the e-mail address to which the data is to be transferred.

照度センサ8は、ロボット1の設置された環境の明るさを認識する。高輝度白色LED9は照度センサ8の検出した数値に基づいて顔認識用カメラ10による撮影に光度が足りない場合に自動的に点灯される。
マイクロフォン12は、ユーザーとの対話においてユーザーの発話を取得する音声入力手段であると同時に、三角形の頂点に配置される3つのマイクロフォン12を同時に使用
することで、これらの間での音の到達時間の差によって音源方向を特定することができる方向検知手段でもある。コントローラMCは各マイクロフォン12の取得した電気信号の位相差から到達時間差を求める。コントローラMCはその到達時間差に基づいて基準方向に対する音源角度を算出する。ユーザーとの対話に特化したマイクロフォンを例えば顔面部6に設けるようにしてもよい。
スピーカ装置13は、ユーザーとの対話においてロボット1が発話(音声出力)する音声出力手段である。
マイクロSDカード用ソケット19は挿入されるmicroSDカードのデータの読み取り及び書き換えをする。
無線LAN装置21は、Wi-Fi対応機器であるロボット1をインターネットに無線接続させるための機器である。本実施の形態ではIEEE802.11bの国際標準規格とされている。
ドップラーセンサ22は、マイクロ波を使用したセンサであって、マイクロ波を発射し、反射してきたマイクロ波の周波数と、発射した電波の周波数とを比較し、物体(人)が動いているかどうかを検出する。ドップラー効果により物体(人)が動いている場合の反射波の周波数が変化することを利用するものである。例えば、ユーザー不在時の不審者の有無等のように、ロボット1の周囲の異常を検知するために使用される装置である。
第1のモータ23は胴部4を固定部2に対して水平方向(図1の矢印方向)に回動させるためのサーボモータである。第2のモータ24は頭部5を胴部4に対して縦方向(図2の矢印方向)に回動させるためのサーボモータである。第3のモータ25は頭部5を胴部4に対して左右回転方向(図3の矢印方向)に回動させるためのサーボモータである。マイクロフォン12によってユーザーの発話する方向が決定された場合にはコントローラMCは顔面部6がユーザーの方向に正対するように第1のモータ23を制御して固定部2に対して胴部4(可動部3)を回動させる。
The illuminance sensor 8 recognizes the brightness of the environment in which the robot 1 is installed. The high-brightness white LED 9 is automatically turned on based on the numerical value detected by the illuminance sensor 8 when the brightness is insufficient for photographing by the face recognition camera 10 .
The microphone 12 is a voice input means for capturing the user's utterance in a dialogue with the user. It is also a direction detection means capable of specifying the direction of the sound source by the difference between the . The controller MC obtains the arrival time difference from the phase difference of the electrical signals acquired by each microphone 12 . The controller MC calculates the sound source angle with respect to the reference direction based on the arrival time difference. A microphone specialized for dialogue with the user may be provided, for example, on the face portion 6 .
The speaker device 13 is an audio output means through which the robot 1 speaks (outputs audio) in dialogue with the user.
The micro SD card socket 19 reads and rewrites data on the inserted micro SD card.
The wireless LAN device 21 is a device for wirelessly connecting the robot 1, which is a Wi-Fi compatible device, to the Internet. In this embodiment, it is the international standard of IEEE802.11b.
The Doppler sensor 22 is a sensor that uses microwaves, emits microwaves, compares the frequency of the reflected microwaves with the frequency of the emitted radio waves, and determines whether an object (person) is moving. To detect. It utilizes the fact that the frequency of reflected waves changes when an object (person) moves due to the Doppler effect. For example, it is a device used to detect abnormalities around the robot 1, such as whether or not there is a suspicious person when the user is absent.
The first motor 23 is a servomotor for rotating the body portion 4 in the horizontal direction (in the direction of the arrow in FIG. 1) with respect to the fixed portion 2 . The second motor 24 is a servomotor for rotating the head 5 in the vertical direction (in the direction of the arrow in FIG. 2) with respect to the body 4. As shown in FIG. A third motor 25 is a servomotor for rotating the head 5 in the left-right direction (the arrow direction in FIG. 3) with respect to the body 4 . When the direction in which the user speaks is determined by the microphone 12, the controller MC controls the first motor 23 so that the face part 6 faces the direction of the user, and moves the body part 4 (movable) with respect to the fixed part 2. Part 3) is rotated.

コントローラMCは周知のCPUやROM及びRAM、SSD等の記憶手段としてのメモリ、バス、リアルタイムクロック(RTC)等から構成されている。コントローラMCのROM内にはロボット1の各種機能を実行させるための各種プログラムが記憶されている。
各種プログラムとしては、例えばマイクロフォン12とスピーカ装置13を介したユーザーとの対話を制御するための対話プログラム、顔認識用カメラ10を使用した顔認識に関する顔認識プログラム、タッチパネル部7や第1~第3のモータ23~25を制御してロボット1との対話中におけるロボット1の表情や動作を変化させるための表示変動・ジェスチャープログラム、ユーザーとの対話やタッチパネル部7の操作に基づいて異なる画面や画像をタッチパネル部7上に表示させる画面表示プログラム、他のコンピュータやスマートフォンとの間でロボット1側で取得した例えばカメラ画像やスマートフォン等からのeメール等を処理するデータ送受信プログラム、ユーザーが不在の際の見守りのための留守設定時プログラム、GUI機能・ネット接続機能、プロセス管理等の操作・運用・運転のためのOS等が記憶されている。RAM内には対話や顔認識における入出力データ等が一旦記憶される。各プログラムは他のプログラムと連携してあるいは独立してマルチタスクで対話、顔認識、ジェスチャー等の機能が実現される。
The controller MC is composed of a well-known CPU, ROM, RAM, memory as storage means such as SSD, bus, real-time clock (RTC), and the like. Various programs for executing various functions of the robot 1 are stored in the ROM of the controller MC.
Various programs include, for example, a dialogue program for controlling dialogue with the user via the microphone 12 and the speaker device 13, a face recognition program for face recognition using the face recognition camera 10, the touch panel unit 7, the first to the first A display variation/gesture program for controlling the motors 23 to 25 of 3 to change the facial expressions and actions of the robot 1 during a dialogue with the robot 1, a different screen and gesture program based on the dialogue with the user and the operation of the touch panel unit 7 A screen display program for displaying an image on the touch panel unit 7, a data transmission/reception program for processing, for example, a camera image acquired by the robot 1 side with another computer or smartphone, e-mails from a smartphone, etc. It stores an absence setting program for watching over the home, a GUI function, a network connection function, an OS for operation, operation, and operation such as process management. In the RAM, input/output data and the like in dialogue and face recognition are temporarily stored. Each program realizes functions such as dialogue, face recognition, and gestures through multitasking in cooperation with other programs or independently.

A.対話時の動作内容について
上記のような構成において、コントローラMCは対話プログラムを実行することによってユーザーとの対話によるコミュニケーションを制御する。尚、対話の開始可能と同期して可能となる顔認識については下記「B.顔認識時の動作内容について」で後述する。
ここで、対話プログラムは、
1)マイクロフォン12から取得したユーザーの発話データ(音声データ)をクラウドサーバーにリクエスト発行し、サーバー側の音声認識エンジンを使用してテキスト化したユーザーの発話データ(文字列データ)をレスポンスするためのサブプログラム
2)ユーザーの発話(文字列データ)に基づいてビルトインシナリオの対話を実行させる
ビルトインシナリオサブプログラム
3)ユーザーの発話がビルトインシナリオに対応しない場合に発話データ(文字列データ)を再びクラウドサーバーにリクエスト発行し、対話API(アプリケーションプログラミングインタフェース)を利用して対話エンジンにロボット1の返答データ(文字列データ)を作成させる発話データ転送サブプログラム
4)レスポンスされた返答データ(文字列データ)を表示部としてのタッチパネル部7に表示させる文字列データ表示サブプログラム
5)レスポンスされた返答データ(文字列データ)を音声合成エンジンによって音声データに変換しスピーカ装置13からロボット1側の発話として音声出力させるための音声データサブプログラム
6)ユーザー側文字列データやロボット1側文字列データに基づいてタッチパネル部7上の表示態様やロボット1の動作を変動させる表示態様・動作変動サブプログラム、
等を含む。
以下、主として対話プログラムに基づいたコントローラMCの制御内容の一例について、起動後の待ち受けモード(ウェイクアップモード)と自然対話モードとスリープモードの相互の関係と共に説明する。これらの相互の関係は図12に示されるとおりである。
図5と図6は自然対話モードの画面であり、図7と図8は待ち受けモードの画面である。スリープモードではこれらの画面はタッチパネル部7のバックライトが消灯して暗くなった画面である。
A. Contents of Operations During Dialogue In the configuration described above, the controller MC controls communication through dialogue with the user by executing a dialogue program. Note that the face recognition that is enabled synchronously with the start of the dialogue will be described later in the following "B. Contents of operation at the time of face recognition".
where the dialogue program is
1) For issuing a request to the cloud server for the user's utterance data (voice data) acquired from the microphone 12 and responding with the user's utterance data (character string data) converted to text using the server-side speech recognition engine. Sub-program 2) Built-in scenario sub-program that executes built-in scenario dialogue based on user's utterance (character string data) 3) If user's utterance does not correspond to built-in scenario, utterance data (character string data) is returned to cloud server Utterance data transfer subprogram that issues a request to , and uses the dialogue API (application programming interface) to create the response data (character string data) of the robot 1 in the dialogue engine 4) The response data (character string data) is sent to Character string data display subprogram for displaying on the touch panel unit 7 as a display unit 5) The response data (character string data) is converted into voice data by the voice synthesis engine, and voice output from the speaker device 13 as an utterance of the robot 1 side. 6) a display mode/motion variation subprogram for varying the display mode on the touch panel unit 7 and the motion of the robot 1 based on the user side character string data and the robot 1 side character string data;
etc.
An example of the control contents of the controller MC mainly based on the dialogue program will be described below together with the mutual relationship between the standby mode (wakeup mode) after activation, the natural dialogue mode, and the sleep mode. These mutual relationships are as shown in FIG.
5 and 6 are screens in the natural dialogue mode, and FIGS. 7 and 8 are screens in the standby mode. In the sleep mode, these screens are darkened by turning off the backlight of the touch panel section 7 .

1.起動
電源スイッチ15の投入によってロボット1は起動される(図13の処理M0)。コントローラMCではブート・プログラムが実行され、次いでOSが起動すると、OSはユーザーからの「命令(コマンド)」待ち状態、つまりウェイクアップ状態となる。この初期の待ち受けモードでは図7の待ち受け画面が表示される。
尚、以下では初期設定が完了した後の状態、つまりロボット1のIDとパスワードがクラウドサーバーに登録され、ユーザー登録が完了し、複数のユーザーの顔認証がされ、スマートフォンのeメールアドレスがロボット1に登録される等以後の起動とする。
『1.起動 における効果』
このように起動によって複数の待ち受け画面から選択された1つの画面(図7)がまず表示される。つまり、起動時には常に決まった画面が表示されることとなる。そしてロボット1の目が閉じている(対話ができないことを暗示している)ことから待ち受けモードにあることがユーザーに容易にわかるようになっている。
1. Activation The robot 1 is activated by turning on the power switch 15 (processing M0 in FIG. 13). A boot program is executed in the controller MC, and then when the OS is activated, the OS is in a state of waiting for a "command" from the user, that is, in a wake-up state. In this initial standby mode, the standby screen of FIG. 7 is displayed.
In the following, the state after the initial setting is completed, that is, the robot 1 ID and password are registered in the cloud server, user registration is completed, face authentication of multiple users is performed, and the email address of the smartphone is registered with the robot 1 It is assumed that it will be started later, such as being registered in
"1. Effect on Startup』
In this way, one screen (FIG. 7) selected from a plurality of standby screens is displayed first. In other words, a fixed screen is always displayed at startup. Since the eyes of the robot 1 are closed (implying that the robot 1 cannot interact), the user can easily understand that the robot 1 is in the standby mode.

2.待ち受けモード(ウェイクアップモード)
待ち受けモードは自然対話モードの開始のトリガーがあるとロボット1と対話が可能となる状態である。また、自然対話モードにおいて対話が終了した場合に移行する状態でもある。また、一定時間自然対話モードが開始されないとスリープモードになってしまう状態でもある。スリープモードはロボット1と対話でコミュニケーションが取れない状態である。
ここに「自然対話」とはロボット1のビルトインシナリオやサーバ上の対話エンジン(対話ソフト)を使用してユーザーが音声合成された装置(ロボット1)側の音声と対話することをいう。自然対話モードは自然対話が可能な状態である。
待ち受けモードの画面は複数あり、本実施の形態では図7と図8の2種類が用意されている。
図7は図5の自然対話モードにおける画面から移行する待ち受け画面である(図13の処理M2)。また、図13の処理M0によって起動時に表示される待ち受け画面でもある。図7では、日時と曜日と、大きく現時間が表示がされた時計レイヤーの画面の背景にロボット1の目(目オブジェクト27)が閉じた状態の顔画面S1のレイヤー画面が薄く表示されている。
図8は図6の自然対話モードにおける画面から移行する待ち受け画面である(図13の処理M2)。図8では、日時と曜日と、大きく現時間が表示がされた時計レイヤーの背景にチャット画面S2のレイヤー画面が薄く表示されている。つまり、待ち受けモードではあるが自然対話モードではない。
『2.待ち受けモード(ウェイクアップモード) における効果』
このように、異なる待ち受け画面が用意されているので、ある待ち受け画面から自然対話モードが開始される場合にユーザーは直前にアクセスしていた画面での対話を行うことができるため利便性がよい。また、待ち受けモード特有の画面を表示させることで、ロボット1が待ち受けモードにあることがユーザーに容易にわかるようになっている。
2. Standby mode (wake-up mode)
The standby mode is a state in which a dialogue with the robot 1 is possible when a trigger for starting the natural dialogue mode is given. It is also a transition state when the dialogue ends in the natural dialogue mode. It is also a state in which the sleep mode is entered if the natural dialogue mode is not started for a certain period of time. The sleep mode is a state in which communication with the robot 1 is not possible.
Here, "natural dialogue" means that the user interacts with the voice of the device (robot 1) that is synthesized by using the built-in scenario of the robot 1 or the dialogue engine (dialogue software) on the server. Natural dialogue mode is a state in which natural dialogue is possible.
There are a plurality of standby mode screens, and two types of screens shown in FIGS. 7 and 8 are prepared in this embodiment.
FIG. 7 shows a standby screen that is shifted from the screen in the natural dialogue mode of FIG. 5 (process M2 of FIG. 13). It is also a standby screen displayed at startup by the process M0 of FIG. In FIG. 7, the layer screen of the face screen S1 with the eyes (eye objects 27) of the robot 1 closed is lightly displayed in the background of the clock layer screen on which the date and day of the week and the current time are displayed in a large size. .
FIG. 8 shows a standby screen that is shifted from the screen in the natural dialogue mode of FIG. 6 (process M2 of FIG. 13). In FIG. 8, the layer screen of the chat screen S2 is lightly displayed in the background of the clock layer in which the date and time, the day of the week, and the current time are displayed in a large size. That is, it is in standby mode but not in natural dialogue mode.
"2. Effect in standby mode (wake-up mode)
Since different standby screens are prepared in this way, when the natural dialogue mode is started from a certain standby screen, the user can interact with the screen accessed immediately before, which is convenient. By displaying a screen specific to the standby mode, the user can easily understand that the robot 1 is in the standby mode.

3.自然対話モードの開始と停止
起動されて待ち受けモードやスリープモードにある状態から、コントローラMCは例えば次のような複数のタイミング、つまりモード移行のトリガーによって自然対話モードに移行させるよう処理する(図13の処理M1、M5)。以下のトリガーは一例である。自然対話モードでは下記「B.顔認識時の動作内容について」で説明するような顔認識モードに切り替わる(顔認識ができるようになる)。
3. Starting and Stopping Natural Dialogue Mode From the standby mode or sleep mode after activation, the controller MC performs processing to shift to the natural dialogue mode at the following multiple timings, that is, mode transition triggers (FIG. 13). processing M1, M5). The following trigger is an example. In the natural dialogue mode, the mode is switched to the face recognition mode (facial recognition becomes possible) as described in "B. Details of operations during face recognition" below.

1-1)待ち受けモードにおいてコントローラMCは一定時間内に起動フレーズとして、例えば「ねえ、ユピ坊」というような発話(音声)をマイクロフォン12から認識するとそれをトリガーとして自然対話モードとする(図13の処理M1)。また、タッチパネル部7へのタッチ動作があったと判断した場合もそれをトリガーとして自然対話モードとする(図13の処理M1)。
1-2)スリープモードにおいてコントローラMCは、所定のタイミングで待ち受け画面のタッチパネル部7へのタッチ動作があったかどうかを判断する。タッチパネル部7へのタッチ動作は顔面部6における表示態様によって異なり、顔画面S1の待ち受け画面ではタッチパネル部7全域へのタッチが、チャット画面S2の待ち受け画面では後述する対話開始ボタンオブジェクト36へのタッチで開始される。つまり、異なる画面で異なる操作で開始されることとなる。
タッチパネル部7へのタッチ動作があったと判断した場合には、コントローラMCは一旦待ち受けモードとし(図13の処理M3)、続いてもう一度タッチがあったと判断すると自然対話モードとする(図13の処理M1)。
1-3)スリープモードにおいてコントローラMCは、1-2)と同様にタッチパネル部7へのタッチ動作があったかどうかを判断する。タッチ動作があったと判断した場合には、コントローラMCは一旦待ち受けモードとする(図13の処理M3)。この状態で一定時間内に起動フレーズとして、例えば「ねえ、ユピ坊」というような発話(音声)をマイクロフォン12から認識するとコントローラMCはそれをトリガーとして自然対話モードとする(図13の処理M1)。
2)スリープモードにおいてコントローラMCはRTCによってあらかじめ設定された所定の時刻になったかどうかを判断し、所定の時刻になったタイミングで自然対話モードとする(図13の処理M5)。
3)スリープモードにおいてコントローラMCは、例えば所定のタイミングで生成した乱数によって、ランダムな時間間隔でランダムにある発話(音声データ)をスピーカ装置13から出力する。つまり、一種の独り言として、例えば「ねえねえ何してる?」とか「暇だなあ」のような対話を誘うような音声をロボット1から出力させて自然対話モードとし(図13の処理M5)、ユーザーに発話を促す。
4)スリープモードにおいてコントローラMCはドップラーセンサ22によって物体(人)が動いているかどうかを判断し、物体(人)が動いていることを検出したタイミングで自然対話モードとする(図13の処理M5)。
1-1) In the standby mode, when the controller MC recognizes an utterance (voice) such as "Hey, Yupibo" from the microphone 12 as an activation phrase within a certain period of time, it triggers the natural dialogue mode (FIG. 13). process M1). Also, when it is determined that there has been a touch operation on the touch panel section 7, this is used as a trigger to set the natural dialogue mode (process M1 in FIG. 13).
1-2) In the sleep mode, the controller MC determines whether or not there is a touch operation on the touch panel section 7 of the standby screen at a predetermined timing. The touch operation on the touch panel portion 7 differs depending on the display mode on the face portion 6. On the waiting screen of the face screen S1, touching the entire area of the touch panel portion 7 corresponds to touching the dialogue start button object 36, which will be described later, on the waiting screen of the chat screen S2. is started with That is, it is started by different operations on different screens.
When it is determined that there is a touch operation on the touch panel section 7, the controller MC temporarily switches to the standby mode (process M3 in FIG. 13), and then switches to the natural dialogue mode when it determines that there has been another touch (process in FIG. 13). M1).
1-3) In the sleep mode, the controller MC determines whether or not there is a touch operation on the touch panel section 7 as in 1-2). If it is determined that there has been a touch operation, the controller MC temporarily enters the standby mode (process M3 in FIG. 13). In this state, when an utterance (voice) such as "Hey, Yupibo" is recognized from the microphone 12 as an activation phrase within a certain period of time, the controller MC uses this as a trigger to set the natural dialogue mode (process M1 in FIG. 13). .
2) In the sleep mode, the controller MC determines whether or not a predetermined time set in advance by the RTC has come, and when the predetermined time has come, it switches to the natural dialogue mode (process M5 in FIG. 13).
3) In the sleep mode, the controller MC outputs random utterances (audio data) from the speaker device 13 at random time intervals, for example, using random numbers generated at predetermined timings. In other words, as a kind of soliloquy, the robot 1 is caused to output a voice that invites dialogue, such as "Hey, what are you doing?" Prompt the user to speak.
4) In the sleep mode, the controller MC determines whether or not the object (person) is moving by the Doppler sensor 22, and switches to the natural dialogue mode at the timing when the object (person) is detected to be moving (process M5 in FIG. 13). ).

5)スリープモードにおいてコントローラMCは天候異常や地震等の気象の変化を察知し
た場合に、それをユーザーに報知してこれを契機として自然対話を開始する。外部のクラウドサーバーでは一定の基準で例えば天候異常(例えば、大雪、台風等)や地震、落雷等を含む異常気象の情報を異常気象検出エンジンを利用して一定時刻ごとに取得して記憶する。一定時刻とはすべて同じタイミングでもよく、気象の内容によって取得するタイミングを変えてもよい。異常気象の情報は本実施の形態1では、例えばサーバーからプッシュ型の配信システムを採用して装置(コントローラMC)に配信される。コントローラMCは情報を取得すると自然対話モードとする(図13の処理M5)。
6)コントローラMCは上記1)~5)においてそれぞ自然対話モードとなった状態で一定時間ユーザーからの発話を検出しなかった場合には、待ち受けモードとし(図13の処理M2)、更に一定時間後にスリープモードとする(図13の処理M4)。これらのモード変位時間の長さは、例えば端末装置よって、あるいはビルトインシナリオとして発話によって適宜設定変更可能である。
5) In the sleep mode, when the controller MC senses a change in the weather such as an abnormal weather or an earthquake, it notifies the user of the change and uses this as a trigger to start a natural dialogue. The external cloud server uses an abnormal weather detection engine to acquire and store abnormal weather information including weather abnormalities (e.g., heavy snow, typhoons, etc.), earthquakes, lightning strikes, etc. at regular intervals based on a fixed standard. The fixed time may be the same timing for all, or may be acquired at different timings depending on the contents of the weather. In the first embodiment, information on abnormal weather is distributed from a server to a device (controller MC) by adopting a push-type distribution system, for example. When the controller MC acquires the information, it switches to the natural dialogue mode (process M5 in FIG. 13).
6) If the controller MC does not detect the user's utterance for a certain period of time while in the natural dialogue mode in the above 1) to 5), it enters the standby mode (process M2 in FIG. 13), and Sleep mode is set after a period of time (process M4 in FIG. 13). The length of these mode transition times can be appropriately set and changed, for example, by the terminal device or by speech as a built-in scenario.

『3.自然対話モードの開始と停止 における効果』
このように多種類の自然対話モードの開始が用意されることで、様々なタイミングでロボット1と対話することとなりロボット1との対話する機会が多くなり、それによって自然と対話を楽しむ機会も増えることとなって、ユーザーがロボット1を所有するメリットを感じることとなる。また、対話モードが終了すると一旦待ち受けモードになってからスリープモードとなるため、電力コストが削減される。
また、スリープモードから待ち受けモードを飛び越して自然対話モードの画面になるので、直ちに対話を初めることができるため対話開始がスムーズである。また、対話が続く限り対話用の画面(図5や図7)が表示されるため、ユーザーに対話する意欲を惹起させることとなる。
"3. Effect on Starting and Stopping Natural Dialogue Mode”
By preparing various kinds of natural dialogue modes to be started in this way, dialogues with the robot 1 occur at various timings, increasing the chances of dialogue with the robot 1, which naturally increases the opportunities to enjoy the dialogue. As a result, the user will feel the merit of owning the robot 1 . In addition, when the interactive mode ends, the standby mode is set and then the sleep mode is set, so that the power cost can be reduced.
In addition, since the standby mode is skipped from the sleep mode and the screen of the natural dialogue mode is displayed, the dialogue can be started immediately, so that the dialogue can be started smoothly. In addition, since the dialog screens (FIGS. 5 and 7) are displayed as long as the dialog continues, the user will be motivated to have the dialog.

4.自然対話モードにおけるビルトインシナリオの対話
自然対話モードにおいては、ビルトインシナリオの対話とサーバーの対話エンジンを使用した通常対話の複数の対話処理が用意されている。
コントローラMCは、ユーザーの発話に基づく発話データ(文字列データ)が、まずビルトインシナリオに合致するかどうかを判断し、そうではない場合にクラウドサーバー経由での対話エンジンを使用した対話(以下、通常対話とする)とするよう制御する。ユーザーからすると常にロボット1と対話しているようであるが、実際は自然対話モードの内部処理は複数あることとなる。
コントローラMCはクラウドサーバー側の音声認識エンジンによって作成されたユーザーの発話(文字列データ)をビルトインシナリオ(スクリプト)のテキストデータと比較する処理を実行する。本実施の形態ではビルトインシナリオのテキストデータはメモリに記憶されている。ビルトインシナリオをSDカードに追加させてもよい。SDカードであれば書き換えによってビルトインシナリオを次々と増やすことが容易である。
コントローラMCはユーザーの発話を認識するとその文字列データが予定した正規表現又は非正規表現に合致するかどうか判断し、合致する場合にはその文字列データに対応するスクリプトを音声合成エンジンによって音声データに変換しスピーカ装置13からロボと1の発話として音声出力させる。
ビルトインシナリオには、例えばユーザーの発話を促すための「こんにちは」「今日はいい天気ですね」のような挨拶のような簡単なシナリオや、ユーザーからの発話に基づく何かの処理を求めるためのシナリオのようなもの等、多くのビルトインシナリオが設定されている(用意されている)。表1~3にこのようなビルトインシナリオの一例を開示する。もちろん、実際にはこれらのビルトインシナリオ以外にも多くのビルトインシナリオが設定されている。
4. Dialogue of Built-in Scenarios in Natural Dialogue Mode In the natural dialogue mode, a plurality of dialogue processes of built-in scenario dialogues and normal dialogues using the dialogue engine of the server are prepared.
The controller MC first determines whether or not the utterance data (character string data) based on the user's utterance matches the built-in scenario, and if not, the dialogue using the dialogue engine via the cloud server (hereinafter referred to as normal dialogue). From the user's point of view, it seems that they are constantly interacting with the robot 1, but actually there are a plurality of internal processes in the natural interaction mode.
The controller MC executes a process of comparing the user's utterance (character string data) created by the voice recognition engine on the cloud server side with the text data of the built-in scenario (script). In this embodiment, the text data of the built-in scenario is stored in memory. A built-in scenario may be added to the SD card. If it is an SD card, it is easy to increase the number of built-in scenarios one after another by rewriting.
When the controller MC recognizes the user's utterance, it determines whether or not the character string data matches a predetermined regular expression or non-regular expression. , and output from the speaker device 13 as an utterance of Robo and 1.
Built-in scenarios include simple scenarios such as greetings like "Hello" and "It's nice weather today" to prompt the user to speak, and scenarios to ask for some action based on the user's utterance. Many built-in scenarios such as scenarios are set (prepared). Tables 1-3 disclose an example of such a built-in scenario. Of course, in reality, many built-in scenarios are set in addition to these built-in scenarios.

ビルトインシナリオ通りに対話がされない場合には、途中でビルトインシナリオでの対話は終了する。ビルトインシナリオ通りに対話がされない場合とは、例えば次のような場
合である。
1)予定した正規表現又は非正規表現に合致しない場合
ビルトインシナリオに当初から、あるいは途中から正規表現又は非正規表現に合致しなくなる場合である。また、ユーザーの滑舌が悪くて発話を正しく取得できなかった場合も含む。この場合にはコントローラMCは通常対話であると判断して直ちに外部のクラウドサーバーに接続し、以後は外部のクラウドサーバーへ発話データをリクエスト発行し、外部のクラウドサーバー側の対話エンジンに文字列データ化された返答データを作成させる。そして、その返答データを音声合成エンジンによって音声データに変換しスピーカ装置13から音声出力させるようにして対話を続ける。
If the dialogue is not carried out according to the built-in scenario, the dialogue in the built-in scenario ends halfway. Examples of cases where dialogue is not performed according to the built-in scenario are as follows.
1) When the expected regular expression or non-regular expression is not matched This is the case where the built-in scenario does not match the regular expression or non-regular expression from the beginning or in the middle. In addition, it also includes the case where the user's articulation is poor and the utterance cannot be acquired correctly. In this case, the controller MC judges that it is a normal dialogue and immediately connects to the external cloud server. create customized response data. Then, the response data is converted into voice data by the voice synthesizing engine, and the voice is output from the speaker device 13 to continue the dialogue.

2)予定通りにビルトインシナリオでの対話が終了した場合
例えば、ユーザーに対してシナリオに従った、例えば、「×××を行ってよいですか?」という発話をした際に、「はい」や「お願いします」等の肯定的な発話があって予定通りにビルトインシナリオでの対話が終了したため対話がなくなった場合、あるいはシナリオの途中で対話がなくなった場合等が考えられる。この場合には一定時間後に待ち受けモードとなる。
3)ある処理を進めてよいかどうかについてユーザーの発話が否定的であった場合
ユーザーに対してシナリオに従った、例えば、「×××を行ってよいですか?」という発話をした際に、「はい」や「お願いします」等の肯定的な発話ではなく、「いいえ」「間違いでした」のような否定的な発話があった場合もビルトインシナリオは終了し、以後の対話は1)又は2)と同様である。
この否定的発話の際にはコントローラMCは「本当にいいですか?」などと処理をやめてよいかどうかの確認を行う。これによってユーザーの言い間違いや心変わり等に対応することができる。例えば、電源オフ用シナリオにおいてユーザーに対してシナリオに従った「本当に電源オフしなくてもいいの?」という問いかけの発話をした際に、ユーザーから「はい」という発話があった場合には「本当に電源オフしなくてもいいの?」という問いかけを複数回(実施の形態では例えば3回)繰り返して「はい」があるとビルトインシナリオでの対話は終了する。
2) When the dialogue in the built-in scenario ends as planned It is conceivable that there is no dialogue because there is an affirmative utterance such as "please" and the dialogue in the built-in scenario ends as planned, or that there is no dialogue during the scenario. In this case, the standby mode is set after a certain period of time.
3) When the user's utterance is negative about whether or not to proceed with a certain process. , the built-in scenario ends even if there is a negative utterance such as "no" or "it was a mistake" instead of a positive utterance such as "yes" or "please", and the subsequent dialogue is 1 ) or 2).
At the time of this negative utterance, the controller MC confirms whether or not it is okay to stop the processing, such as "Are you sure?" This makes it possible to deal with misrepresentation, change of mind, etc. of the user. For example, in a scenario for turning off the power, when the user utters the question "Is it really okay to turn off the power?" Is it really necessary to turn off the power?" is repeated a plurality of times (for example, three times in the embodiment), and if "yes" is given, the dialogue in the built-in scenario ends.

『ビルトインシナリオとする効果』
このようにビルトインシナリオが用意されていると、すべての対話を外部サーバーにリクエストする必要がなく、装置内部で処理できるため、サーバーに接続する通信コストが軽減され、また通信時間やサーバー側での計算時間が不要となるためユーザーの発話に対する返答が遅くなりすぎて会話が途切れてしまうような違和感を覚えることがなくなる。また、例えば、決まった処理を実行させる場合にこのようなビルトインシナリオを設けておくことでユーザーは処理実行のためにタッチパネル部7を操作したり、他の端末からロボット1にアクセスしたりする必要がなくなり対話で処理を実行させることができ、ユーザーフレンドリーである。
"Effects of Built-in Scenarios"
With built-in scenarios like this, there is no need to request all interactions with an external server, and they can be processed inside the device, reducing the communication cost of connecting to the server, reducing the communication time and saving time on the server side. Since no calculation time is required, the user will not feel a sense of incongruity that the conversation will be cut off due to too late a reply to the user's utterance. Also, for example, when executing a predetermined process, by providing such a built-in scenario, the user does not need to operate the touch panel unit 7 or access the robot 1 from another terminal in order to execute the process. It is user-friendly because it can be executed interactively.

Figure 2022169645000002
Figure 2022169645000002

Figure 2022169645000003
Figure 2022169645000003

Figure 2022169645000004
Figure 2022169645000004

5.通常対話におけるリクエストとレスポンス
一方、発話データ(文字列データ)はビルトインシナリオではない場合に、コントローラMCはクラウドサーバーに接続させ、改めて発話データ(文字列データ)をサーバーに送信し対話エンジンによる返答データの作成をリクエストする。コントローラMCはユーザーが認証できている場合にはリクエストにおいてユーザー毎の認証情報(例えばIDとパスワード)に発話データの冒頭に送る。その場合には過去の対話情報が加味されて返答データが作成される。一方、ユーザーが認証できていない場合には過去に特定されていない人物として特に認証情報は送信しないので、過去の対話情報は加味されない。クラウドサーバーはリクエストがあると対話API(Application Programming Interface)を利用して対話エンジンにその発話データ(文字列データ)に基づいて返答データ(文字列データ)を作成させ、ロボット1(コントローラMC)にレスポンスする。過去のユーザーの対話履歴がある場合にはその内容を加味した返答データが作成される。コントローラMCはこの返答データを音声データに変換しスピーカ装置13からロボット1側の発話として出力させる。
上記のビルトインシナリオと同様に一定以上時間のユーザーの無言があれば待ち受けモードとなる。
『5.通常対話におけるリクエストとレスポンス における効果』
ビルトインシナリオと異なり外部のクラウドサーバーに接続して通常対話をすることで、ビルトインシナリオに比べて格段なデータ量による高度な対話解析が迅速に実行できることとなり、実際に人と対話しているような高度な対話が実現できる。
5. Requests and responses in normal dialogue On the other hand, if the speech data (character string data) is not a built-in scenario, the controller MC connects to the cloud server, sends the speech data (character string data) to the server again, and returns the response data from the dialogue engine. request the creation of If the user has been authenticated, the controller MC sends authentication information (for example, ID and password) for each user in the request to the beginning of the utterance data. In that case, past dialogue information is taken into account to create response data. On the other hand, if the user has not been authenticated, the user is regarded as a person who has not been identified in the past, and no particular authentication information is transmitted, so past conversation information is not taken into consideration. When there is a request, the cloud server makes the dialogue engine create response data (character string data) based on the utterance data (character string data) using the dialogue API (Application Programming Interface), and sends it to the robot 1 (controller MC). respond. If there is a history of user interaction in the past, response data is created that takes into account the content of that history. The controller MC converts this response data into voice data and outputs it from the speaker device 13 as an utterance on the robot 1 side.
Similar to the built-in scenario above, if there is no word from the user for a certain amount of time or more, it will enter standby mode.
"5. Effects on Requests and Responses in Normal Dialogue”
Unlike the built-in scenario, by connecting to an external cloud server and having a normal conversation, advanced dialogue analysis can be performed quickly with a much larger amount of data than the built-in scenario, making it possible to make it feel like you are actually interacting with a person. Advanced dialogue can be realized.

6.対話時のロボット1の所作について
コントローラMCは、ビルトインシナリオ又は通常対話に関わらず自然対話モードで対話が行われている際に以下のイ.~ニ.のような所作の制御を実行する。
イ.起動~自然対話モード~待ち受けモードにおけるロボット1のジェスチャー
コントローラMCはロボット1の以下の様々なタイミングで第1~第3のモータ23~25を制御してロボット1の姿勢を変えるようにする。以下は一例である。
1)起動時:頭部5の顔面部6が正面を向いていない場合や頭部5が傾いている場合に正面のデフォルト位置に移動させる。
2)画面タッチ時:1)と同様(顔認証における顔認識用カメラ10をユーザーと正対させるため)
3)「ねぇユピ坊」というトリガーの発話発生時:1)と同様(顔認証における顔認識用カメラ10をユーザーと正対させるため)
4)音声方向検出時:頭部5の顔面部6をその方向に向ける。
5)特別な感情発話として、例えばうれしい場合:頭部5を顔面部6をユーザーに向けたまま左右方向(時計回りと反時計回り)に回動するように第3のモータ25を制御する。
6)特別な発話として、例えば悲しい場合:頭部5をうなずいたまましばらく静止させ、その後デフォルト位置に戻すように第2のモータ24を制御する。
7)感情は発話として、例えば「おはよう」「こんにちは」「こんばんわ」「ハロー」のような挨拶用の発話発生時:頭部5をお辞儀させるように第2のモータ24を制御する。
8)特別ではない感情発話として、例えば「そうか」「わかった」「そうだね」「うん!」のような簡単な肯定的な意思疎通の用語の発話発生時:頭部5をうなずかせるように第2のモータ24を制御する。6~8)では第2のモータ24の速度や時間を変更して悲しさとお辞儀とうなづきが異なるようにするとよい。
9)特別ではない感情発話として、例えば「いいえ」「できない」「だめだよ」のような簡単な否定的な意思疎通の用語の発話発生時:可動部3を何度か左右に回動させるように第1のモータ23を制御する。
10)特別な感情発話や特別ではない感情発話と様々な対話に応じて、様々なジェスチャー、例えば頭部5をなんどか左右方向(時計回りと反時計回り)にや前後に回動させたり、それと可動部3全体を左右に回動させたり、大きく回動させたり小さくうなづくように回動させたりを組み合わせてもよい。
このロボット1のジェスチャーは以下のタッチパネル部7(顔面部6)における表示と組み合わせるとよい。
『6.対話時のロボット1の所作について における効果その1』
ロボット1にこれらのようなジェスチャーをさせることで、ユーザーはロボット1に親しみを覚えることとなり、ロボット1との対話を楽しむと同時にロボット1と積極的に触れ合う楽しみを覚えることになる。
6. Actions of the Robot 1 During Dialogue The controller MC performs the following a. ~D. Performs control of actions such as
stomach. Gestures of the robot 1 in startup-natural dialogue mode-standby mode The controller MC controls the first to third motors 23 to 25 at the following various timings of the robot 1 to change the posture of the robot 1. The following is an example.
1) At start-up: When the face part 6 of the head 5 is not facing the front or when the head 5 is tilted, it is moved to the front default position.
2) When the screen is touched: Same as 1) (to face the face recognition camera 10 facing the user in face recognition)
3) When the trigger utterance "Hey Yupibo" occurs: Same as 1) (to face the face recognition camera 10 in face recognition facing the user)
4) When detecting the voice direction: turn the face part 6 of the head 5 in that direction.
5) As a special emotional utterance, for example, when happy: The third motor 25 is controlled to rotate the head 5 left and right (clockwise and counterclockwise) with the face 6 facing the user.
6) As a special utterance, for example, in the case of being sad: the head 5 is nodded and kept still for a while, and then the second motor 24 is controlled to return to the default position.
7) Emotion is an utterance, for example, when a greeting utterance such as "good morning", "hello", "good evening", and "hello" occurs: the second motor 24 is controlled so that the head 5 bows.
8) As non-special emotional utterances, when utterances of simple positive communication terms such as "Soka", "Understood", "Sure", "Yeah!" The second motor 24 is controlled as follows. In 6 to 8), the speed and time of the second motor 24 should be changed so that sadness, bowing, and nodding are different.
9) When utterances of simple negative communication terms such as "No", "I can't", "No" are generated as non-special emotional utterances: Rotate the movable part 3 left and right several times. The first motor 23 is controlled as follows.
10) In response to special emotional utterances and non-special emotional utterances and various dialogues, various gestures, such as turning the head 5 in left and right directions (clockwise and counterclockwise), forward and backward, In combination with this, the entire movable portion 3 may be rotated left and right, rotated largely, or rotated in a slightly nodding motion.
This gesture of the robot 1 may be combined with the display on the touch panel section 7 (face section 6) described below.
"6. Effect 1 on the actions of robot 1 during dialogue”
By causing the robot 1 to make such gestures, the user will feel familiarity with the robot 1, and will enjoy interacting with the robot 1 and at the same time will feel the enjoyment of actively interacting with the robot 1. - 特許庁

ロ.顔画面S1の状態での表示態様の変化
1)ユーザーから発話がされている場合
コントローラMCはユーザーの発話をマイクロフォン12から取得してこれを認識すると、タッチパネル部7の図5に示すような顔画面S1において楕円領域29を青色表示としてユーザーの発話音量に応じてその領域の面積(つまり大きさ)を変化させるアニメーション表示をする。具体的にはコントローラMCは、ユーザーの発話の音量が大きくなると楕円領域29は楕円形状を保ったまま拡大させ、音量が小さくなると楕円形状を保ったまま縮小させる。また、ほっぺオブジェクト28を緑色で表示させる。
B. Changes in the display mode in the state of the face screen S1 1) When the user is speaking On the screen S1, an elliptical area 29 is displayed in blue, and an animation is displayed in which the area (that is, the size) of that area is changed according to the user's speech volume. Specifically, the controller MC expands the elliptical area 29 while maintaining the elliptical shape when the volume of the user's speech increases, and reduces the elliptical shape while maintaining the elliptical shape when the volume decreases. Also, the cheek object 28 is displayed in green.

また、コントローラMCは、クラウドサーバーからレスポンスされたユーザーの発話データ(文字列データ)を所定の態様でタッチパネル部7に表示させる。
例えば、図5に示すように、タッチパネル部7が顔画面S1の場合に、ユーザーからの例えば「こんにちは」という発話を取得すると、コントローラMCは顔画面S1のレイヤ
ー画面にこの発話に基づく「こんにちは」という文字列を表示させる。順序としてはユーザーの発話の返答となるロボット1の発話よりも先にこの表示が開始される。
表示態様としては、例えば顔画面S1を図10(a)から図10(b)のように透明な状態から徐々に不透明になるように表示させ、最後に図10(c)のように背後の顔画面S1を完全に隠すようにする。つまり、徐々に文字列を表示させていくようにする。この文字列だけを暗い背景に対して文字部分だけを明るく表示させた図10(c)の状態をごくわずかな一定時間停止表示させた後に、今度は逆に文字列を表示したレイヤー画面を図10(c)→図10(b)→図10(a)というように徐々に消していき、デフォルト状態である顔画面S1に戻すようにする。このとき、一回の発話での文字列はすべて同時に現れてきて同時に消失していくように表示される。この表示態様は一例であり、異なる態様で表示させるようにしてもよい。
『6.対話時のロボット1の所作について における効果その2』
これによってユーザーは自分の発した言葉をロボット1上で目で見ることができるため、ロボット1が正しく聞き取ったかどうかを確認でき、対話が間違いなく行われているかを判断でき、おかしな的外れな対話にならないように対話を導くことができる。また、的外れな会話はついイライラしてしまうが、確認することでその理由もわかるため、しゃべり方を変えて再度対話を試みることもできる。
また、ユーザーの発話データはビルトインシナリオの対象も通常対話の対象もすべてクラウドサーバーに一旦文字列データすることをリクエストするため、文字列データ化の前提処理に手間取らず、また、このような文字列データ後に初めて対話エンジンによる返答データの作成がリクエストされることとなるため、ユーザーの発話のタッチパネル部7の表示は少なくともロボット1の返答データによる発話より前に行うことができ、対話の順序を間違うおそれがない。
Further, the controller MC causes the touch panel unit 7 to display the user's utterance data (character string data) responded from the cloud server in a predetermined manner.
For example, as shown in FIG. 5, when the touch panel unit 7 is the face screen S1, when an utterance such as "Hello" is obtained from the user, the controller MC displays "Hello" based on this utterance on the layer screen of the face screen S1. display the string. In terms of order, this display is started before the robot 1's utterance, which is a reply to the user's utterance.
As a display mode, for example, the face screen S1 is displayed so as to gradually become opaque from a transparent state as shown in FIGS. The face screen S1 is completely hidden. That is, the character string is gradually displayed. After stopping and displaying the state of FIG. 10(c) in which only the character string is displayed brightly against the dark background for a very short period of time, the layer screen displaying the character string is shown in reverse. 10(c)→FIG. 10(b)→FIG. 10(a), and returns to the default face screen S1. At this time, all the character strings in one utterance appear at the same time and disappear at the same time. This display mode is an example, and may be displayed in a different mode.
"6. Effect 2 on the actions of robot 1 during dialogue”
As a result, the user can visually see his or her own words on the robot 1, so that the user can check whether the robot 1 has heard correctly, judge whether the dialogue is correct, and prevent strange and irrelevant dialogue. It is possible to guide the dialogue so that it does not happen. In addition, irrelevant conversations tend to irritate people, but by confirming them, they can understand why, so they can change their way of speaking and try again.
In addition, since the user's utterance data, whether the object of the built-in scenario or the object of normal dialogue, is requested to the cloud server to be converted into character string data once, it does not take much time to process the character string data. Since the creation of response data by the dialogue engine is requested only after the column data, the display of the user's utterance on the touch panel section 7 can be performed at least before the utterance of the response data by the robot 1, and the order of dialogue can be changed. You can't go wrong.

ユーザーからの発話を文字列とする場合、その長さは発話に応じて異なるため同じではない。また、単語ではなく文節がある「文」となっている場合にはかなり長くなる場合もある。コントローラMCはそのように長い文の発話である場合でも、一回の発話の内容がタッチパネル部7にすべて同時に表示されるように文字列のフォントの大きさを調整する。つまり、一回の発話が短ければ大きなフォントで、一回の発話が長くなるほど相対的に小さなフォントで表示させる。
『6.対話時のロボット1の所作について における効果その3』
これによって、ユーザーがどのような発話をしても、一回の目視で確認できるため、全文が現れるまで対話を中断しにくく、次のユーザーからの発話とかぶりにくくなる。また、一回の発話が一度に同時に現れるため、文全体を一挙に理解できることとなり、表示される時間が短くともユーザーは十分理解できることとなる。また、タッチパネル部7全体に文字列が展開されるため、字の1つ1つを大きく表示できユーザーにとって見やすくなっており、ごく短い表示時間であっても十分確認できるようになっている。
When the user's utterance is used as a character string, the length varies depending on the utterance, so they are not the same. In addition, it may become quite long when it is a "sentence" with clauses instead of words. The controller MC adjusts the font size of the character string so that the contents of one utterance are all displayed on the touch panel unit 7 at the same time even if the utterance is such a long sentence. In other words, the shorter the utterance, the larger the font, and the longer the utterance, the smaller the font.
"6. Effect 3 on the actions of robot 1 during dialogue”
As a result, any utterance by the user can be confirmed with one eye, making it difficult for the user to interrupt the dialogue until the full sentence appears, making it difficult for the user to overlap with the next utterance. In addition, since one utterance appears at the same time, the entire sentence can be understood at once, and the user can fully understand even if the display time is short. In addition, since the character string is developed over the entire touch panel portion 7, each character can be displayed in a large size, making it easy for the user to see, and the user can sufficiently confirm even if the display time is very short.

2)ロボット1から発話がされている場合
タッチパネル部7の図5に示すような顔画面S1において楕円領域29を赤色表示としてロボットの発話音量に応じてその領域の面積(つまり大きさ)を変化させるアニメーション表示をする。具体的にはコントローラMCは、スピーカ装置13からの出力レベルが大きくなると楕円領域29は楕円形状を保ったまま拡大させ、音量が小さくなると楕円形状を保ったまま縮小させる。また、ほっぺオブジェクト28を薄い赤色で表示させる。
『6.対話時のロボット1の所作について における効果その4』
このように、ユーザーとロボット1との交互の対話に応じて顔画面S1における表示態様が異なることとなり、実際の対話だけでなく画面においても交互に行われるというおもしろさがあり、会話がはずむことになる。
2) When the robot 1 is speaking On the face screen S1 as shown in FIG. 5 of the touch panel unit 7, an elliptical area 29 is displayed in red, and the area (that is, the size) of that area is changed according to the speech volume of the robot. Animate display. Specifically, the controller MC expands the elliptical area 29 while maintaining its elliptical shape when the output level from the speaker device 13 increases, and reduces it while maintaining its elliptical shape when the volume decreases. Also, the cheek object 28 is displayed in light red.
"6. Effect 4 on the actions of robot 1 during dialogue”
In this way, the display mode on the face screen S1 changes according to the alternating dialogue between the user and the robot 1, and it is interesting that not only the actual dialogue but also the dialogue takes place alternately on the screen, and the conversation is lively. become.

ハ.チャット画面S2の表示態様の変化
図6及び図8に基づいてタッチパネル部7のチャット画面S2の対話に伴う表示態様について説明する。上記のようにユーザーの操作によって顔画面S1からチャット画面S2へと表示が変わる。
まず、改めてチャット画面S2の構成について説明する。
図6に示すように、チャット画面S2の左寄り下側位置にはアバターキャラクターとしてユーザーオブジェクト31が、右寄り下側位置には同じくロボットオブジェクト32が対向するように配置されて表示されている。ユーザーオブジェクト31は後述する顔認識モードで認識された認証されたユーザー毎あるいは認証のないユーザにおいて異なるオブジェクトが用意され、現在対話しているユーザーに応じてそれぞれ異なるオブジェクトが表示される。中央寄り領域にはユーザー側とロボット1側の対話内容を文字列化して配置した吹き出しオブジェクト33が時間軸に沿って順に表示されている。チャット画面S2の左寄り上側位置には対話停止ボタンオブジェクト34が表示されている。チャット画面S2の右寄り上側位置には設定ボタンオブジェクト35が表示されている。
c. Change in Display Mode of Chat Screen S2 The display mode of the chat screen S2 of the touch panel unit 7 accompanying interaction will be described with reference to FIGS. 6 and 8. FIG. As described above, the display changes from the face screen S1 to the chat screen S2 according to the user's operation.
First, the configuration of the chat screen S2 will be explained again.
As shown in FIG. 6, a user object 31 as an avatar character is displayed on the lower left side of the chat screen S2, and a robot object 32 is displayed on the lower right side so as to face each other. A different user object 31 is prepared for each authenticated user recognized in a face recognition mode, which will be described later, or for an unauthenticated user, and different objects are displayed according to the currently interacting user. Balloon objects 33 in which the contents of the dialogue between the user side and the robot 1 side are converted into character strings and arranged are displayed in order along the time axis in the central region. A dialogue stop button object 34 is displayed in the upper left position of the chat screen S2. A setting button object 35 is displayed on the upper right side of the chat screen S2.

チャット画面S2ではユーザー側とロボット1側の対話に応じて刻々と吹き出しオブジェクト33が追加されるように表示される。吹き出しオブジェクト33には文字列データ化されたユーザーの発話内容と、同じく文字列データ化されたロボット1の発話内容が時間軸に沿って一列に表示されてチャット画面S2上に表示可能とされ、直近の発話内容は新たな吹き出しオブジェクト33内にその発話と同期して過去の吹き出しオブジェクト33列の最も下側に表示される。
吹き出しオブジェクト33はユーザー側の発話内容かロボット1側の発話内容かわかるように発話方向が示されている。すべての対話履歴を一度に画面表示できないためチャット画面S2は上下方向にスクロール可能な画面構成とされ、過去に遡って吹き出しオブジェクト31を表示させることができる。過去に遡らない場合には常に直近の対話の吹き出しオブジェクト33が表示される。
本実施の形態1では一旦対話が終了して待ち受けモードとなった後に、対話が再開され、その際に後述する顔認識モードで改めて認識されたユーザーが変更された場合には、吹き出しオブジェクト33列の途中に「ユーザー交替」の表示がされ、ユーザーオブジェクト31が改めて認識されたユーザーに応じて違うユーザーオブジェクト31が表示される。
The chat screen S2 is displayed such that balloon objects 33 are added moment by moment according to the dialogue between the user side and the robot 1 side. In the balloon object 33, the character string data of the user's utterance content and the character string data of the robot 1 utterance content are displayed in a row along the time axis and can be displayed on the chat screen S2. The content of the most recent speech is displayed in the new speech balloon object 33 at the bottom of the row of past speech balloon objects 33 in synchronism with the speech.
The speech balloon object 33 indicates the speech direction so that the content of speech on the user side or the content of speech on the robot 1 side can be identified. Since all dialogue histories cannot be displayed on the screen at once, the chat screen S2 has a vertically scrollable screen configuration, and the balloon object 31 can be displayed retroactively. When not going back in time, the balloon object 33 of the most recent dialogue is always displayed.
In the first embodiment, after the dialogue is temporarily terminated and the standby mode is set, the dialogue is resumed, and at that time, if the user recognized again in the face recognition mode described later is changed, the balloon object 33 column "Change user" is displayed in the middle of , and a different user object 31 is displayed according to the user whose user object 31 is recognized again.

また、チャット画面S2の対話停止ボタンオブジェクト34をタッチすることで、対話はユーザーによって能動的に中断され、待ち受けモードとなる。この場合には図6に代わって図8のチャット画面S2の待ち受け画面が表示されることとなるが、対話停止ボタンオブジェクト34に位置には対話開始ボタンオブジェクト36が代わって表示される。再び自然対話モードにする場合には対話開始ボタンオブジェクト36をタッチすることで図6のチャット画面S2に戻ることができる。
『6.対話時のロボット1の所作について における効果その5』
このように対話する関係にあるユーザーのユーザーオブジェクト31とロボット1のロボットオブジェクト32とが対向するように配置され、その間に対話した吹き出しオブジェクト33が並ぶことでいかにも対話しているような感覚をチャット画面S2から受けることができる。
また、過去のチャット履歴を後から確認することもできるため日記代わりにチャット利用をすることができる。また、だれがどのような対話をしたかもわかるため、家族でだれがよく利用しているか等といったデータを確認することもできる。「ユーザー交替」という表示がされるので、そこで一旦対話が途切れていることがわかり、過去の履歴を読んだ際の混乱がない。
Further, by touching the dialogue stop button object 34 on the chat screen S2, the dialogue is actively interrupted by the user, and the standby mode is entered. In this case, the standby screen of the chat screen S2 of FIG. 8 is displayed instead of FIG. When switching to the natural dialogue mode again, by touching the dialogue start button object 36, it is possible to return to the chat screen S2 of FIG.
"6. Effect 5 on the actions of robot 1 during dialogue”
In this manner, the user object 31 of the user and the robot object 32 of the robot 1, which are in a relationship of dialogue, are arranged so as to face each other, and the conversation balloon objects 33 are lined up between them, giving the feeling of having a conversation. It can be received from the screen S2.
In addition, past chat history can be checked later, so chat can be used instead of a diary. In addition, since it is possible to know who had what type of conversation, it is possible to check data such as which family member frequently uses the system. Since "user change" is displayed, it can be understood that the dialogue has been interrupted, and there is no confusion when reading the past history.

ニ.通常対話における特別な所作
通常対話においてクラウドサーバーはユーザーの発話データ内に特定の言葉が含まれて
いると判断した場合に特別な所作を実行させるようなコマンドを文字列データとともにレスポンスする。コントローラMCはそのコマンドによって上記の画面表示プログラムやジェスチャープログラムや対話プログラムに基づいて、例えば次のような具体的な所作を実行させる。以下の制御は一例であり、他の所作となるように制御をさせてもよく、ユーザーの発話中にコマンドが複数あれば連続又は同時に所作を行うように制御してもよい。以下の特別な所作はそれぞれ別個でもよく、組み合わせるように実行されてもよい。上記の「6.対話時のロボット1の所作について」のイ.におけるロボット1のジェスチャーに代わって下記の表示部での表示をしてもよく、下記の表示部での表示を適宜組み合わせるようにしてもよい。
D. Special Actions in Regular Dialogues In regular conversations, when the cloud server determines that a specific word is included in the user's utterance data, it responds with a command to execute a special gesture along with character string data. The controller MC causes the following specific actions, for example, to be executed based on the above screen display program, gesture program, and dialogue program according to the command. The following control is an example, and it may be controlled to perform other actions, or if there are multiple commands during the user's speech, the actions may be performed continuously or simultaneously. Each of the following special actions may be performed separately or in combination. Regarding the behavior of the robot 1 during dialogue, b. Instead of the gestures of the robot 1 in , the following display units may be displayed, or the following display units may be combined as appropriate.

1)通常の人同士の会話で否定的な表現がユーザーから発話された場合には、ロボット1側の発話と同時にタッチパネル部7の表示を図9(a)の通常の目から図9(b)の怒った目のオブジェクトに変化するアニメーション表示をさせる。本実施の形態では目のオブジェクトはメモリに記憶されている。
2)通常の人同士の会話で楽しくなるような表現がユーザーから発話された場合には、ロボット1側の発話と同時にタッチパネル部7の表示を図9(a)の通常の目から図9(c)の笑った目のオブジェクトに変化するアニメーション表示をさせる。本実施の形態では目のオブジェクトはメモリに記憶されている。
3)通常の人同士の会話で悲しくなるような表現がユーザーから発話された場合には、ロボット1側の発話と同時にタッチパネル部7の表示を図9(a)の通常の目から図9(d)の悲しそうな目のオブジェクトに変化するアニメーション表示をさせる。本実施の形態では目のオブジェクトはメモリに記憶されている。
4)ユーザーの子供の名前がユーザーから発話された場合には、ロボット1の頭部5がうなずくようなジェスチャー動作をするように第2のモータ24を制御する。本実施の形態では目ジェスチャー用のプログラムはメモリに記憶されている。
5)ロボット1を製造している会社名がユーザーから発話された場合には、ロボット1の頭部5が前後左右に動くと同時に胴部4が固定部2に対してなんども揺動を繰り返すようなジェスチャー動作をするように第1~第3のモータ23~25を制御する。同時にその会社名のテキストデータを音声合成して、音声としてスピーカ装置13から会社名を連呼させる。本実施の形態ではジェスチャー用のプログラムはメモリに記憶されている。
『6.対話時のロボット1の所作について における効果その6』
これらのような特別な所作が行われることで、ユーザーは対話と同時にロボット1の思わぬ所作を期待することができ、ロボット1との対話を積極的に楽しむことができる。
1) When the user utters a negative expression in a normal conversation between people, the display on the touch panel unit 7 is changed from the normal eye in FIG. 9A to FIG. ) to animate the angry eyes object. In this embodiment, the eye object is stored in memory.
2) When the user utters an expression that makes normal conversation between people enjoyable, the display on the touch panel unit 7 is changed from the normal eyes of FIG. 9A to FIG. Animate the smiling eye object of c) to change. In this embodiment, the eye object is stored in memory.
3) When the user utters an expression that makes him sad in a normal conversation between people, the display on the touch panel unit 7 is changed from the normal eyes of FIG. d) Animate the sad eye object. In this embodiment, the eye object is stored in memory.
4) When the name of the user's child is uttered by the user, the second motor 24 is controlled so that the head 5 of the robot 1 makes a nodding gesture. In this embodiment, a program for eye gestures is stored in memory.
5) When the user speaks the name of the company that manufactures the robot 1, the head 5 of the robot 1 moves back and forth, left and right, and at the same time the body 4 repeatedly swings with respect to the fixed part 2. The first to third motors 23 to 25 are controlled so as to perform such gesture motions. At the same time, text data of the company name is voice-synthesized, and the company name is repeatedly called from the speaker device 13 as voice. In this embodiment, the program for gestures is stored in the memory.
"6. Effect 6 on the behavior of robot 1 during dialogue”
By performing such special actions, the user can anticipate unexpected actions of the robot 1 at the same time as the dialogue, and can positively enjoy the dialogue with the robot 1 .

B.顔認識時の動作内容について
1.顔認識モードの開始と停止
コントローラMCは顔認識プログラムを実行することによってユーザーの顔の認識及び認証をする。顔認識プログラムでは取得した画像を顔パターン認識することによって人の顔と認識し、かつ認識された顔の様々な位置を数値化して記憶することで過去に登録された顔の数値データとの一致度を判断して認証を行う。コントローラMCは自然対話モードと同期して顔認識モードとし、待ち受けモードから自然対話モードに移行する度に顔認証を実行する。
B. About the operation contents at the time of face recognition 1. Starting and Stopping Face Recognition Mode The controller MC recognizes and authenticates the user's face by executing a face recognition program. The face recognition program recognizes the acquired image as a human face by recognizing face patterns, and by digitizing and storing the various positions of the recognized face, it matches the numerical data of the face registered in the past. Authentication is performed by judging the degree. The controller MC sets the face recognition mode in synchronization with the natural dialogue mode, and executes face recognition each time the standby mode is switched to the natural dialogue mode.

顔認識モードではコントローラMCは顔認識用カメラ10を使用してユーザーの顔認識を行う。具体的には、
1)顔認識用カメラ10を起動させる。顔認識用カメラ10に写ったユーザーの顔画像をタッチパネル部7に表示させる(顔表示モード)。つまり、ユーザーにタッチパネル部7上の自分の顔を見るように促す。これによって顔認識処理が可能となり、このようにプレビューさせることで過去に認証された人かどうかを判断できる。
2)1)で顔認識用カメラ10が顔を撮影できず、一定時間内に顔認識ができなかった場
合には、第3のモータ25を駆動させて頭部5を上下に揺動させる。つまり顔認識用カメラ10に縦方向をスキャンさせる。そして、そのように顔認識用カメラ10を縦方向にスキャンさせながら第1のモータ23を駆動させて顔認識用カメラ10を360度一周回転させながら顔認識動作をさせる。
3)1)又は2)で顔認識できた場合には認証を行う。既に登録されたユーザーであれば対話において特定の認証されたユーザーのデータを利用して上記自然対話モードとする。登録されていないユーザーであれば不特定の人物として認識して上記自然対話モードとする。タッチパネル部7は顔表示モードから直前の顔画面S1(図5)かチャット画面S2(図6)のいずれかに復帰する。
4)2)において顔認識ができなかった場合には人を認識できなかったとして顔認識モードとともに自然対話モード自体を終了させて待ち受けモードとする。タッチパネル部7は顔表示モードから直前の待ち受けモードである顔画面S1の待ち受け画面(図7)かチャット画面S2の待ち受け画面(図8)のいずれかに復帰する。
『1.顔認識モードの開始と停止 における効果』
対話は相手の顔を見ながら話すのが基本であるため、顔が認識できない場合には対話をさせないことで、積極的にユーザーに顔認識をさせるようにしたため、対話においてはロボット1と実際に面と向かわないと対話はできず、そのためユーザーは実際に対話をしているような感覚を得ることができる。
In the face recognition mode, the controller MC uses the face recognition camera 10 to recognize the user's face. In particular,
1) Activate the face recognition camera 10 . The user's face image captured by the face recognition camera 10 is displayed on the touch panel section 7 (face display mode). That is, the user is urged to look at his/her own face on the touch panel section 7 . This enables face recognition processing, and by previewing in this way, it is possible to determine whether the person has been authenticated in the past.
2) If the face recognition camera 10 cannot photograph the face in 1) and the face cannot be recognized within a certain period of time, the third motor 25 is driven to swing the head 5 up and down. That is, the face recognition camera 10 is caused to scan in the vertical direction. While scanning the face recognition camera 10 in the vertical direction, the first motor 23 is driven to rotate the face recognition camera 10 by 360 degrees to perform face recognition operation.
3) Perform authentication when the face is recognized in 1) or 2). If the user is already registered, the natural dialogue mode is set using the data of the specific authenticated user in the dialogue. If the user is not registered, the user is recognized as an unspecified person, and the natural dialogue mode is set. The touch panel unit 7 returns from the face display mode to either the previous face screen S1 (FIG. 5) or the chat screen S2 (FIG. 6).
4) If the face cannot be recognized in 2), the face recognition mode and the natural dialogue mode itself are ended as the person cannot be recognized, and the standby mode is set. The touch panel unit 7 returns from the face display mode to either the standby screen of the face screen S1 (FIG. 7) or the standby screen of the chat screen S2 (FIG. 8), which is the standby mode immediately before.
"1. Effect on Starting and Stopping Face Recognition Mode”
In dialogue, it is basic to talk while looking at the face of the other party, so if the face cannot be recognized, the dialogue is not allowed. You can't interact without face-to-face, so users can get the feeling that they are actually interacting.

2.顔認識時のロボット1の所作について
1)顔認識後においてはコントローラMCは顔認識用カメラ10に画像を取得させて一定のタイミングで常時顔パターン認識を実行する。そして、顔認識用カメラ10の画角内でユーザーの顔を認識し、画角内の所定の位置、例えば画角中央の原点にユーザーの顔の2つの目の中央位置Cがある状態をデフォルト位置とする。コントローラMCはこのデフォルト位置から中央位置Cがずれた場合に、そのずれ量に応じて左右いずれかのずれ方向に瞳オブジェクト27aが移動するようなアニメーション表示をさせる。通常、瞳オブジェクト27aは、例えば図9(a)のように目オブジェクト27の中で白目内に楕円形状として全体が現れているが、ユーザーの顔が移動しているある状態では図11に示すように瞳オブジェクト27aはあたかもその方向を見ているように一部が隠れた目オブジェクト27として表示されることとなる。
ユーザーが動いて顔認識用カメラ10の画角から顔が出てしまい顔認識できなくなった場合には、コントローラMCは第1のモータ23を駆動させ、中央位置Cがずれた方向に可動部3全体を回動させて顔認識用カメラ10を向けるよう制御する。顔認識がされた段階で第1のモータ23の駆動を停止させる。ある程度の回動、例えば可動部3全体を45度回動させても顔認識がされない場合には、その段階でコントローラMCは第1のモータ23の駆動を停止させ、その状態で常時顔パターン認識を継続する。
『2.顔認識時のロボット1の所作について における効果』
これによって、ユーザーはロボット1にいつも見られながら対話をしているような感覚になり、対話のおもしろさが増すこととなる。
2. Actions of the Robot 1 During Face Recognition 1) After face recognition, the controller MC causes the face recognition camera 10 to acquire an image and always executes face pattern recognition at a constant timing. Then, the user's face is recognized within the angle of view of the face recognition camera 10, and the default state is the center position C of the two eyes of the user's face at a predetermined position within the angle of view, for example, the origin at the center of the angle of view. position. When the center position C deviates from the default position, the controller MC displays an animation such that the pupil object 27a moves in either the left or right direction according to the amount of deviation. Normally, the pupil object 27a generally appears as an ellipse in the white of the eye in the eye object 27 as shown in FIG. 9(a). Thus, the pupil object 27a is displayed as the partially hidden eye object 27 as if looking in that direction.
When the user moves and the face is out of the angle of view of the face recognition camera 10 and the face cannot be recognized, the controller MC drives the first motor 23 to move the movable part 3 in the direction in which the center position C is displaced. Control is performed so that the whole is rotated and the face recognition camera 10 is directed. The driving of the first motor 23 is stopped when the face is recognized. When the face is not recognized even after a certain amount of rotation, for example, by rotating the entire movable part 3 by 45 degrees, the controller MC stops the driving of the first motor 23 at that stage, and face pattern recognition is always performed in that state. to continue.
"2. Effect on behavior of robot 1 during face recognition”
As a result, the user feels as if he or she is having a conversation while being watched by the robot 1 all the time, which makes the conversation more interesting.

2)コントローラMCは顔認識用カメラ10で常時顔パターン認識を実行するが、ユーザが動いていたり顔認識用カメラ10の画角内にいなかったりする場合には顔認識ができない。そのため、顔認識状態を画面上の変化としてユーザーに報知することがよい。実施の形態1では、瞳オブジェクト27a内部の瞳上での反射を表現した鎌状の反射オブジェクト27bの色の濃さの変化で顔認識状態を報知するようにしている。本実施の形態1では、コントローラMCは認識されていない場合にはごく薄い青色で表示させ、認識中である状態ではそれより濃く、通常の顔認識されている状態では濃い青色で表示させる。
『2.顔認識時のロボット1の所作について における効果その2』
これによって、ユーザーはロボット1に顔認識されているかいないかが容易にわかるため、積極的に顔認識するようにユーザーは協力するようになり、円滑な対話が進むことと
なる。
2) The controller MC always performs face pattern recognition with the face recognition camera 10, but when the user is moving or out of the angle of view of the face recognition camera 10, face recognition cannot be performed. Therefore, it is preferable to inform the user of the face recognition state as a change on the screen. In Embodiment 1, the state of face recognition is notified by a change in the color depth of a sickle-shaped reflection object 27b expressing reflection on the pupil inside the pupil object 27a. In the first embodiment, the controller MC displays the face in very light blue when the face is not recognized, in darker blue when the face is being recognized, and in dark blue when the face is normally recognized.
"2. Effect 2 on behavior of robot 1 during face recognition”
As a result, the user can easily know whether or not the robot 1 recognizes the face, so that the user actively cooperates with the robot 1 in recognizing the face, and the conversation progresses smoothly.

C.留守設定時の動作について
実施の形態1では留守設定モード、つまり留守設定時に登録したeメールに対して画像の転送が可能である。留守設定モードは本実施の形態1ではユーザーがロボット1のチャット画面S2の設定ボタンオブジェクト35をタッチした後に表示される設定画面において設定とその解除がされる。以下では留守設定モードがされている場合のコントローラMCの留守設定時プログラムに基づく処理について説明する。
コントローラMCは、留守設定モードにおける上記の「2.自然対話モードの開始と停止」におけるB.の4)での待ち受けードにおいて、ドップラーセンサ22によって物体(人)が動いていると判断すると以下のように制御する。
C. Operation when setting to be absent In the first embodiment, images can be transferred to an e-mail registered in an answering setting mode, that is, when setting to be absent. In the first embodiment, the absence setting mode is set and canceled on the setting screen displayed after the user touches the setting button object 35 on the chat screen S2 of the robot 1. FIG. In the following, processing based on the absence setting program of the controller MC when the absence setting mode is set will be described.
The controller MC performs B. in the above "2. Start and stop of the natural dialogue mode" in the absence setting mode. In the waiting mode of 4), when the Doppler sensor 22 determines that an object (person) is moving, the following control is performed.

1)コントローラMCは、ロボット1の周囲になんらかの動く物体が存在することで、この状態をユーザーにeメールによって報知をする。コントローラMCはインターネット回線を通じてeメールアドレスが登録されているロボット1の近くにいないユーザー(以下、外部ユーザーとする)の端末装置、例えばスマートフォンに対してロボット1のクラウドサーバーのURLをeメールに記載して送る。eメールの件名や送信文中にこの報知の意図のわかるような表現を表記をする。例えば「誰かが来ているようです」のような文章やそれを意味するようなアイコン等である。
『C.留守設定時の動作について における効果』
これによって、まずeメールが送られて来たことによって外部ユーザーはなんらかのロボット1周囲に物体(人)が動いる状態が報知されて認識することができ、この状態に対して外部ユーザーに対策をとる機会が与えられることとなる。
1) The controller MC notifies the user of the presence of some moving object around the robot 1 by e-mail. The controller MC writes the URL of the cloud server of the robot 1 in an e-mail to a terminal device, for example a smartphone, of a user who is not near the robot 1 (hereafter referred to as an external user) whose e-mail address is registered via the Internet line. and send. The subject of the e-mail and the sent text should include an expression that indicates the intention of this notification. For example, it is a sentence such as "Someone seems to be coming" or an icon representing it.
"C. About the operation when you are away, the effect of
As a result, the external user is notified of the state in which an object (person) is moving around the robot 1 by first receiving the e-mail, and can recognize the state, and the external user can take countermeasures against this state. You will be given the opportunity to take

2)コントローラMCは、外部ユーザーにeメールを送信すると同時に顔認識用カメラ10を起動させて画像を取得する。
3)コントローラMCは、外部ユーザーにeメールを送信すると同時に、一定時間内にあるトリガーとなる発話があるかどうかを判断する。例えば「ただいまユピ坊」のような挨拶の発話である。この発話に基づいて自然対話モードにおけるビルトインシナリオが開始され、ユーザー(ここでは「ただいまユピ坊」を発話したロボット1の近くにいる者)に顔認証を促す。コントローラMCは顔認証の結果、登録されているユーザーの一人であると判断した場合に、外部ユーザーの端末装置に対して二回目となるeメールを送信する。このeメールはロボット1の周囲にいる者は不審者ではないという外部ユーザーに対する情報となる。つまり、二回目のeメールは例えば家族のような関係者であることを報知するものとなる。eメールには登録情報に基づいて登録されているユーザーの名前を情報として件名や送信文中に表記する。尚、トリガーとして発話以外の、例えばタッチパネル部7にタッチして顔認識し、登録ユーザーであることを確認してもよい。
『C.留守設定時の動作について における効果その2』
これによって、留守中に例えば子供等の家族が帰ってきた場合には、この二回目のeメールによってその旨がわかるため、わざわざスマートフォン経由で留守中の家の様子を確認する必要がない。
2) The controller MC sends an e-mail to the external user and at the same time activates the face recognition camera 10 to acquire an image.
3) The controller MC sends an e-mail to the external user and at the same time determines whether there is a certain triggering utterance within a certain period of time. For example, it is a greeting utterance such as "I'm home, Yupi-bo." Based on this utterance, a built-in scenario in the natural dialogue mode is started, prompting the user (here, a person near the robot 1 who uttered "I'm home, Yupibo") to perform face recognition. When the controller MC determines that the user is one of the registered users as a result of face authentication, it sends a second e-mail to the terminal device of the external user. This e-mail serves as information for the external user that the person around the robot 1 is not a suspicious person. In other words, the second e-mail notifies that the person is a related person, such as a family member. In the e-mail, the name of the user registered based on the registration information is written as information in the subject or in the text to be sent. It should be noted that the registered user may be confirmed by, for example, touching the touch panel portion 7 to recognize the face as a trigger other than the utterance.
"C. Effect 2 on the behavior when set to be away』
As a result, when a family member such as a child returns while the user is away, the second e-mail informs the user of the fact, so there is no need to check the state of the house during the absence via the smartphone.

4)1)において、eメールを受信した外部ユーザーは、特に3)において二回目のeメールの送信がなかった場合に、ロボット1のIDとパスワードを入力してクラウドサーバーに接続し、スマートフォンのブラウザ上でクラウドサーバーが提供する顔認識用カメラ10のカメラ画像をリアルタイムで見ることができる。二回目のeメールの送信があってもそれは可能である。
図12はユーザーのスマートフォン41の一例であり、クラウドサーバーに接続後においてはタッチパネルを兼ねたその表示画面43上に顔認識用カメラ10の所定のカメラ画像が表示される。カメラ画像内には顔認識用カメラ10の向きを遠隔操作するための4つ
の操作アイコン44a~44dが表示される。外部ユーザーは操作アイコン44a~44dを操作することで制御コマンドがクラウドサーバーを介してコントローラMCに出力され、制御コマンドに基づいて第1のモータ23又は第3のモータ25が駆動制御されてロボット1の頭部5と胴部4が回動して顔認識用カメラ10の向きを変えることができる。また、録画ボタンアイコン45にタッチすることで、録画を開始し再度タッチすることで録画を停止することができる。
また、スマートフォン41の図示しないマイクロフォンに発話した音声データはクラウドサーバーを介してロボット1のスピーカー装置13から音声出力され、一方でロボット1のマイクロフォン12から発話した音声データはクラウドサーバーを介してスマートフォン41の図示しないスピーカー装置から音声出力される。そのため、外部ユーザーは顔認識用カメラ10の画像を見ながらロボット1近傍のユーザーとスマートフォン41とロボット1を使用した対話をすることができる。
『C.留守設定時の動作について における効果その3』
これによって、外部ユーザーは遠隔操作で顔認識用カメラ10の向きを変えてロボット1の周囲の状況を確認することができ、例えば留守の際の自宅の安全状況をチェックすることができる。また、留守中に子供等の家族が帰ってきた場合でもこのようにスマートフォンを使用して積極的に外部から連絡することで家族を含めた他者との良好な関係に寄与する。
4) The external user who received the e-mail in 1) enters the ID and password of the robot 1 to connect to the cloud server, especially when the second e-mail is not sent in 3), and accesses the smartphone. The camera image of the face recognition camera 10 provided by the cloud server can be viewed in real time on the browser. It is possible even after sending the e-mail a second time.
FIG. 12 shows an example of a user's smart phone 41. After connecting to the cloud server, a predetermined camera image of the face recognition camera 10 is displayed on its display screen 43, which also serves as a touch panel. Four operation icons 44a to 44d for remotely controlling the direction of the face recognition camera 10 are displayed in the camera image. By operating the operation icons 44a to 44d by the external user, a control command is output to the controller MC via the cloud server. The direction of the face recognition camera 10 can be changed by rotating the head 5 and the body 4 of the face. Further, by touching the record button icon 45, recording can be started, and by touching it again, recording can be stopped.
Voice data spoken to a microphone (not shown) of the smartphone 41 is output from the speaker device 13 of the robot 1 via the cloud server, while voice data spoken from the microphone 12 of the robot 1 is sent to the smartphone 41 via the cloud server. is output from a speaker device (not shown). Therefore, the external user can interact with a user near the robot 1 using the smartphone 41 and the robot 1 while viewing the image of the face recognition camera 10 .
"C. Effect 3 on the operation when set to be away』
As a result, the external user can change the direction of the face recognition camera 10 by remote control and check the surroundings of the robot 1, for example, to check the safety situation at home when the user is away. In addition, even when a family member such as a child returns while the user is away, positive contact from the outside using a smartphone in this way contributes to a good relationship with others including the family member.

<実施の形態1の変形例1>
次に、実施の形態1の変形例1について説明する。
上記自然対話におけるビルトインシナリオの対話において、ユーザーの滑舌が悪かったり、他の音が混ざってしまいマイクロフォン12から取得した音声データがビルトインシナリオの正規表現又は非正規表現に合致しない場合には、コントローラMCは直ちに通常対話であると判断することなくユーザーに再度の発言を促すための発話として、例えば「もう一度言って下さい」というような音声出力をさせるようにしてもよい。
コントローラMCは、このような促しの発話をスピーカ装置13からさせ、これに対して一定の時間内にユーザーからビルトインシナリオに沿った正しい発話がされた場合には再びビルトインシナリオの対話として処理するようにする。一方、このような場合でもユーザーの発話がビルトインシナリオに正規表現又は非正規表現に合致しない場合に外部のクラウドサーバーに接続させるようにする。
このようにすれば、無駄に外部のクラウドサーバーに接続させるようなことがなく、ロボット1の内部のみで対話を行うことができる。
<Modification 1 of Embodiment 1>
Next, Modification 1 of Embodiment 1 will be described.
In the dialogue of the built-in scenario in the above natural dialogue, if the speech data obtained from the microphone 12 does not match the regular expression or non-regular expression of the built-in scenario because the user's speech is poor or other sounds are mixed, the controller The MC may output an utterance such as "Please say it again" as an utterance for prompting the user to repeat the utterance without immediately judging that it is a normal dialogue.
The controller MC makes such prompting utterances from the speaker device 13, and if the user utters correct utterances according to the built-in scenario within a certain period of time, the conversation is again processed as a built-in scenario dialogue. to On the other hand, even in such a case, if the user's utterance does not match the built-in scenario with a regular expression or a non-regular expression, it will be connected to an external cloud server.
By doing so, it is possible to have a dialogue only inside the robot 1 without connecting to an external cloud server in vain.

<実施の形態1の変形例2>
次に、実施の形態1の変形例2について説明する。
上記自然対話においてユーザーがロボット1の言葉(発話)を聞き逃した場合、一定の時間内であれば直前のロボット1の発話を繰り返すような依頼の発話をユーザーが発話することで再度ロボット1に発話(音声出力)させるようにしてもよい。この処理はビルトインシナリオの対話でも自然対話でもいずれでも可能である。
コントローラMCは対話モード中において聞き逃しのトリガーとなるような発話、例えば「もう一度言って」という発話があったかどうかを音声認識する。そして、ロボット1からの発話後にユーザーから発話を繰り返す依頼があったと判断すると、直前にロボット1が発話した内容を再度音声出力する。そして、先の発話をしたことはキャンセルして、二回目の発話をもって一回目の発話として処理する。
このようにすれば、ユーザーが対話途中で聞き逃したりした場合でも対話が途切れることなく再開されることとなる。
<Modification 2 of Embodiment 1>
Next, Modification 2 of Embodiment 1 will be described.
If the user fails to hear the words (utterances) of the robot 1 in the natural dialogue, the user utters a request utterance that repeats the previous utterance of the robot 1 within a certain period of time. You may make it speak (audio output). This processing can be done in either built-in scenario dialogue or natural dialogue.
The controller MC recognizes whether or not there is an utterance that triggers missed hearing, for example, utterance "Tell me again", during the dialogue mode. When it is determined that the user has requested to repeat the utterance after the utterance from the robot 1, the content uttered by the robot 1 immediately before is output as voice again. Then, the previous utterance is canceled, and the second utterance is processed as the first utterance.
In this way, even if the user misses listening during the dialogue, the dialogue can be restarted without interruption.

<実施の形態1の変形例3>
次に、実施の形態1の変形例3について説明する。
上記自然対話においてロボット1がタッチパネル部7に表示させたユーザーの発話をユーザーが確認して、間違って音声認識されたことがわかった場合には、一定の時間内であればそれを指摘して正しい対話に修正することができるようにしてもよい。この処理はビルトインシナリオの対話でも自然対話でもいずれでも可能である。
コントローラMCは対話モード中において、ユーザーからの音声認識が間違っている旨の指摘となるトリガーとなるような発話、例えば「間違えているよ」や「違うよ。もう一度いうよ」というような発話があったかどうかを音声認識する。そして、コントローラMCはその発話がユーザーの発話をタッチパネル部7に表示させた後の一定時間内にあったと判断すると再度のユーザーの発話を促す音声出力をする。例えば「ごめんね。もう一度言って」という発話内容を音声出力する。
そして、
(1)ビルトインシナリオの対話の場合には直前のユーザーの発話はキャンセルされ、再度ユーザーが発話する内容が正しい発話として音声認識処理される。
(2)通常対話では上記の「間違えているよ」や「もう一度いうよ」という対話内容も外部のクラウドサーバーに発話データ(音声データ)として送信され、そのような発話も含め再度ユーザーが発話した内容で返答データの作成をリクエストする。
このようにすれば、ロボット1が間違ってユーザーの発話を認識した場合でも正しい対話に修正することができる。
<Modification 3 of Embodiment 1>
Next, Modification 3 of Embodiment 1 will be described.
In the above natural dialogue, if the user confirms the user's utterance displayed on the touch panel unit 7 by the robot 1 and finds that the voice was recognized incorrectly, it is pointed out within a certain period of time. It may be possible to modify the correct dialogue. This processing can be done in either built-in scenario dialogue or natural dialogue.
During the interactive mode, the controller MC receives an utterance that triggers an indication that the speech recognition is incorrect from the user, such as an utterance such as "You're wrong" or "You're wrong. Say it again." Recognize whether or not there was a voice. Then, when the controller MC judges that the utterance is within a certain period of time after displaying the user's utterance on the touch panel section 7, the controller MC outputs voice prompting the user to utter again. For example, the content of the utterance "I'm sorry. Say it again" is output as voice.
and,
(1) In the case of dialogue in the built-in scenario, the user's previous utterance is canceled, and the content of the user's utterance again is recognized as the correct utterance.
(2) In normal conversations, the conversational content such as "I made a mistake" or "I'll say it again" is sent to the external cloud server as speech data (voice data), and the user speaks again including such speech. Request the creation of response data in the content.
In this way, even if the robot 1 erroneously recognizes the user's speech, it can correct the conversation to a correct one.

<実施の形態1の変形例4>
実施の形態1の構成とは異なる例えば次のような構成を採用するようにしてもよい。
(1)上記ではビルトインシナリオが実行されない場合にクラウドサーバーにリクエストして通常対話に移行するような設定であった。つまり、ビルトインシナリオが実行されるのであれば、すべてビルトインシナリオとするような設定であったが、敢えてビルトインシナリオに対応する場合でもある条件でローカルで対応をせずにクラウドサーバーにリクエストするようにしてもよい。ある条件とは例えば何回かに一回の回数や、ランダムなタイミングで実行することがよい。
これによって、ロボット1と予測されない対話をすることとなり、決まり切っていないより人間的な対話ができることができる。
(2)上記実施の形態1ではコントローラMCは音声認識エンジンを備えず、音声認識エンジンを備えた外部のサーバーに接続してユーザーの発話(音声データ)をテキスト化するようにしていた。それによってロボット1の負担が軽減されている。
しかし、コントローラMCは、メモリ内に音声認識エンジンを備えるようにし、音声認識エンジンを呼び出してマイクロフォン12から取得したユーザーの発話データ(音声データ)を音声認識エンジンを使用して自身でテキスト化した文字列データを作成するようにしてもよい。つまり、ロボット1のコントローラMCは自らユーザーの音声データをテキストデータ化する能力を有していてもよい。これによって、音声認識エンジンを使用せずに文字列データを作成できることとなって、例えば内部の処理時間が短くなる。
(3)上記実施の形態1では設定画面から初期設定するようにしていたが、例えばスマートフォンのような端末装置を使用して外部からクラウドサーバー経由で登録するようにしてもよい。その方が特に端末装置を使い慣れた人には設定が容易で時間の短縮となる。
(4)第1~の第3モータ23~25はサーボモータ以外の他の駆動手段を使用するようにしてもよい。他の駆動手段とは、例えば他の形式のモータや油圧シリンダ等である。
(5)上記実施の形態1では文字列データをロボット1内部で音声合成するようにしていた。このように内部の音声合成エンジンを用いることはそのまま音声データをサーバーとやり取りするよりデータが重くなりすぎずによいが、クラウドサーバー側で対話エンジンを使用して取得した返答データ(文字列データ)を音声合成し、その音声データをロボット1にレスポンスするようにしてもよい。
(6)上記実施の形態1ではチャット画面S2の設定ボタンオブジェクト35から設定画面に移行するような構成であったが、タッチパネル部7をスライド操作することで設定画
面に移行ようにしってもよい。
<Modification 4 of Embodiment 1>
For example, the following configuration different from the configuration of the first embodiment may be employed.
(1) In the above, the settings were such that if the built-in scenario was not executed, a request would be made to the cloud server and the normal dialogue would be started. In other words, if a built-in scenario is executed, it was set to be a built-in scenario. may The certain condition may be, for example, execution once every several times or at random timing.
As a result, an unpredictable dialogue with the robot 1 can be carried out, and an unstructured and more human dialogue can be achieved.
(2) In Embodiment 1, the controller MC does not have a speech recognition engine, but connects to an external server having a speech recognition engine to convert the user's utterance (speech data) into text. The burden on the robot 1 is thereby reduced.
However, the controller MC is provided with a speech recognition engine in its memory, and calls the speech recognition engine to convert the user's utterance data (speech data) acquired from the microphone 12 into text by itself using the speech recognition engine. Column data may be created. That is, the controller MC of the robot 1 may itself have the ability to convert the user's voice data into text data. As a result, the character string data can be created without using the speech recognition engine, thereby shortening the internal processing time, for example.
(3) In the first embodiment, initial settings are made from the setting screen, but a terminal device such as a smart phone may be used to register from the outside via a cloud server. This makes setting easier and saves time, especially for those who are accustomed to using terminal devices.
(4) The first to third motors 23 to 25 may use drive means other than servo motors. Other drive means are, for example, other types of motors, hydraulic cylinders, and the like.
(5) In the first embodiment, the character string data is voice-synthesized inside the robot 1 . In this way, using the internal speech synthesis engine does not make the data too heavy compared to exchanging voice data with the server as it is, but the response data (character string data) obtained using the dialogue engine on the cloud server side may be synthesized and the resulting voice data may be sent to the robot 1 as a response.
(6) In the first embodiment, the setting screen is shifted from the setting button object 35 of the chat screen S2 to the setting screen. .

(7)「ハ.通常対話における特別な所作」においてはビルトインシナリオにおいても同様にユーザーの発話データ内に特定の言葉が含まれていると判断した場合に特別な所作を実行させるようにしてもよい。例えばコントローラMCはユーザーの発話データ内に特定の言葉が含まれていると判断すると上記と同様に特別な所作をさせるように制御してもよい。
(8)「ハ.通常対話における特別な所作」においてロボット1の形状が異なれば更に異なるジェスチャーをさせるように制御してもよい。例えば、コントローラMCはロボット1に手や足があればそれらを駆動手段を制御して動かすようにしてもよい。
(9)顔画面S1の目オブジェクト27のアニメーションとして、ときどき、瞬きさせるようなアニメーションを入れてもよい。例えば図9(a)の目オブジェクト27の状態から図7の閉じた状態の目オブジェクト27を挿入するような制御とすることで実行させる。そのようにすれば、ロボット1が実際に本当にこちらを見ているようなリアル感が創出されることとなりロボット1との対話をより楽しむことができる。
(10)顔認識モードでは、登録されていないユーザーであれば不特定の人物として認識するようにしていたが、その状態から設定画面に移行して新たな別のユーザーとして認証登録するようにすると、便利である。
(11)「C.留守設定時の動作について 」において、留守設定モードをスマートフォンから設定できるようにすると便利である。
(12)「C.留守設定時の動作について 」において、コントローラMCは、ロボット1の周囲になんらかの動く物体が存在することで、この状態をユーザーにeメールによって報知をするような処理をするが、逆に一定間隔で動いていることを認識し、一定時間内に動く物体がない場合にこの状態をユーザーにeメールによって報知をするような処理を設けてもよい。
例えば、病人や介護対象者がある場合にその近くにロボット1を置くことで常に動きがあることを前提とした見守りをすることができる。
(7) In "C. Special actions in normal dialogue", even in the built-in scenario, if it is determined that a specific word is included in the user's utterance data, a special action may be executed. good. For example, when the controller MC determines that a specific word is included in the user's utterance data, it may be controlled to perform a special action in the same manner as described above.
(8) If the shape of the robot 1 is different in "C. Special gestures in normal dialogue", the robot 1 may be controlled to make further different gestures. For example, if the robot 1 has arms and legs, the controller MC may control the drive means to move them.
(9) As the animation of the eye object 27 on the face screen S1, an animation such as blinking may be inserted from time to time. For example, it is executed by performing control such that the eye object 27 in the closed state in FIG. 7 is inserted from the state of the eye object 27 in FIG. 9A. By doing so, a realistic feeling is created as if the robot 1 is actually looking at you, so that the dialogue with the robot 1 can be enjoyed more.
(10) In face recognition mode, an unregistered user was recognized as an unspecified person. , convenient.
(11) In "C. Operation when setting to be away", it would be convenient if the setting mode can be set from the smartphone.
(12) In "C. Operation when set to be away", the controller MC performs processing such as notifying the user of this state by e-mail when some kind of moving object exists around the robot 1. Conversely, it is also possible to provide a process of recognizing that the object is moving at regular intervals and notifying the user of this state by e-mail when there is no moving object within a certain period of time.
For example, when there is a sick person or a person to be cared for, the robot 1 can be placed near the person to watch over the person assuming that there is always movement.

<実施の形態2>
次に、実施の形態2について説明する。
上記実施の形態1のロボット1の高輝度白色LED9に変えて、あるいはこれに併設した赤外線LEDを備えるようにしてもよい。この際に顔認識用カメラ10のモジュールに赤外線フィルタが備えられていれば取り外す。赤外線LEDは人には見えないため、夜間の空き巣等の侵入者があった場合に、高輝度白色LED9が点灯することで驚いて侵入者に逃げられてしまう可能性がある。一方、赤外線LEDであると撮影されていることがわかりにくいので侵入者は逃げず、そのため侵入の画像を確認したり、保存したりすることが可能となる。
<Embodiment 2>
Next, Embodiment 2 will be described.
In place of the high-intensity white LED 9 of the robot 1 of the first embodiment, or in addition to it, an infrared LED may be provided. At this time, if the module of the face recognition camera 10 is provided with an infrared filter, it is removed. Since the infrared LEDs are invisible to humans, if there is an intruder such as a thief at night, there is a possibility that the intruder will be frightened by the lighting of the high-intensity white LED 9 and escape. On the other hand, if it is an infrared LED, since it is difficult to recognize that the image is being captured, the intruder will not run away, so that the image of the intrusion can be confirmed and saved.

<実施の形態2の変形例1>
次に、実施の形態2の変形例1について説明する。
ロボット1が赤外線LEDを備えた場合に、この赤外線LEDを利用して赤外線リモコン信号受信部を備えた室内の各種装置の制御をするようにしてもよい。各種装置としては、例えばテレビ、オーディオ装置、エアコン装置等がよい。
ロボット1は赤外線リモコン信号受信部を備えた装置の赤外線リモコン信号受信部を直接見通せる場所に設置することがよい。実施の形態2の変形例1ではコントローラMCは顔認識用カメラ10を使用した形状認識に関する形状認識プログラムを備えており、例えばテレビであればその形状の特徴(四角、大きい、黒い等)に基づいて認識することができる。ロボット1はユーザーの各種装置へ赤外線リモコン信号を出力するためのトリガーとしての例えば「テレビのスイッチ付けて」のような発話があると、その発話に基づいて第1のモータ23又は第3のモータ25を制御してロボット1を顔認識用カメラ10を上
下に顔5を首振りさせながら、360度回転させて周囲を撮影させ、形状認識プログラムによってテレビの形状を認識させるように動作させる。
コントローラMCがテレビがあると判断すると、その方向を記憶させると同時に赤外線LEDからその物体方向に赤外線リモコン信号を出力させて、テレビを動作させるON・0FF等の制御を実行させる。次のテレビについてのトリガーがあった際にはまず、その方向において形状認識を実行する。赤外線リモコン信号は単にON・0FFのスイッチング制御だけではなく、例えばテレビであればチャンネルの変更、例えばエアコンであれば温度調整等にも対応するように赤外線周波数を変更して制御することが可能となる。このような細かな制御では複数種類の周波数の異なる赤外線リモコン信号が必要となるが、赤外線の周波数の設定は、例えば図12はユーザーのスマートフォン41を使用してサーバー経由で行うようにするとよい。
また、形状認識プログラムによって方向を探さなくとも、スマートフォン41経由で顔認識用カメラ10を操作してその向きを変えることで各種装置の方向を取得し、その方向を登録するようにしてもよい。
<Modification 1 of Embodiment 2>
Next, Modification 1 of Embodiment 2 will be described.
When the robot 1 is equipped with an infrared LED, the infrared LED may be used to control various indoor devices equipped with an infrared remote control signal receiving section. Examples of various devices include a television, an audio device, an air conditioner, and the like.
It is preferable that the robot 1 is installed in a place where it can directly see the infrared remote control signal receiving section of a device equipped with an infrared remote control signal receiving section. In Modified Example 1 of Embodiment 2, the controller MC has a shape recognition program for shape recognition using the face recognition camera 10. For example, in the case of a television, based on its shape features (square, large, black, etc.) can be recognized. When the robot 1 utters an utterance such as "Turn on the TV" as a trigger for outputting an infrared remote control signal to various devices of the user, the first motor 23 or the third motor 23 is activated based on the utterance. 25, the robot 1 rotates the face recognition camera 10 vertically by 360 degrees while swinging the face 5 up and down to photograph the surroundings, and the shape of the television is recognized by the shape recognition program.
When the controller MC determines that there is a television, it stores the direction of the television and simultaneously outputs an infrared remote control signal from the infrared LED in the direction of the object to execute ON/OFF control for operating the television. When there is a trigger for the next television, shape recognition is first performed in that direction. Infrared remote control signals can be used not only for ON/OFF switching control, but also by changing the infrared frequency so as to change the channel of a television, for example, to adjust the temperature of an air conditioner. Become. For such detailed control, infrared remote control signals with different frequencies are required. For example, in FIG.
Further, even if the direction is not searched by the shape recognition program, the direction of various devices may be obtained by operating the face recognition camera 10 via the smartphone 41 to change its direction, and the direction may be registered.

<実施の形態3>
次に、実施の形態3について説明する。
実施の形態3では音声認識エンジンを搭載したサーバーを使用する際の例えば対話APIの利用等の接続に伴うランニングコストを削減することを主眼とした制御について説明する。
また、実施の形態3の対話プログラムはマイクロフォン12から取得した音声の無音状態を検知できるサブプログラムを含んでいる。また、対話プログラムはユーザーの発話の音声データをマイクロフォン12から取得して一旦録音し、サーバーに出力させるための録音・出力サブプログラムを含んでいる。
コントローラMCは発話があった場合には直ちにサーバーに接続させず、ユーザーの発話の音声データをまず一旦録音し、録音したユーザーの発話の音声データの無音状態を検出した段階で初めてサーバーに接続してその録音した音声データを出力し、対話エンジンでの返答データを作成させるようにする。このようにすれば常にサーバーに接続されているわけではなく、無音時間を含んだ長時間をサーバーに接続する必要がないため、無音の接続時間をカットすることができる。
音声認識エンジンはユーザーの発話中において1つのプロセスがそのユーザーに専有されることとなる。つまり、1つの処理に「何秒」というコンピュータとしては非常に長い時間が専有されることとなり、結果として音声認識エンジンを使用するユーザーのコストの負担が大きくなってしまうが、実施の形態3のようにすれば単位ユーザー当たりに必要なプロセスを減らすことができ、ユーザーのコスト削減に寄与する。
<Embodiment 3>
Next, Embodiment 3 will be described.
In the third embodiment, a description will be given of control aimed mainly at reducing running costs associated with connection, such as using a dialogue API, when using a server equipped with a speech recognition engine.
Further, the interactive program of the third embodiment includes a subprogram capable of detecting the silent state of the voice acquired from the microphone 12. FIG. The dialogue program also includes a recording/output subprogram for obtaining voice data of the user's speech from the microphone 12, temporarily recording it, and outputting it to the server.
The controller MC does not immediately connect to the server when there is an utterance, but first records the voice data of the user's utterance and connects to the server for the first time at the stage when the silence state of the recorded voice data of the user's utterance is detected. The recorded voice data is output by the dialogue engine, and response data is created by the dialogue engine. In this way, it is not necessary to connect to the server all the time, and it is not necessary to connect to the server for a long time including silent time, so the silent connection time can be cut.
The speech recognition engine will be dedicated to a user during a user's speech. In other words, a very long computer time of "how many seconds" is occupied for one process, and as a result, the cost burden on the user who uses the speech recognition engine increases. By doing so, the number of processes required per unit user can be reduced, contributing to cost reduction for the user.

<実施の形態3の変形例1>
次に、実施の形態3の変形例1について説明する。
実施の形態3の変形例1でも音声認識エンジンを搭載したサーバーを使用する際の接続のランニングコストを削減することを主眼とした制御について説明する。ユーザーの発話が開始されるまでにタイムラグが発生することや、ユーザーの発話待ちの状態で結局ユーザーが発話せずタイムアウトでサーバーとの接続を終了する場合があると、音声認識サーバーはプロセスを消費してしまうのでユーザーのコストがかかってしまう。
実施の形態3の変形例1のロボット1の対話プログラムは発話の音声データをマイクロフォン12から取得して一旦録音し、サーバーに出力させるための録音・出力サブプログラムを含んでいる。また、対話プログラムには録音された音声データの音圧レベルを検出し、出力するサブプログラムを含んでいる。
コントローラMCは自然対話の状態で常時録音されている音声データが一定音圧以上のである場合にサーバーに接続させ、録音中のデータを追っかけ再生するようにする。つまり、無音、あるいは音声認識ができないような小さな発話を無視し、対話可能な発話があ
った場合だけサーバーに接続して音声データを出力し、サーバー側に音声認識エンジンで返答データを作成させるようにする。
これによって、発話待ちの無駄な接続時間をなくすことが可能となる。
<Modification 1 of Embodiment 3>
Next, Modification 1 of Embodiment 3 will be described.
Also in Modification 1 of Embodiment 3, control aimed mainly at reducing the running cost of connection when using a server equipped with a speech recognition engine will be described. The speech recognition server consumes processes if there is a time lag before the user starts speaking, or if the user does not speak while waiting for the user to speak and the connection with the server is terminated due to a timeout. As a result, it costs the user.
The dialogue program of the robot 1 of Modification 1 of Embodiment 3 includes a recording/output subprogram for acquiring speech data from the microphone 12, temporarily recording it, and outputting it to the server. The interactive program also includes a subprogram for detecting and outputting the sound pressure level of recorded voice data.
The controller MC connects to the server when the sound pressure of the voice data constantly recorded in the state of natural conversation is equal to or higher than a certain sound pressure, and plays back the data being recorded. In other words, ignore silence or small utterances that cannot be recognized, connect to the server only when there is an utterance that can be interacted with, output voice data, and let the server side create response data with the voice recognition engine. to
This makes it possible to eliminate useless connection time waiting for speech.

<実施の形態4>
次に、実施の形態4について説明する。
音声認識サーバーは高価であるため、あらかじめ十分なリソースを用意することができないことがあり、サーバーリソースに余裕がない場合、端末が音声認識サーバーに接続しようとした場合にサーバーがビジー状態であることがある。
上記通常対話においては、サーバーに発話データ(音声データ)を送信し返答データの作成をリクエストする。とサーバーは発話データに基づいて文字列データ化された返答データを作成してレスポンスする。ところが、ビジー状態であると返答データがされず、エラーになってしまうことがある。サーバーからエラーメッセージが返信されることとなる。
ロボット1のコントローラMCはサーバーからエラーメッセージの送信を受けた場合にサーバー接続エラーである旨の発話をユーザーにせずに、ビルトインシナリオから対話を続けられるような返信を音声出力するようにする。例えば「もう一度言って」とか「うんうん」とか「なんだっけ?」というような曖昧な返答したり、適当な相槌を返すなどしてサーバーが空くのを待つ処理をするとよい。
<Embodiment 4>
Next, Embodiment 4 will be described.
Speech recognition servers are expensive, so it may not be possible to pre-provision sufficient resources, and if there are not enough server resources, the server may be busy when the terminal tries to connect to the speech recognition server. There is
In the above-mentioned normal dialogue, utterance data (voice data) is sent to the server to request the creation of response data. and the server creates response data converted into character string data based on the utterance data and responds. However, if it is busy, the response data may not be sent, resulting in an error. An error message will be returned from the server.
When receiving an error message from the server, the controller MC of the robot 1 does not utter an utterance to the effect that there is a server connection error to the user, but outputs a reply by voice so that the dialogue can be continued from the built-in scenario. For example, it is better to wait for the server to become available by giving vague responses such as "Tell me again", "Yeah, yeah" or "What is it?"

<実施の形態4の変形例1>
次に、実施の形態4の変形例1について説明する。
ユーザー側の発話が長すぎると、音声認識エンジンが誤認識をする可能性がある。そのため、認識したユーザーの発話が長すぎると判断した場合に、音声認識エンジンを備えるサーバーに接続することなく記憶手段に記憶された音声データから選択された対話例を音声出力する機能を備えることがよい。
ロボット1のコントローラMCは、ユーザーの発話データが一定以上の長さになったと判断した場合には、サーバーに接続させることなくビルトインシナリオから「うん」とか「マジ?」とか「本当ですか?」などという対話においてどのようにも取れる相づちのような発話を音声出力する。発話データは音声データのままでもよく、コントローラMCあるいはサーバーで文字列データに変換された後のものでもよい。
これによって的外れな言葉が返ってくることを防止し、対話を仕切り直しして改めてユーザーに対話を促すようにすることができる。
<Modification 1 of Embodiment 4>
Next, Modification 1 of Embodiment 4 will be described.
If the user's utterance is too long, the speech recognition engine may misinterpret it. Therefore, when it is determined that the recognized user's utterance is too long, it is possible to provide a function of outputting a dialogue example selected from the voice data stored in the storage means without connecting to the server equipped with the voice recognition engine. good.
When the controller MC of robot 1 determines that the length of the user's utterance data is longer than a certain length, it does not connect to the server and responds to the built-in scenario by saying "Yes", "Seriously?", "Are you sure?" It outputs utterances such as back-and-forth that can be taken in any way in a dialogue. The utterance data may be voice data as it is, or may be data after being converted into character string data by the controller MC or server.
As a result, it is possible to prevent irrelevant words from being returned, reorganize the dialogue, and prompt the user to engage in dialogue again.

<実施の形態5>
次に、実施の形態5について説明する。
実施の形態5では複数の音声認識エンジンを組み合わせて利用する場合について説明する。
音声認識エンジンにはローカル(つまり、ネットサーバーに接続せずに装置内で処理する場合)の音声認識エンジンと、ネットサーバーに接続してリクエストによって作成した対話データをレスポンスするクラウドの音声認識エンジンがある。ローカルにもクラウドにもそれぞれ複数種類の音声認識エンジンがあり、無料のものも有料のものもある。そのため、これら異なる音声認識エンジンを備えるサーバーを利用する際に料金が無料のサーバーと有料のサーバーをミックスして利用するようにする。
ロボット1がインターネット回線を利用して接続されるクラウドサーバーでは、対話モードにおいて、ロボット1から発話データがリクエスト発行され音声認識エンジンに返答データを作成させる際に、例えばクラウドサーバーは次のように対応することがよい。
(1)月あたり設定したある時間Aまでは有料の対話APIにアクセスする。
(2)月あたり設定したある時間Aからある時間Bまでは有料のAPIと無料の音声認識エンジンを混ぜて使う。例えば最初の連続数回の認識は有料の音声認識エンジンのサーバ
ーを使いその後の連続した認識には無料の音声認識エンジンのサーバーを使うなどミックスして使う。
(3)月あたり設定したある時間Bを超えた場合、無料の音声認識エンジンのみを使う。 これは一例であって、例えば月あたり設定したある時間Aを越えた場合に直ちに無料の音声認識エンジンのみを使うような設定でもよい。
このようにすれば、有料の範囲を大きく越えずに対話をすることができる。ロボット1と接続されているクラウドサーバーがこのような処理を実行するプログラムに基づいて有料と無料とを月あたり設定した時間に基づいて計算してロボット1からのリクエスト発行を処理する。
ロボット1自体がこのような処理を実行して、リクエスト発行の際にクラウドサーバーに対して有料の対話APIを使用するか、無料のサーバーの音声認識エンジンを使用するかの命令をするようにしてもよい。
<実施の形態5-1>
実施の形態5の複数の音声認識エンジンを組み合わせて利用する場合は複数の対話エンジンを組み合わせる場合についても同様である。
<Embodiment 5>
Next, Embodiment 5 will be described.
Embodiment 5 describes a case where a plurality of speech recognition engines are used in combination.
The voice recognition engine has a local voice recognition engine (that is, when processing within the device without connecting to the net server) and a cloud voice recognition engine that responds to the dialogue data created by request by connecting to the net server. be. There are multiple types of speech recognition engines, both local and cloud, some free and some paid. Therefore, when using servers with these different speech recognition engines, free servers and paid servers are mixed and used.
In the cloud server to which the robot 1 is connected using the Internet line, in interactive mode, when the robot 1 issues a request for utterance data and the voice recognition engine creates response data, the cloud server responds as follows, for example. It is better to
(1) Access to the paid dialogue API until a certain time A set per month.
(2) Between a set time A and a set time B per month, use a mixture of a paid API and a free speech recognition engine. For example, for the first few consecutive recognitions, a paid speech recognition engine server is used, and for subsequent consecutive recognitions, a free speech recognition engine server is used.
(3) Use only the free speech recognition engine when a certain time B set per month is exceeded. This is just an example, and it may be set so that only the free speech recognition engine is immediately used when a certain time A set per month is exceeded, for example.
In this way, it is possible to have a dialogue without greatly exceeding the range of charge. A cloud server connected to the robot 1 processes the issuance of a request from the robot 1 by calculating charge and free based on a set time per month based on a program for executing such processing.
The robot 1 itself executes such processing, and when issuing a request, instructs the cloud server whether to use the paid dialogue API or to use the speech recognition engine of the free server. good too.
<Embodiment 5-1>
The same applies to the case of combining a plurality of speech recognition engines according to the fifth embodiment, and the case of combining a plurality of dialogue engines.

<実施の形態6>
次に、実施の形態6について説明する。
ある1つの決まった対話エンジンを使うだけでは、返答がきまったパターンになってしまいユーザーがロボット1との会話に飽きてしまう可能性がある。そのため、実施の形態6ではこれを解消するため複数の対話エンジンの出力の結果を用いて会話に飽きないようにその結果をアレンジするための処理を説明する。
対話エンジンはクラウドの対話エンジンだけではなく、ロボット1内のローカルな対話エンジンを使用してもよい。
この処理は複数の返答データを送信されたロボット1側で行ってもよく、対話エンジンを備えたいくつものサーバーからの返答データを取得した際にクラウドサーバー側で行ってもよい。
(1)雑談対話エンジンのうち文字列の文字数の最も長い返答をしてきたエンジンの結果を出力する。
最も長い返答とすると、いかにも対話しているように感じ、対話の単調さがなくなり、ユーザーは対話を楽しむことができる。
A.例えば、「腹減った」とユーザーが発話した場合に、a~cの3つのエンジンからの回答が「aエンジン:よく間食をしますか?」「bエンジン:ご飯食べてないの?」「cエンジン:なんか食え」である場合に、aエンジンを採用してその返答データを出力する。
B.例えば、「今日の天気は晴れ」とユーザーが発話した場合に、a~cの3つのエンジンからの回答が「aエンジン:今すぐお空に行って確認してきます」「bエンジン:快晴っぽい?」「cエンジン:晴れか雨かで、その日の気分が決まることがあるよね。」である場合に、cエンジンを採用してその返答データを出力する。
<Embodiment 6>
Next, Embodiment 6 will be described.
If only one fixed dialogue engine is used, there is a possibility that the user will get bored with the conversation with the robot 1 because the responses will follow a fixed pattern. Therefore, in the sixth embodiment, in order to solve this problem, a process for arranging the output results of a plurality of dialogue engines so as not to get bored with the conversation will be described.
The dialog engine may use not only a cloud dialog engine but also a local dialog engine within the robot 1 .
This processing may be performed on the side of the robot 1 to which a plurality of response data has been sent, or may be performed on the side of the cloud server when response data is obtained from a number of servers equipped with dialogue engines.
(1) Output the result of the engine that has responded with the longest character string among the chat dialogue engines.
The longest response creates a dialogue-like feel, eliminates the monotony of the dialogue, and allows the user to enjoy the dialogue.
A. For example, when the user utters "I'm hungry", the answers from three engines a to c are "a engine: do you often snack between meals?" c-engine: eat something", adopt a-engine and output its response data.
B. For example, when the user says, "Today's weather is fine," the responses from three engines a to c are "a engine: I'll go to the sky right now to check" and "b engine: it looks like it's going to be sunny." ?” and “c-engine: the mood of the day can be determined by whether it is sunny or rainy.”, the c-engine is employed to output the response data.

(2)雑談対話エンジンのうち、語尾に「?」がついているものを最後に持ってきて出力する。このとき「?」がついている回答が複数あればそれらを連続して出力する。
語尾に疑問符がつくと、その疑問に更に答えるような話の流れになるため、会話が続きやすくなりユーザーは対話を楽しむことができる。
例えば、上記(1)A.の選択肢では「よく間食をしますか?ご飯食べてないの?」と出力する。また、上記(1)B.の選択肢であれば「快晴っぽい?」と出力する。
(3)肯定文を組み合わせた後、疑問文を組み合わせて出力する。
このようにアレンジすることでいかにも考えて文章を練ったような応答になるため、ユーザーは真剣に自身の発話を聞いてもらっているような感覚となり、続けて会話をしたいと思うようになるため、会話が続きやすくなりユーザーは対話を楽しむことができる。ま
た、出力尺をかせぐことができるとともに人への返答を求めることができる。
例えば、上記(1)B.のような返答データが取得された場合「今すぐお空に行って確認してきます。晴れか雨かで、その日の気分が決まることがあるよね。快晴っぽい?」出力する。
(2) Out of the conversational dialogue engines, those with "?" at the end of words are brought to the end and output. At this time, if there are multiple answers with "?", they are output consecutively.
Adding a question mark at the end of a word makes the flow of the story more answerable to that question, making it easier to continue the conversation and allowing the user to enjoy the dialogue.
For example, the above (1) A. In the option of , "Do you often snack between meals? Do you not eat rice?" In addition, the above (1)B. If it is the option of , it outputs "is it sunny?".
(3) After combining affirmative sentences, combine and output interrogative sentences.
By arranging it in this way, the response becomes as if the user has carefully thought out the sentences. Conversation is easier to continue and users can enjoy dialogue. In addition, it is possible to earn an output scale and to request a reply from the person.
For example, the above (1)B. When response data such as "I'm going to go to the sky right now and check it. Sunny or rainy can determine the mood of the day. Does it look like a sunny day?" is output.

(4)他よりも話題の転換をより頻繁にしてくるエンジンからの結果を、他のエンジンの結果よりも後に持ってきて出力する。
このようにアレンジすることで話題転換したことで次の発話を誘うような対話となり、対話が続きやすくなる。
A.例えば、「どーもどーも」とユーザーが発話した場合に、a~cの3つのエンジンからの回答が「aエンジン:だょね~」「bエンジン:そうですね」「cエンジン:野球は見たりしますか?」である場合に、cエンジンのデータを最後にして「だょね~ そうですね 野球は見たりしますか?」と出力する。
B.例えば、「なかなか見つからないね」とユーザーが発話した場合に、a~cの3つのエンジンからの回答が「aエンジン:その通りですね」「bエンジン:あるあるー」「cエンジン:ご家族は何人ですか?」である場合に、cエンジンのデータを最後にして「その通りですね あるあるー ご家族は何人ですか?」と出力する。
(5)他よりもよりフレンドリーな返答をしてくるエンジンをまず真っ先に出力して、その後に他のエンジンからの返答をくっつけて出力する。
このようにアレンジすることでユーザーが対話に引き込まれやすくなり、対話が続きやすくなる。フレンドリーかどうかは言葉(単語)に相対的な序列化をすることでどの位置に配置するかを決定することができる。
A.例えば、上記(4)B.の場合ではbエンジンの結果を最初にして「あるあるー その通りですね ご家族は何人ですか?」と出力する。
B.例えば、「なるほどね」とユーザーが発話した場合に、a~bの2つのエンジンからの回答が「aエンジン:あら適当な相槌ですね」「bエンジン:うむ」である場合に、bエンジンのデータを最後にして「ほほほー あら適当な相槌ですね うむ」と出力する。
(4) Bringing and outputting results from engines that change topics more frequently than others, later than results from other engines.
By arranging in this way, the topic is changed, so that the dialogue invites the next utterance, making it easier to continue the dialogue.
A. For example, when the user utters "domo domo", the answers from the three engines a to c are "a engine: yes~""b engine: yes""c engine: I watch baseball Do you want to watch baseball?”, the c-engine data is put at the end and the output is “Hey, I see. Do you watch baseball?”
B. For example, when the user utters, "I can't find it easily," the answers from the three engines a to c are "a engine: that's right,""b engine: yes," and "c engine: your family." How many people are in your family?", the c-engine data is put at the end, and "That's right. How many people do you have in your family?"
(5) Output the engine that gives a more friendly reply than the others first, then output the replies from the other engines together.
Arranging in this way makes it easier for the user to be drawn into the dialogue, making it easier for the dialogue to continue. Whether it is friendly or not can be determined in which position to place by giving relative ranking to words (words).
A. For example, the above (4)B. In the case of , the result of the b engine is put first and the output is "Yes, that's right. How many people are in your family?"
B. For example, when the user utters "I see," and the answers from two engines a and b are "engine a: Oh, that's an appropriate backtracking," and "engine b: um." Put the data at the end and output "Hohoho Oh, that's a suitable backhand."

(6)(1)~(5)の処理を任意に組み合わせる
これによって、対話のバリエーションが増えることとなるため、ユーザーが同じ発話をした場合でもまったく同じ応答が帰ってきてしまうことがなくなり、対話に飽きることがなく対話が続きやすくなる。
例えば「老後って何」とユーザーが発話した場合に、a~cの3つのエンジンからの回答が「aエンジン:ちょっと待ってくださいね」「bエンジン:サポートは嫌いじゃないよ」「cエンジン:今健康でいらっしゃいますか?」である場合に、最もフレンドリーなbエンジンを最初にし、肯定文を組み合わせた後、疑問文を組み合わせ、「サポートは嫌いじゃないよ ちょっと待ってくださいね 今健康でいらっしゃいますか?」と出力する。
(6) Arbitrarily combining the processing of (1) to (5) This will increase the variation of dialogue, so that even if the user makes the same utterance, the exact same response will not be returned, and the dialogue It makes it easier to continue the dialogue without getting tired of it.
For example, when a user utters "What is old age?", the answers from three engines a to c are "a engine: please wait a moment", "b engine: I don't hate support", "c engine : Are you healthy now?", the most friendly b-engine is first, combined with affirmative sentences, then combined with interrogative sentences, "I don't hate support, please wait a minute. I'm healthy now." Are you here?" is output.

(7)テキスト出力用の場合のエンジンでは、カッコや顔文字が帰ってくることがあるため、これらが帰ってきた場合には音声出力を抑制して出力する。そして画面にはそれらは表示させる。
顔文字は音声出力できないが、表示部に敢えて顔文字を表示させることで、音声と併せて対話の一部とすることで通常にはない対話のおもしろさを創出することができる。
A.例えば、「腹減った」とユーザーが発話した場合に、a~cの3つのエンジンからの回答が「aエンジン:(わざと無視)」「bエンジン:こんにちはお元気ですね」「cエンジン:こんにちは」である場合に、aエンジンだけは音声出力させず、タッチパネル部7(表示画面)に表示させるようにする。
B.例えば、「元々入ってる」とユーザーが発話した場合に、a~cの3つのエンジ
ンからの回答が「aエンジン:あなたはよくするんですか?「bエンジン:(´・ω・`)」「cエンジン:夜型さんですか?」である場合に、bだけは音声出力させず、タッチパネル部7(表示画面)に表示させるようにする。
(8)同じ文字列が含まれる返答についてはいずれか1つを出力する。
同じ文字列が繰り返されると対話がくどくなってしまうし、聞き手に違和感を覚えさせてしまうためである。
例えば、「中華」とユーザーが発話した場合に、a~cの3つのエンジンからの回答が「aエンジン:あらっいいですねぇ」「bエンジン:うん、中華です。」「cエンジン:中華を食べに行くんでしょうか?」である場合に、bエンジンとcエンジンには「中華」の文字列があるためいずれか一方のみ出力する。例えば「あらっいいですねぇ 中華を食べに行くんでしょうか?」のように出力する。
(7) In the text output engine, parentheses and emoticons may be returned, so when these are returned, speech output is suppressed and output. and display them on the screen.
Emoticons cannot be output as voice, but by intentionally displaying emoticons on the display unit and making them part of the dialogue together with the voice, it is possible to create an unusually interesting dialogue.
A. For example, when the user utters "I'm hungry", the responses from the three engines a to c are "a engine: (ignoring on purpose)", "b engine: hello how are you", and "c engine: hello". , only the a engine does not output the voice, but displays it on the touch panel unit 7 (display screen).
B. For example, when the user utters, "It's already included," the answers from the three engines a to c are "A engine: Do you often do it?" B engine: (´・ω・`) c Engine: Are you a night owl?", only b is displayed on the touch panel unit 7 (display screen) without being output as a voice.
(8) Output one of the responses containing the same character string.
This is because if the same character string is repeated, the dialogue becomes verbose and the listener feels uncomfortable.
For example, when the user utters “Chinese food”, the answers from the three engines a to c are “a engine: Oh my goodness”, “b engine: Yes, it’s Chinese food”, and “c engine: eat Chinese food”. Are you going to go to?", only one of them is output because there is a character string of "Chinese" in b engine and c engine. For example, output like "Oh, that's nice. Are you going to eat Chinese food?"

(9)語尾変換手段、例えば語尾変換APIを使って統一感を出すようにする。このときすべての返答について語尾変換を行ってもよいが、最後に出力する文か最初に出力する文のいずれか一方にのみ語尾変換を行うようにしてもよい。
普通の対話エンジンの文章に比べて、より親しみやすい表現となるのでよい。
例えば、あるエンジンから「ねむいな」と返答データがあった場合に語尾を語尾変換APIによって変換させて「ねむいニャ」というように出力する。
(10)認識失敗に備えて、複数のエンジンから得た返答のうち一部のみを音声出力に利用し、残りの返答は保持しておき、次の音声認識に失敗したときや対話システムからの返答がなかったときは、その保持しておいた返答を返すようにする。
音声認識が失敗した場合や、外部サーバーからのレスポンスがなかなか来ない場合に使用することで、対話が途切れずにつなげることができ、自然な対話に寄与する
(9) Using ending conversion means, such as ending conversion API, to give a sense of unity. At this time, the endings may be changed for all the responses, but the endings may be changed for only one of the last output sentence and the first output sentence.
It is good because it becomes a more friendly expression compared to the sentences of a normal dialogue engine.
For example, when there is response data "sleepy" from a certain engine, the ending of the word is converted by the endings conversion API and output as "sleepy nya".
(10) In preparation for recognition failure, only some of the responses obtained from a plurality of engines are used for speech output, and the remaining responses are retained, and when the next speech recognition fails or the dialogue system When there is no reply, the held reply is returned.
By using it when speech recognition fails or when it is difficult to receive a response from an external server, dialogue can be continued without interruption, contributing to natural dialogue.

<実施の形態7>
図14に示すように、実施の形態7はロボット1の近傍にスマートスピーカ51を配置し、ロボット1とスマートスピーカ51を組み合わせた装置(システム)である。ロボット1とスマートスピーカ51の間隔は互いのマイクロフォンで音が拾える程度の距離であって例えば1~2m以内に隣接配置されることがよい。
スマートスピーカ51は無線LAN装置を内蔵し、インターネットを使用した無線通信機能、電話回線接続機能等を有しネットワークモジュールが搭載されたネットワーク端末であり、マイクロフォンとスピーカ装置を備えた一種のコンピュータでもある。スマートスピーカ51はスマートフォンのような端末装置を利用してサーバーを介して各種初期登録(例えば、使用者の名前、住所、電話番号、メールアドレス登録、複数の音声登録、ブルトゥースによるネットワーク対応のAI機器の設定等)を実行し、音声登録した使用者からの発話(命令)によってインターネットに接続してサーバーの検索エンジンを使用して所定の処理を実行し、その結果をスピーカ装置から音声情報として出力する。
<Embodiment 7>
As shown in FIG. 14, the seventh embodiment is an apparatus (system) in which a smart speaker 51 is arranged near the robot 1 and the robot 1 and the smart speaker 51 are combined. The distance between the robot 1 and the smart speaker 51 is such that the sound can be picked up by each other's microphone, and it is preferable that they are adjacently arranged within 1 to 2 m, for example.
The smart speaker 51 is a network terminal having a built-in wireless LAN device, a wireless communication function using the Internet, a telephone line connection function, and a network module, and is also a kind of computer equipped with a microphone and a speaker device. . The smart speaker 51 uses a terminal device such as a smartphone to perform various initial registrations (for example, user name, address, phone number, email address registration, multiple voice registration, Bluetooth network compatible AI device settings, etc.), connects to the Internet according to the utterances (commands) from the registered user, executes predetermined processing using the server's search engine, and outputs the result as voice information from the speaker device. Output.

ロボット1はスマートスピーカ51と連携することで互いの機能を補うことができる。具体的にはロボット1とスマートスピーカ51とを音声をインターフェースとして次のような機能を奏する。
(1)スマートスピーカ51へのロボット1からの指示機能
イ.例えば、ユーザーがスマートスピーカのスキルを起動するフレーズを喋ったとき、ロボットはそのフレーズの音声認識結果の文字列を記憶しておき、ロボットは自らその文字列を音声合成で所定のタイミングで喋るようにする。
実施の形態7ではロボット1のコントローラMCは、ユーザーの発話を周波数成分を分析して個人の声を識別する声識別プログラム、ユーザーの発話を個人毎に区別して舞う頃フォン12によって取得し、文字列データとして記憶させ、その文字列データに基づいて音声合成してスピーカ装置13から再生させるフレーズを録音・再生プログラムを備えている。
ロボット1は、例えば発話を記憶するトリガーとなる発話、例えば「今からしゃべるから、録音して」という発話の後の言葉を記憶する機能を有している。そして、ユーザーはこの機能を利用して、スマートスピーカ51を、起動させたりなんらかの処理をさせるような言葉を記憶させるようにする。例えば「OK、×××。照明をつけて。」のような言葉がよい。このとき、ロボット1に登録されるユーザー個人の音声は、スマートスピーカ51に登録されるユーザー個人の声である。
そして、ロボット1に所定のタイミングで発話させるようにする。所定のタイミングで発話させる設定は、例えばスマートフォンのような端末を操作して設定登録できる。
ロ.ロボット1の「所定のタイミングでの発話」としては、例えばロボット1がなんらかの変化を検知すること、例えばタッチパネル部7へのタッチ動作や、ドップラーセンサ22による物体(人)の検知等である。
例えばロボット1のコントローラMCはドップラーセンサ22によって人を検知した場合に「OK、×××。照明をつけて。」というようにスピーカ装置13から音声出力をさせる。それを受けてスマートスピーカ51はネットワーク対応しているAI機器である室内の照明を点灯させるように制御する。尚、制御される照明は前もってスマートスピーカ51によって制御される対象であるように登録されている。照明以外に例えば、エアコン、テレビ、カーテンの開閉装置等をAI機器とすることがよい。
The robot 1 can complement each other's functions by cooperating with the smart speaker 51 . Specifically, the robot 1 and the smart speaker 51 perform the following functions using voice as an interface.
(1) Instruction function from the robot 1 to the smart speaker 51 a. For example, when the user speaks a phrase that activates a smart speaker skill, the robot memorizes the character string of the voice recognition result of that phrase, and the robot itself speaks the character string by speech synthesis at a predetermined timing. to
In Embodiment 7, the controller MC of the robot 1 has a voice identification program that analyzes the frequency components of the user's utterances to identify individual voices, and acquires the user's utterances by personal phone 12 and uses character A recording/playback program is provided for a phrase that is stored as string data, synthesized into voice based on the character string data, and played back from the speaker device 13 .
The robot 1 has a function of memorizing an utterance that serves as a trigger for memorizing an utterance, for example, words after an utterance such as "I'm going to speak now, so record it." The user can then use this feature to have the smart speaker 51 remember words that wake it up or make it do something. For example, "OK, XXX. Turn on the lights." At this time, the user's personal voice registered in the robot 1 is the user's personal voice registered in the smart speaker 51 .
Then, the robot 1 is made to speak at a predetermined timing. The setting to speak at a predetermined timing can be set and registered by operating a terminal such as a smartphone, for example.
B. The “speech at a predetermined timing” of the robot 1 is, for example, the robot 1 detecting some kind of change, such as a touch operation on the touch panel section 7, detection of an object (person) by the Doppler sensor 22, or the like.
For example, when the Doppler sensor 22 detects a person, the controller MC of the robot 1 causes the speaker device 13 to output a voice such as "OK, XXX. Turn on the lights." In response to this, the smart speaker 51 controls the lighting in the room, which is an AI device compatible with the network. Note that the lights to be controlled are registered in advance to be controlled by the smart speaker 51 . In addition to lighting, for example, air conditioners, televisions, curtain opening/closing devices, etc. may be used as AI devices.

(2)スマートスピーカ51からの発話かユーザーの発話かを区別する機能
ユーザーの個人の声を識別してロボット1に設定登録することで、ロボット1がスマートスピーカ51からの発話か、あるいはユーザーの直の発話かを区別する機能を備えることができる。これによって、ロボット1が登録されていない声であるスマートスピーカ51からの音に反応しないように制御することができ、逆に(1)のようにスマートスピーカ51とロボット1にそれぞれユーザーの個人の声を登録することで、スマートスピーカ51に対してユーザーだけでなくロボット1からも指示をすることができる。このように個人の発話を区別できることでスマートスピーカ51への音声操作を妨害しないという機能も有する。
(3)スマートスピーカ51からの発話の表示機能
スマートスピーカ51にユーザーが指示した発話内容をロボット1が取得して文字テキスト化し、タッチパネル部7に表示させるようにしてもよい。
ロボット1のコントローラMCは発話内容を取得して自身であるいはサーバーに接続して文字テキスト化するプログラムを有しているとよい。
例えば、ユーザーが「OK、×××。今日の天気を教えて。」と発話し、これに対してスマートスピーカ51が「今日の愛知県岡崎市の天気は晴れ、最高気温15度、降水確率は20%です」と回答した場合に、これらのすべての対話を、例えば、ロボット1のタッチパネル部7には例えば、次のように聞き取った両者の対話が表示される。
「ユーザー:OK、×××。今日の天気を教えて。
スマートスピーカ:今日の愛知県岡崎市の天気は晴れ、最高気温15度、降水確率は20%です」
また、加えてロボット1のコントローラMCは文字テキスト化した内容を短く翻案したり要約するプログラムを有しているとよい。ロボット1は翻案したり要約した内容を音声出力又はタッチパネル部7への表示させるようにするとよい。
(4)人がいないときにロボット1がスマートスピーカ51へ色々聞いて学習しておく機能
例えば、ロボット1がビルトインシナリオとして「明日の天気は?」とか「なにか事件はないですか」などという質問ワードを有しており、ユーザーが留守の時にロボット1のコントローラMCに所定のタイミングでスマートスピーカ51を起動するフレーズと一緒に質問ワードを音声出力させるようにする(ロボット1の声はスマートスピーカ51に登録済みとする)。このとき、コントローラMCはスマートスピーカ51からの発話内容をロボット1はマイクロフォン12によって取得して記憶しておき、所定のタイミングでそ
の内容を音声出力させる。所定のタイミングとは、例えば所定の時間、ドップラーセンサ22によって人を検知した際、ユーザーがロボット1に「何かニュースはないの?」というようなビルトインシナリオとしての発話を行った際等である。
(2) A function to distinguish between utterances from the smart speaker 51 and user utterances. It is possible to provide a function for distinguishing between direct utterances. As a result, the robot 1 can be controlled not to respond to sounds from the smart speaker 51, which are voices that are not registered. By registering the voice, not only the user but also the robot 1 can give instructions to the smart speaker 51 . By being able to distinguish individual utterances in this way, it also has a function of not interfering with voice operations on the smart speaker 51 .
(3) Display Function of Speech from Smart Speaker 51 The robot 1 may acquire the content of the speech given by the user to the smart speaker 51 , convert it to text, and display it on the touch panel section 7 .
The controller MC of the robot 1 preferably has a program that acquires the content of speech and converts it into text by itself or by connecting to a server.
For example, the user utters "OK, XXX. Tell me about today's weather." is 20%.", all these conversations are displayed on the touch panel unit 7 of the robot 1, for example, the following conversations between the two.
"User: OK, xxx. What's the weather like today?
Smart Speaker: Today's weather in Okazaki City, Aichi Prefecture is sunny with a maximum temperature of 15 degrees and a 20% chance of rain.
In addition, the controller MC of the robot 1 preferably has a program for briefly adapting or summarizing the content converted into text. It is preferable that the robot 1 output the adapted or summarized content by voice or display it on the touch panel section 7 .
(4) A function for the robot 1 to learn various things by listening to the smart speaker 51 when no one is present. When the user is away, the controller MC of the robot 1 is made to output the question word with a phrase to activate the smart speaker 51 at a predetermined timing (the voice of the robot 1 is the smart speaker 51 ). At this time, the controller MC acquires and stores the content of the speech from the smart speaker 51 in the robot 1 using the microphone 12, and outputs the content as voice at a predetermined timing. The predetermined timing is, for example, when a person is detected by the Doppler sensor 22 for a predetermined time, or when the user speaks to the robot 1 as a built-in scenario such as "Is there any news?" .

<実施の形態7の変形例1>
スマートスピーカ等、他の音声認識機器の音声操作を妨害しない機能を設定するようにしてもよい。例えば、他のスマートスピーカの起動フレーズ(音声認識開始ワード)を、の音声をロボット1が認識した場合、自身の音声出力を停止するようにしてもよい。
例えば、他のスマートスピーカであるA社の起動フレーズである「OK、×××」のような起動用のフレーズの音声を認識した場合に、ロボット1のコントローラMCはそれをマイクロフォン12から取得し、登録済みの起動フレーズであると判断すると、自身の音声出力を一旦停止させる。
これによって音声認識機器の音声操作を妨害せずに、機能を発揮させることができる。
<Modification 1 of Embodiment 7>
A function that does not interfere with voice operations of other voice recognition devices, such as a smart speaker, may be set. For example, when the robot 1 recognizes the voice of another smart speaker activation phrase (voice recognition start word), the robot 1 may stop its own voice output.
For example, when recognizing the speech of an activation phrase such as “OK, XXX”, which is the activation phrase of Company A, which is another smart speaker, the controller MC of the robot 1 acquires it from the microphone 12. , when it determines that it is a registered activation phrase, temporarily stops its own voice output.
As a result, the function can be exhibited without interfering with the voice operation of the voice recognition device.

<実施の形態7の変形例2>
ロボット1にスマートスピーカ51のような他の音声認識機器の音声認識起動キーワードを認識し、その後のユーザーのスマートスピーカ51への発音を認識してクラウドサーバ-にリクエストして、検索エンジン等に検索をさせて対応する回答を得ておく。
ロボット1は、スマートスピーカ51が音声認識に失敗してしまった場合(例えば「エラーです」など)や音声認識結果に対する適切な回答を出力できない旨の音声出力(例えば「すみません」など)を認識した場合、ロボット1は自身が前もって得ておいた回答を出力する。あるいは、音声認識に失敗してしまった場合や音声認識結果に対する適切な回答を出力できない旨の音声出力を受けてから、ロボット1はクラウドサーバ-にリクエストして回答を得るようにしてもよい。
<Modification 2 of Embodiment 7>
The robot 1 recognizes the speech recognition activation keyword of another speech recognition device such as the smart speaker 51, recognizes the pronunciation of the user to the smart speaker 51 after that, requests the cloud server, and searches with a search engine etc. and get the corresponding answer.
The robot 1 recognizes a case where the smart speaker 51 has failed in speech recognition (for example, "There is an error") or a speech output indicating that an appropriate answer to the speech recognition result cannot be output (for example, "I'm sorry"). If so, the robot 1 outputs the answer it has obtained in advance. Alternatively, the robot 1 may make a request to the cloud server to obtain an answer after receiving an audio output indicating that the speech recognition has failed or that an appropriate answer to the speech recognition result cannot be output.

<実施の形態8>
ロボット1は、例えばユーザーの要求によってwebサイト上のニュース記事を音声で読み上げるようにしてもよい。ロボット1のコントローラMCはサーバー上での検索エンジンを利用したニュース記事のリクエストをし、クラウドサーバーはそのリクエストに対して、例えば登録サイトのニュースデータをテキストデータとしてレスポンスする。
ロボット1はニュースデータを音声合成して読み上げる(出力する)と同時に記事の情報源の名称も音声合成して読み上げる(出力する)。また、併せて表示画面としてのタッチパネル部7には記事の情報源のURLを表示をし、タッチパネル部7上でそのURLにタッチされたら、そのURLのページの内容をタッチパネル部7上に表示するようにする。
また、記事や記事の情報源を読み上げる場合には、それらが引用であることがわかるような表現で出力することがよい。
例えば、URL「https://\\\\.jp/archives/92###」の記事内容を読み上げる場合を説明する。
『「××ニュース」のサイトの記事を読み上げるよ。「・・・・・を本年1月15日より販売する。」そうだよ。』
というように、例えば「のサイトの記事を読み上げるよ。」や「そうだよ」というような記事や記事の情報源以外を正規表現として引用であるように、聞き手にわかるように発話させ、この場合では画面表示に、例えば『https://\\\\.jp/archives/92###の情報だよ。』というようにURLを表示させる。そしてこのURL部分にタッチすることでタッチパネル部7に読み上げた記事の内容を改めて表示させる。
「聞き手にわかるように発話」とは記事部分とそうでない部分で、例えば語調や声を変えるようにすることがよい。
このようにすれば、Web記事を読まなくともロボット1の読み上げた内容を聞き取る
だけでニュース内容を理解でき、場合によっては念のため目視でニュース内容を確認することもできる。
<Embodiment 8>
The robot 1 may, for example, read aloud news articles on a website according to a user's request. The controller MC of the robot 1 makes a request for news articles using a search engine on the server, and the cloud server responds to the request with, for example, news data from registered sites as text data.
The robot 1 synthesizes and reads out (outputs) the news data, and at the same time synthesizes and reads out (outputs) the name of the information source of the article. At the same time, the URL of the information source of the article is displayed on the touch panel section 7 as a display screen, and when the URL is touched on the touch panel section 7, the content of the page of the URL is displayed on the touch panel section 7. make it
Also, when reading out an article or the information source of the article, it is preferable to output in an expression that makes it possible to understand that they are quotes.
For example, a case will be described in which the content of the article at the URL "https://\\\\.jp/archives/92###" is read.
“I will read out the article on the site of “XX News”. "... will be on sale from January 15th this year."That's right. 』
For example, "I'll read the article on the site." or "That's right." Then, on the screen display, for example, "This is the information of https://\\\\.jp/archives/92###. ] to display the URL. By touching the URL portion, the content of the read-out article is displayed on the touch panel portion 7 again.
"Speaking so that the listener can understand" means to change the tone or voice between the article part and the non-article part, for example.
In this way, the content of the news can be understood just by listening to the content read by the robot 1 without reading the Web article, and in some cases, the content of the news can be confirmed visually just in case.

<実施の形態9>
実施の形態9ではコンピュータの見えない動きをロボットのアクチュエータの動作で見せる場合について説明する。
(1)ロボティクスプロセスオートメーションについて
ロボティクスプロセスオートメーション(以下、RPAとする)は、単純なパソコン作業を自動化するソフトウェアである。ソフトウェアはサーバーに設定することもでき、ユーザーのコンピュータに設定することもできる。図15に基づいてソフトウェアをサーバーに設定した場合であって、上記各実施の形態のロボット1をRPAのネットワークに組み込んだ場合の一例について説明する。
図15に示すように、クラウドサーバー55とユーザー側コンピュータ56、57とがインターネットを使用したネットワークで接続されている。また、クラウドサーバー55とロボット1もネットワークで接続されている。ユーザー側コンピュータ56はRPAプログラムによってクラウドサーバー55によって制御されている。また、ロボット1にはクラウドサーバー55によって実行されるRPAのためのプログラムにおける所定の処理においてその処理がまもなく実行される、実行されている、あるいは実行された等の処理情報が報知されるようになっている。
クラウドサーバー55はユーザー側コンピュータ56に処理1~処理4を順に処理させる。本実施の形態では処理1と処理2はコンピュータ56、処理3と処理4はコンピュータ57が実行する。もっと多くの処理を設定してもよく、処理に関わるユーザー側コンピュータ56も1以上いくつでもよい。
処理1としては、例えばコンピュータ56へのユーザーのアクセス・ログイン等、処理2としては、例えばコンピュータ56内のデータに基づくリストの作成・仕分け等、処理3は、例えば処理2に続いて実行する顧客毎の請求内容の修正、処理4は、例えば処理3に続いて実行する請求書の発行である。本実施の形態9では例えば処理3ではユーザに修正のための入力を促し、その入力があって後に、次の処理4に移行するものとする。つまり、処理2の後は処理3での力が完了するまで一旦待ち受けードとなる。
クラウドサーバー55はこれらの処理を実行する直前、処理中、処理後にそれぞれロボット1に異なる報知情報を出力し、ロボット1はその報知情報に基づいてロボット1の周囲に処理状況を報知するようにするとよい。あるいは各処理毎に一回の報知でもよい。
<Embodiment 9>
In the ninth embodiment, a case will be described in which invisible movements of the computer are made visible by movements of actuators of the robot.
(1) Robotics process automation Robotics process automation (hereinafter referred to as RPA) is software that automates simple personal computer work. The software can be set up on a server or it can be set up on the user's computer. An example of the case where the software is set in the server based on FIG. 15 and the robot 1 of each of the above embodiments is incorporated into the RPA network will be described.
As shown in FIG. 15, a cloud server 55 and user-side computers 56 and 57 are connected by a network using the Internet. The cloud server 55 and the robot 1 are also connected via a network. The user side computer 56 is controlled by the cloud server 55 by the RPA program. In addition, the robot 1 is notified of processing information such as a predetermined processing in a program for RPA executed by the cloud server 55 that will be executed soon, is being executed, or has been executed. It's becoming
The cloud server 55 causes the user-side computer 56 to process the processes 1 to 4 in order. In this embodiment, the computer 56 executes the processes 1 and 2, and the computer 57 executes the processes 3 and 4. FIG. More processes may be set, and one or more user-side computers 56 may be involved in the process.
Process 1 is, for example, user access/login to computer 56, etc. Process 2 is, for example, list creation/sorting based on data in computer 56, etc. Process 3 is, for example, a customer executed following process 2 Correction of each billing content, process 4 is, for example, issuance of a bill executed subsequent to process 3. FIG. In the ninth embodiment, for example, in process 3, the user is prompted to make an input for correction, and after receiving the input, the next process 4 is performed. In other words, after processing 2, the system temporarily enters a standby mode until the force in processing 3 is completed.
The cloud server 55 outputs different notification information to the robot 1 immediately before, during, and after executing these processes, and the robot 1 notifies the surroundings of the robot 1 of the processing status based on the notification information. good. Alternatively, the notification may be made once for each process.

例えば、
a.ロボット1がどの処理がどのような状態かを音声や音の違い、あるいは音楽等で報知する。
b.表示画面上で報知する。a.と同時に行ってもよい。
c.処理3ではユーザーの入力が必要であるため、処理3だけを報知するようにしてもよく、処理3だけを他の報知とは異なる(識別できる)報知としてもよい。
d.ロボット1から他の端末装置に処理の状態を転送して報知する。
e.ロボット1が処理状況がわかるような動作をする。例えば、コンピュータ56の処理が行われていればその方向を向くように制御する。そのため、前もってロボット1に対する各コンピュータ56、57の方向は何らかの方向特定手段、例えば上記の形状認識プログラムを使用して認識しておくことがよい。ロボット1に例えば矢印や腕部材のような方向指示部材を設け、その指し示す方向に報知対象としてのコンピュータ56、57があるように動作してもよい。
for example,
a. The robot 1 notifies which process is in what state by voice, sound, music, or the like.
b. Notify on the display screen. a. can be done at the same time.
c. Since processing 3 requires user input, only processing 3 may be notified, or only processing 3 may be notified differently (identifiable) from other notifications.
d. The status of processing is transferred from the robot 1 to another terminal device and notified.
e. The robot 1 behaves so that the processing status can be understood. For example, if the processing of the computer 56 is being performed, it is controlled to face in that direction. Therefore, the directions of the computers 56 and 57 with respect to the robot 1 should be recognized in advance using some means for identifying directions, such as the above shape recognition program. For example, the robot 1 may be provided with a direction indicating member such as an arrow or an arm member so that the computers 56 and 57 as notification targets are located in the indicated direction.

(2)ブロックチェーンについて
ブロックチェーンは多数のコンピュータが分散して記録する仕組みである。特にパブリック型のブロックチェーンでは記録対象のデータや記録されたデータが公開される。
そこでブロックチェーンのネットワーク中にロボット1を配置し、ブロックデータが送信される前にユーザーにロボット1がお知らせするようにする。ロボット1に「待て」という命令を出力させることで(つまりデータ送信させずに待機するリクエストをする)送信を停止させるようにするとよい。
(2) Blockchain Blockchain is a mechanism in which a large number of computers are distributed and recorded. Especially in public blockchains, the data to be recorded and the recorded data are made public.
Therefore, the robot 1 is placed in the blockchain network and the robot 1 notifies the user before the block data is sent. It is preferable to stop the transmission by causing the robot 1 to output a command to "wait" (that is, to make a request to wait without transmitting data).

<実施の形態10>
各実施の形態では自然対話モードについて説明したが、自然対話モードに代えて、または、自然対話モードとともに、外国語学習モードを設けるとよい。自然対話モードに加えて外国語学習モードを設けるときは、例えば自然対話モードで「外国語学習モードへ切り替え」という音声を認識したときに自然対話モードから外国語学習モードへ切替えるとよい。また「外国語学習モード」で「自然対話モードへ切り替え」という音声を認識したときに外国語学習モードから自然対話モードへ切替えるとよい。
よく外国語を習得するには外国人の友人を作るとよいなどと言われるが、そのような機会に恵まれる人は多くない。そこで外国語学習のパートナーになり得る対話システムである外国語学習機能を備えるとよい。
任意の第一言語と第二言語との連携とすることができる。以下、日本語の対話システムと英語の対話システムを連携させる構成で説明する。
基本的には英語で会話するシステムとし、会話中に日本語で「もう一回言って」などの要求を出力するとよい。さらに、英文解析Webサービスなどと連携して、「説明して」などの要求にたいして会話中の英文を日本語で解説する機能を備える。会話中に言いたいことが英語でどう言えばいいかわからないときには、「翻訳して」と要求をすると英語でどういうのかを出力する。出力された英文を読めばそのまま会話を続けることができる。自分で調べたりする必要がないので、会話が途切れることもなく、円滑な英会話学習が期待できる。
外国語学習モードでの母国語(例えば、日本人なら日本語)の音声認識エンジンと外国語(例えば英語)の音声認識エンジンはどちらもクラウド上で動作している音声認識エンジンを利用するようにしてもよいが、母国語(例えば日本語)については要求内容が定型文であること、要求に対する回答のフォーマットが決まっていることから、ローカル(例えばロボット1内)に音声認識エンジンを設けこれを利用するとよい。対話エンジンも同様である。音声合成エンジンもいずれの場所に設けてもよいが、特にローカルに設けるとよい。
マイクロフォン12からの信号に基づく音声データを両言語の音声認識エンジンに投げると、どちらの音声認識エンジンからもなんらかの結果が返ってくる。例えば、「もう一回言って」という日本語を両方のエンジンに投げると、日本語のエンジンは「もう一回言って」というテキストデータを返し、英語のエンジンは「もう一回言って」を英語として解釈したデタラメなテキスト データを返してくる。このような場合、日本語の要求は定型文であるため、日本語のエンジンが返してきたテキストデータと要求の定型文を比較して、一致すれば日本語の要求がされたと判断し、一致しなければ英語が話されたと判断することで、英語と日本語を切り分ける処理を行なうと良い。
要求は英語で受け付けるようにしてもよいが、特に、要求をしようにも英語がわからないというケースを想定して、日本語でも要求できるようにすることが望ましいことを発明者は見出した。
「説明して」などの要求に対して会話中の英文を日本語で解説する機能は、単に英文の訳を日本語にして出力するだけでもよいが、特に英文で用いられている語句や文法の解説を出力するとよい。特にその英文で用いられている構文についての解説を出力するとよい。構文についての解説は例えば各句を頂点(ノード)して例えば各句を囲む描画をし、関連する各句の関係を示す線分等の枝(エッジ)を描画するとよい。例えばグラフ構造(特にツリー構造とするとよい)の図でタッチパネル部7に表示するとよい。
また、表示した内容を音声でスピーカ装置13から出力するとよい。例えば、https://gigazine.net/news/20160602-foxtype-review/で解説されるような構文解析サービスのAP
Iをコールし、その結果を受け取って、解析結果を日本語で出力する構成とするとよい。
例えば以下のような処理と出力を行なう。
『 処理 英語の対話エンジンからフレーズを取得
ロボット I'm a fantastic robot.
人 「もう一回言って」
ロボット I'm a fantastic robot.
人 「説明して」
処理 (「説明して」を認識)→構文解析APIコール→構文解析結果から日本語解説を生成
ロボット Iが主語で、amが動詞、robotが目的語になるよ。
fantasticは素晴らしいという意味の形容詞でrobotを修飾しているよ。
英文は「私は素晴らしいロボットです」という意味になるよ。
人 「I don't think so.」
ロボット Don't say it! 』
話したいことが英語でわからなければ、日本語で英語での言い方を教えてくれるように要求できるので会話が途切れないという優れた効果を発揮する。日本語での要求ができない場合は、英語での言い方がわからないとき、辞書で調べたりネットで翻訳したりする必要があり、勉強しているという感じになってしまいストレスを感じる。日本語で要求できれば、ただバイリンガルと会話しているという感覚でストレスなく学習できる。語学学習は継続することがとても大事であるから、なるべく学習の際にストレスが少ないということは継続する上で極めて重要なことである。本構成によれば、継続して語学学習を行なえるロボット1を実現できる。
<Embodiment 10>
Although the natural dialogue mode has been described in each embodiment, a foreign language learning mode may be provided in place of the natural dialogue mode or together with the natural dialogue mode. When a foreign language learning mode is provided in addition to the natural dialogue mode, it is preferable to switch from the natural dialogue mode to the foreign language learning mode, for example, when a voice saying "switch to foreign language learning mode" is recognized in the natural dialogue mode. Also, it is preferable to switch from the foreign language learning mode to the natural dialogue mode when the voice of "switch to the natural dialogue mode" is recognized in the "foreign language learning mode".
It is often said that the best way to learn a foreign language is to make foreign friends, but not many people have such an opportunity. Therefore, it is preferable to provide a foreign language learning function, which is a dialogue system that can be a partner for foreign language learning.
It can be any first and second language association. A configuration in which a Japanese dialogue system and an English dialogue system are linked will be described below.
Basically, the system should allow conversations in English, and a request such as "Tell me again" should be output in Japanese during the conversation. Furthermore, in cooperation with an English language analysis web service, etc., it has a function to explain the English sentences in conversation in Japanese in response to requests such as "explain". If you don't know how to say what you want to say in English during a conversation, you can request "translate" and it will output what you mean in English. If you read the output English sentence, you can continue the conversation as it is. Since there is no need to do research on your own, you can expect smooth English conversation learning without interruptions in conversation.
In the foreign language learning mode, both the native language (e.g. Japanese for Japanese) speech recognition engine and the foreign language (e.g. English) speech recognition engine should use the speech recognition engine running on the cloud. However, for native languages (e.g., Japanese), since the content of the request is a fixed phrase and the format of the response to the request is fixed, a voice recognition engine is provided locally (e.g., in the robot 1). Good to use. So is the dialogue engine. The text-to-speech engine may also be located anywhere, but preferably locally.
When the speech data based on the signal from the microphone 12 is fed to speech recognition engines in both languages, either speech recognition engine will return some result. For example, if you throw the Japanese word "say it again" to both engines, the Japanese engine will return the text data "say it again" and the English engine will return "say it again" Returns random text data interpreted as English. In such a case, since the Japanese request is a fixed phrase, the text data returned by the Japanese engine is compared with the fixed phrase of the request. If they do not match, it is judged that English was spoken, and a process for separating English and Japanese should be performed.
Although the request may be accepted in English, the inventor has found that it is desirable to be able to make the request in Japanese as well, especially assuming a case where the user does not understand English even when making a request.
The function to explain English in Japanese in response to a request such as "explain" may simply output a translation of the English in Japanese, but especially the phrases and grammar used in English It is good to output the explanation of . In particular, it is good to output a commentary on the syntax used in the English sentence. In order to explain the syntax, it is preferable to draw each phrase as a vertex (node), for example, to draw surrounding each phrase, and to draw branches (edges) such as line segments that indicate the relationship between related phrases. For example, it is preferable to display on the touch panel unit 7 in the form of a graph structure (especially a tree structure).
Moreover, it is preferable to output the displayed content from the speaker device 13 by voice. For example, parsing service AP as described at https://gigazine.net/news/20160602-foxtype-review/
I should be configured to call I, receive the result, and output the analysis result in Japanese.
For example, the following processing and output are performed.
"processing get phrases from english dialogue engine robot i'm a fantastic robot.
Person: Say it again
Robot I'm a fantastic robot.
person "explain"
Processing (recognizes "Explain me") → Syntax analysis API call → Generates Japanese explanation from the result of syntax analysis Robot I is the subject, am is the verb, and robot is the object.
Fantastic modifies robot with an adjective meaning fantastic.
In English, it means "I am a wonderful robot."
Hito "I don't think so."
Robot Don't say it!
If you don't understand what you want to say in English, you can ask for Japanese to teach you how to say it in English. If you can't make a request in Japanese, when you don't know how to say it in English, you have to look it up in a dictionary or translate it on the internet. If you can make a request in Japanese, you can learn without stress as if you were just talking to a bilingual. Since it is very important to continue learning a language, it is extremely important to keep learning as stressful as possible. According to this configuration, it is possible to realize the robot 1 that can continuously learn the language.

<実施の形態11>
各実施の形態で説明した機能に加え、ロボット1の設置された室内へ人が入ってきたことを検知したとき発話する機能を設けるとよい。またロボット1の設置された室内から人が出ていくことを検知したとき発話する機能を設けるとよい。
例えば、その室内とその室内以外の場所の通路にセンサを設けて、ロボット1の設置された室内へ人が入ってきたこと、ロボット1の設置された室内から人が出ていくことを検知するとよい。特にロボット1が設置された室内に出入りするための自動ドアがある場合、センサは特に自動ドアの開閉のために人がその自動ドアに接近していることを検知するセンサを用いると良い。特に自動ドアをはさんで室外にある第一の人検知センサと、自動ドアをはさんで室内にある第二の人検知センサと、自動ドアが開いているときに自動ドアの場所にいる人を検知する第三の人検知センサセンサ(人のドアへの挟み込みを防止するためのセンサ)の少なくともいずれか2つにロボット1のコントローラMCを接続して、室内への出入りを検知するとよい。このようにすれば、ロボット1が設置された室内への出入り等を新たなセンサを設置することなく検出できる。例えば各センサの人を検知した際に立ち上がる信号のエッジを捉えて検出するとよい。
例えば、第一の人検知センサで人が検知された後、第三の人検知センサで人が検知された場合、「いらっしゃいませ」などと入ってきた人を歓迎するフレーズの音声をスピーカ装置13から出力するとよい。例えば、第二の人検知センサで人が検知された後、第三の人検知センサで人が検知された場合、「ありがとうございました」と出ていく人に感謝するフレーズの音声をスピーカ装置13から出力するとよい。
これらのときに第1~第3のモータ23~25を動かし、ロボット1の設置位置から予め設定した自動ドアの方を向く動作を行なうようにするとよい。なお、第一の人検知センサと第二の人検知センサとが同じ時に人を検知した場合には、第一の人検知センサを優先するとよい。このようにすれば、入ってくる人によりロボット1の存在を気づいてもらいやすくなるとともに、入ってくる人が「ありがとうございます」とロボット1にいきなり言われる違和感を軽減できる。
<Embodiment 11>
In addition to the functions described in each embodiment, it is preferable to provide a function of speaking when it is detected that a person has entered the room in which the robot 1 is installed. Further, it is preferable to provide a function of speaking when it is detected that a person leaves the room where the robot 1 is installed.
For example, if sensors are provided in the room and passages outside the room to detect that a person has entered the room in which the robot 1 is installed and that a person has left the room in which the robot 1 has been installed. good. In particular, when there is an automatic door for entering and exiting the room where the robot 1 is installed, it is preferable to use a sensor that detects that a person is approaching the automatic door to open and close the automatic door. In particular, the first human detection sensor outside the automatic door, the second human detection sensor inside the automatic door, and the person at the automatic door when the automatic door is open. The controller MC of the robot 1 may be connected to at least two of the third human detection sensor sensors (sensors for preventing a person from being caught in the door) to detect entry and exit into the room. In this way, it is possible to detect the entry and exit of the room in which the robot 1 is installed without installing a new sensor. For example, detection may be performed by capturing an edge of a signal that rises when each sensor detects a person.
For example, after a person is detected by the first person detection sensor, when a person is detected by the third person detection sensor, the loudspeaker device 13 outputs a phrase such as "Welcome" to welcome the person who has entered. should be output from For example, when a person is detected by the third person detection sensor after the person is detected by the second person detection sensor, the loudspeaker device 13 outputs a voice saying "thank you very much" to thank the person. should be output from
At these times, the first to third motors 23 to 25 may be operated to move the robot 1 from the installation position toward the preset automatic door. Note that if the first human detection sensor and the second human detection sensor detect a person at the same time, the first human detection sensor should be prioritized. In this way, it becomes easier for people who enter to notice the existence of the robot 1, and it is possible to reduce the sense of incongruity when the people who enter suddenly say "thank you" to the robot 1.

<その他の実施の形態>
(1)各実施形態等においては、無線LAN装置21を備えることとしたが、これに代えてまたはこれとともに有線LAN装置を備え、有線LANネットワークに接続するようにしてもよい。有線LAN装置はロボット1に内蔵しても、外付けとしてもよい。USBのOTG(On-The-Go)用の端子18に有線LAN装置を接続する構成としてもよい。有線LANネットワークはルーター等を介してインターネットに接続される構成とするとよい。無線LANは環境によっては通信が安定しないまたは接続できないケースも想定されうる。例えばスマホ等、多数の無線LAN装置が存在する場所にロボット1を設置する場合には有線LAN装置を介してインターネットにアクセスする構成とすると望ましい。
(2)各実施形態等においては、半二重方式での人とロボット1との対話の例を示しているが、全二重方式で人とロボット1との対話を行なうようにしてもよい。例えば表1の対話の中で「・・・を開いて」と人が行った後、「本当にいいですか」の発話を行っている間も人の音声の認識を続け「取消」という音声が「本当にいいですか」の発話中に認識された場合には、発話中であれば発話を中断し、すぐに「中止しました」とロボットから発話するように構成してもよい。
(3)半二重方式での対話を行なう構成は、構成や処理を簡素化でき、コストを低減できるので特によい。しかし、ロボット1がマイクロフォン12をオンにしたタイミングが分かりづらく、ユーザーが喋っても、ロボットが認識対象とするユーザーの音声の先頭部分、すなわち言葉の先頭部分が欠けてしまうことが多いという課題を発明者らは見出した。この課題を解決するため、コントローラMCがマイクをオンしたタイミングで特徴的な画面表示をおこなうとよい。これによりスムーズな会話をサポートする。コントローラMCがマイクをオンしたタイミングで特徴的な画面表示をおこなう態様としては、1)画面の四隅を光らせる、2)マイクのアイコンを表示させる、の少なくともいずれか一方を行なうとよく、特に1)、2)の両方とも行うと優れた効果を発揮する。
(4)第1~第3のモータ23~25を構成するモータとしては、DCモータなど各種のモータとすることができるが、特にステッピングモータとするとよく、ロボット1はステッピングモータにより姿勢を制御する構成とするとよい。ステッピングモータはモータに流す電流に比例してトルクの大きさが変わる。電流をたくさん流せば大きなトルクを得られるが、発熱や電池寿命などが問題になる。そこでロボット1の静止時はその姿勢を維持するために必要な最小限の電流を流し、ロボット1が姿勢を変えるときのみ大きな電流を流すようにすると特によい。なお、サーボモータ23~25のすべてについてその静止時に姿勢を維持するために必要な最小限の電流を通電するようにしてもよいが、ディテントトルク(通電しない状態でのトルク)で支持できる胴体部の第1のモータ23は通電しないようにする一方、頭部分はディテントトルクでは負けてしまうため第2のモータ24,第3のモータ25については静止時もこの通電をするようするとよい。
また、静止時のトルクのまま回転させるとトルク不足で脱調が起こり上手く回転しないため、回転させる時は静止時に比べ、電流をたくさん流すようにしてトルクを上げるとよい。一方、静止時は回転時のような大きなトルクは必要ないので回転時に比べ、電流を下げるとよい。
また、ある方向に向きを変える場合、加速しながら一定速度まで上げて目的の角度が近づいたら減速して止めるという制御を行なうとよい。
また、ロボットをモータによって駆動させると機械的、電気的なノイズを発生する。このノイズが音声認識の認識率を低下させるので音声認識中はモータを停止するように制御するとよい。
本発明の範囲は,明細書に明示的に説明された構成や限定されるものではなく,本明細書に開示される本発明の様々な側面の組み合わせをも,その範囲に含むものである。本発明のうち,特許を受けようとする構成を,添付の特許請求の範囲に特定したが,現在の処は特許請求の範囲に特定されていない構成であっても,本明細書に開示される構成を,将来的に特許請求の範囲とする意思を有する。
本願発明は上述した実施の形態に記載の構成に限定されない。上述した各実施の形態や
変形例の構成要素は任意に選択して組み合わせて構成するとよい。また各実施の形態や変形例の任意の構成要素と,発明を解決するための手段に記載の任意の構成要素または発明を解決するための手段に記載の任意の構成要素を具体化した構成要素とは任意に組み合わせて構成するとよい。これらについても本願の補正または分割出願等において権利取得する意思を有する。また「~の場合」「~のとき」という記載があったとしてもその場合やそのときに限られる構成として記載はしているものではない。これらの場合やときでない構成についても開示しているものであり、権利取得する意思を有する。また順番を伴った記載になっている箇所もこの順番に限らない。一部の箇所を削除したり、順番を入れ替えた構成についても開示しているものであり、権利取得する意思を有する。
また,意匠出願への変更出願により,全体意匠または部分意匠について権利取得する意思を有する。図面は本装置の全体を実線で描画しているが,全体意匠のみならず当該装置の一部の部分に対して請求する部分意匠も包含した図面である。例えば当該装置の一部の部材を部分意匠とすることはもちろんのこと,部材と関係なく当該装置の一部の部分を部分意匠として包含した図面である。当該装置の一部の部分としては,装置の一部の部材としても良いし,その部材の部分としても良い。全体意匠はもちろんのこと,図面の実線部分のうち任意の部分を破線部分とした部分意匠を,権利化する意思を有する。
<Other embodiments>
(1) In each embodiment, etc., the wireless LAN device 21 is provided, but a wired LAN device may be provided instead of or together with this and connected to a wired LAN network. The wired LAN device may be built in the robot 1 or may be externally attached. A wired LAN device may be connected to the USB OTG (On-The-Go) terminal 18 . The wired LAN network may be configured to be connected to the Internet via a router or the like. Depending on the environment, wireless LAN communication may not be stable or connection may not be possible. For example, when the robot 1 is installed in a place where there are many wireless LAN devices such as smartphones, it is desirable to access the Internet via the wired LAN devices.
(2) In each embodiment, etc., an example of interaction between the human and the robot 1 in the half-duplex method is shown, but the interaction between the person and the robot 1 may be performed in the full-duplex method. . For example, in the dialog shown in Table 1, after the person says "Open...", the human voice recognition continues while the person says "Are you sure?" If the recognition is made during the utterance of "Are you sure?", the utterance may be interrupted if the utterance is still in progress, and the robot may immediately utter "Cancelled".
(3) The configuration for half-duplex communication is particularly good because it simplifies the configuration and processing and reduces the cost. However, it is difficult to know when the robot 1 turns on the microphone 12, and even if the user speaks, the first part of the user's speech that the robot recognizes, that is, the first part of the words, is often missing. The inventors have found. In order to solve this problem, it is preferable to perform a characteristic screen display at the timing when the controller MC turns on the microphone. This supports smooth conversation. As a mode of displaying a characteristic screen at the timing when the controller MC turns on the microphone, it is preferable to perform at least one of 1) lighting the four corners of the screen and 2) displaying a microphone icon, especially 1). , and 2) exhibit excellent effects.
(4) Various motors such as DC motors can be used as the motors constituting the first to third motors 23 to 25, but stepping motors are particularly preferable, and the posture of the robot 1 is controlled by the stepping motors. configuration. A stepping motor changes its torque in proportion to the current flowing through the motor. If a large amount of current is applied, a large amount of torque can be obtained, but problems such as heat generation and battery life arise. Therefore, when the robot 1 is at rest, it is particularly preferable to apply a minimum current required to maintain its posture, and apply a large current only when the robot 1 changes its posture. It should be noted that although the minimum current required to maintain the attitude of all the servo motors 23 to 25 at rest may be energized, the body portion that can be supported by the detent torque (torque when not energized) While the first motor 23 is not energized, the second motor 24 and the third motor 25 should be energized even when the head is stationary because detent torque is lost.
In addition, if the motor is rotated with the torque at rest, it will lose synchronism due to lack of torque and will not rotate well. On the other hand, when the motor is stationary, it does not require a large torque as it does when rotating, so it is better to lower the current compared to when rotating.
Also, when changing the direction in a certain direction, it is preferable to perform control such that the speed is increased to a constant speed while accelerating, and then decelerates and stops when the target angle is approached.
In addition, when a robot is driven by a motor, it generates mechanical and electrical noise. Since this noise lowers the recognition rate of speech recognition, the motor should be controlled to stop during speech recognition.
The scope of the invention is not limited to the configurations or limitations expressly set forth herein, but rather includes within its scope any combination of the various aspects of the invention disclosed herein. Although the patentable configuration of the present invention is specified in the appended claims, any configuration not currently specified in the claims is disclosed herein. It is our intention to claim such configurations in the future.
The present invention is not limited to the configurations described in the above-described embodiments. The constituent elements of the above-described embodiments and modifications may be arbitrarily selected and combined. In addition, arbitrary constituent elements of each embodiment and modifications, arbitrary constituent elements described in Means for Solving the Invention, or constituent elements embodying arbitrary constituent elements described in Means for Solving the Invention and may be configured in any combination. We intend to acquire the rights for these as well in the amendment of the present application or in a divisional application. In addition, even if there is a description of "in case of" or "when", it is not described as a configuration limited to that case or time. We disclose and intend to reserve these occasions and occasions. Moreover, the parts described with order are not limited to this order. It also discloses a configuration in which some parts are deleted or the order is changed, and there is an intention to acquire the right.
I also intend to acquire rights to the whole design or partial design by filing a conversion application to a design application. Although the drawing shows the entire device in solid lines, the drawing includes not only the overall design but also the partial design claimed for a part of the device. For example, it is a drawing that includes a part of the device as a partial design regardless of the member, as well as a partial design of a member of the device. The part of the device may be a part of the device or a part of the member. We intend to acquire rights not only for the overall design, but also for the partial design in which any part of the solid line part of the drawing is the broken line part.

1…装置としてのロボット、41…他の機器としてのスマートフォン、51…他の機器としてのスマートスピーカ。

1... A robot as a device, 41... A smart phone as another device, 51... A smart speaker as another device.

Claims (13)

入力文字列に対応する出力文字列を出力する対話エンジンを備える異なる複数のサーバに対して音声認識に基づく文字列を前記入力文字列として送信し、前記異なる複数のサーバから前記出力文字列として出力された文字列を受信し、前記異なる複数のサーバから受信した前記出力文字列として出力された文字列に基づいてユーザー又は他の機器の少なくともいずれか一方への出力情報の出力をすることでユーザー又は他の機器と対話させる機能を有すること A character string based on speech recognition is transmitted as the input character string to a plurality of different servers equipped with a dialogue engine that outputs an output character string corresponding to the input character string, and is output as the output character string from the plurality of different servers. and outputting output information to at least one of the user or other device based on the character string output as the output character string received from the different servers Or have a function to interact with other devices
を特徴とする装置。 A device characterized by:
前記異なる複数のサーバから前記出力文字列として出力された文字列を受信し、最も長い前記出力文字列を選択して対話させる機能を有することを特徴とする請求項1に記載の装置。 2. The apparatus according to claim 1, having a function of receiving character strings output as said output character strings from said plurality of different servers, and selecting the longest said output character string for interaction. 前記異なる複数のサーバから前記出力文字列として出力された文字列を受信し、語尾に疑問符がついた前記出力文字列を選択して対話させる機能を有することを特徴とする請求項1または2に記載の装置。 3. The apparatus according to claim 1, further comprising a function of receiving character strings output as said output character strings from said plurality of different servers, selecting said output character strings with question marks at the end of words, and causing dialogue. Apparatus as described. 前記異なる複数のサーバから前記出力文字列として出力された文字列を受信し、肯定文を組み合わせた後に疑問文を組み合わせて対話させる機能を有することを特徴とする請求項1~3のいずれかに記載の装置。 4. A function according to any one of claims 1 to 3, characterized in that it has a function of receiving character strings output as said output character strings from said plurality of different servers, combining affirmative sentences and then combining interrogative sentences to have a dialogue. Apparatus as described. 前記異なる複数のサーバから前記出力文字列として出力された文字列を受信し、話題転換した文字列を最後に配置するように組み合わせて対話させる機能を有することを特徴とする請求項1~4のいずれかに記載の装置。 It has a function of receiving character strings output as said output character strings from said plurality of different servers, combining them so as to arrange the character strings changed in topic at the end, and interacting with them. A device according to any one of the preceding claims. 前記異なる複数のサーバから前記出力文字列として出力された文字列を受信し、フレンドリーな前記出力文字列を初めに配置するように組み合わせて対話させる機能を有することを特徴とする請求項1~5のいずれかに記載の装置。 Claims 1 to 5, characterized by having a function of receiving character strings output as said output character strings from said plurality of different servers, combining said friendly output character strings so as to place them first, and interacting with said character strings. A device according to any of the preceding claims. 前記異なる複数のサーバから前記出力文字列として出力された文字列を受信し、それらをランダムな順で組み合わせて対話させる機能を有することを特徴とする請求項1~6のいずれかに記載の装置。 7. The device according to any one of claims 1 to 6, characterized by having a function of receiving character strings output as said output character strings from said plurality of different servers, combining them in random order, and interacting with them. . 前記異なる複数のサーバから前記出力文字列として出力された文字列を受信し、それらの内に顔文字を含む前記出力文字列がある場合には、対話対象とせず、表示部には対話対象とされた前記出力文字列と一緒に表示させる機能を有することを特徴とする請求項1~7のいずれかに記載の装置。 When character strings output as the output character strings are received from the plurality of different servers, and if the output character strings including emoticons are included in the character strings, they are not regarded as a dialogue target, and displayed on a display unit as a dialogue target. 8. The apparatus according to any one of claims 1 to 7, characterized by having a function of displaying together with said output character string. 前記異なる複数のサーバから前記出力文字列として出力された文字列を受信し、同じ文字列が含まれる前記出力文字列同士についてはいずれか1つのみを選択して他の前記出力文字列と組み合わせて対話させる機能を有することを特徴とする請求項1~8のいずれかに記載の装置。 receiving character strings output as the output character strings from the plurality of different servers, and selecting only one of the output character strings containing the same character string and combining it with the other output character strings 9. The device according to any one of claims 1 to 8, characterized in that it has a function of interacting with the 前記異なる複数のサーバから前記出力文字列として出力された文字列を受信し、前記出力文字列の語尾を語尾変換エンジンによって変換してから組み合わせて対話させる機能を有することを特徴とする請求項1~9のいずれかに記載の装置。 2. A function of receiving character strings output as said output character strings from said plurality of different servers, converting the endings of said output character strings by an ending conversion engine, and then combining and interacting with them. 10. The device according to any one of -9. 前記異なる複数のサーバから前記出力文字列として出力された文字列を受信し、すべての前記出力文字列を使用せずに一部の前記出力文字列を記憶手段に記憶させておき、以後の対話で前記記憶手段から取り出して対話に使用させる機能を有することを特徴とする請求項1~10のいずれかに記載の装置。 Receiving character strings output as the output character strings from the plurality of different servers, storing part of the output character strings in a storage means without using all the output character strings, and subsequent interaction 11. The device according to any one of claims 1 to 10, further comprising a function of retrieving from said storage means and using it for interaction. 音声認識エンジンを備えるサーバを利用する際に料金が無料のサーバと有料のサーバをミックスして利用することを特徴とする請求項1~11のいずれかに記載の装置。 12. The apparatus according to any one of claims 1 to 11, wherein when a server having a speech recognition engine is used, a free server and a charged server are mixed and used. 請求項1~12のいずれかに記載の装置の機能をコンピュータに実現させるためのプログラム。 A program for causing a computer to implement the functions of the device according to any one of claims 1 to 12.


JP2022129500A 2018-01-18 2022-08-16 Equipment and programs etc. Active JP7408105B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022129500A JP7408105B2 (en) 2018-01-18 2022-08-16 Equipment and programs etc.
JP2023208965A JP2024026341A (en) 2018-01-18 2023-12-12 Device and program, or the like

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018006267A JP7130201B2 (en) 2018-01-18 2018-01-18 Equipment and programs, etc.
JP2022129500A JP7408105B2 (en) 2018-01-18 2022-08-16 Equipment and programs etc.

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018006267A Division JP7130201B2 (en) 2018-01-18 2018-01-18 Equipment and programs, etc.

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023208965A Division JP2024026341A (en) 2018-01-18 2023-12-12 Device and program, or the like

Publications (2)

Publication Number Publication Date
JP2022169645A true JP2022169645A (en) 2022-11-09
JP7408105B2 JP7408105B2 (en) 2024-01-05

Family

ID=67398578

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2018006267A Active JP7130201B2 (en) 2018-01-18 2018-01-18 Equipment and programs, etc.
JP2022129500A Active JP7408105B2 (en) 2018-01-18 2022-08-16 Equipment and programs etc.
JP2023208965A Pending JP2024026341A (en) 2018-01-18 2023-12-12 Device and program, or the like

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2018006267A Active JP7130201B2 (en) 2018-01-18 2018-01-18 Equipment and programs, etc.

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023208965A Pending JP2024026341A (en) 2018-01-18 2023-12-12 Device and program, or the like

Country Status (1)

Country Link
JP (3) JP7130201B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110370299A (en) * 2019-08-12 2019-10-25 乌鲁木齐明华智能电子科技有限公司 A kind of perception of Robotic Dynamic and answering device
KR20210066651A (en) 2019-11-28 2021-06-07 삼성전자주식회사 Electronic device and Method for controlling the electronic device thereof
CN111273833B (en) * 2020-03-25 2022-02-01 北京百度网讯科技有限公司 Man-machine interaction control method, device and system and electronic equipment
UA144189U (en) * 2020-04-06 2020-09-10 Ферон (Фзс) Фрі Зоне Ко. Віз Лімітед Ліабіліті MESSAGE SYSTEM IN HOTELS

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005242243A (en) * 2004-02-27 2005-09-08 Fujitsu Ltd System and method for interactive control
US6944592B1 (en) * 1999-11-05 2005-09-13 International Business Machines Corporation Interactive voice response system
JP2005535012A (en) * 2002-07-31 2005-11-17 インチェーン プロプライエタリー リミテッド Animated messaging
JP2006172110A (en) * 2004-12-15 2006-06-29 Nec Corp Response data output device, and response data outputting method and program
JP2011090100A (en) * 2009-10-21 2011-05-06 National Institute Of Information & Communication Technology Speech translation system, controller, speech recognition device, translation device, and speech synthesizer
JP2014013569A (en) * 2012-07-03 2014-01-23 Samsung Electronics Co Ltd Display device, interactive system and response information providing method
JP2015528140A (en) * 2012-05-15 2015-09-24 アップル インコーポレイテッド System and method for integrating third party services with a digital assistant
WO2016105916A1 (en) * 2014-12-22 2016-06-30 Microsoft Technology Licensing, Llc Scaling digital personal assistant agents across devices

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001298790A (en) 2000-04-17 2001-10-26 Matsushita Electric Ind Co Ltd Recording and reproducing device and recording and reproducing method
JP2002307354A (en) 2000-11-07 2002-10-23 Sega Toys:Kk Electronic toy
JP4137399B2 (en) 2001-03-30 2008-08-20 アルパイン株式会社 Voice search device
JP4666194B2 (en) 2001-05-03 2011-04-06 ソニー株式会社 Robot system, robot apparatus and control method thereof
JP2003195886A (en) 2001-12-26 2003-07-09 Sony Corp Robot
JP2004289604A (en) 2003-03-24 2004-10-14 Sanyo Electric Co Ltd Communication device
JP2005025494A (en) 2003-07-02 2005-01-27 Fujitsu Ltd Automatic routine operation processing program, automatic routine operation processing method and automatic routine operation processing device
JP2010086403A (en) 2008-10-01 2010-04-15 Toshiba Corp Facial recognition device, facial recognition method, and passage controller
JP5332602B2 (en) 2008-12-26 2013-11-06 ヤマハ株式会社 Service providing equipment
JP5658641B2 (en) 2011-09-15 2015-01-28 株式会社Nttドコモ Terminal device, voice recognition program, voice recognition method, and voice recognition system
JP5753869B2 (en) 2013-03-26 2015-07-22 富士ソフト株式会社 Speech recognition terminal and speech recognition method using computer terminal
JP2015150620A (en) 2014-02-10 2015-08-24 日本電信電話株式会社 robot control system and robot control program
JP2016062264A (en) 2014-09-17 2016-04-25 株式会社東芝 Interaction support apparatus, method, and program
JP6598369B2 (en) 2014-12-04 2019-10-30 株式会社トランスボイス・オンライン Voice management server device
JP6549009B2 (en) 2015-09-30 2019-07-24 株式会社東芝 Communication terminal and speech recognition system
JP6165302B1 (en) 2016-07-19 2017-07-19 株式会社ウィンクル Image display device, topic selection method, topic selection program

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6944592B1 (en) * 1999-11-05 2005-09-13 International Business Machines Corporation Interactive voice response system
JP2005535012A (en) * 2002-07-31 2005-11-17 インチェーン プロプライエタリー リミテッド Animated messaging
JP2005242243A (en) * 2004-02-27 2005-09-08 Fujitsu Ltd System and method for interactive control
JP2006172110A (en) * 2004-12-15 2006-06-29 Nec Corp Response data output device, and response data outputting method and program
JP2011090100A (en) * 2009-10-21 2011-05-06 National Institute Of Information & Communication Technology Speech translation system, controller, speech recognition device, translation device, and speech synthesizer
JP2015528140A (en) * 2012-05-15 2015-09-24 アップル インコーポレイテッド System and method for integrating third party services with a digital assistant
JP2014013569A (en) * 2012-07-03 2014-01-23 Samsung Electronics Co Ltd Display device, interactive system and response information providing method
WO2016105916A1 (en) * 2014-12-22 2016-06-30 Microsoft Technology Licensing, Llc Scaling digital personal assistant agents across devices

Also Published As

Publication number Publication date
JP7408105B2 (en) 2024-01-05
JP7130201B2 (en) 2022-09-05
JP2019124855A (en) 2019-07-25
JP2024026341A (en) 2024-02-28

Similar Documents

Publication Publication Date Title
US20220284896A1 (en) Electronic personal interactive device
JP7408105B2 (en) Equipment and programs etc.
US10129510B2 (en) Initiating human-machine interaction based on visual attention
TWI692717B (en) Image display device, topic selection method and program
CN110609620B (en) Human-computer interaction method and device based on virtual image and electronic equipment
US20180133900A1 (en) Embodied dialog and embodied speech authoring tools for use with an expressive social robot
EP1415218B1 (en) Environment-responsive user interface / entertainment device that simulates personal interaction
KR20220024557A (en) Detection and/or registration of hot commands to trigger response actions by automated assistants
JP6165302B1 (en) Image display device, topic selection method, topic selection program
EP3732676A1 (en) System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
CN110472130A (en) Reduce the demand to manual beginning/end point and triggering phrase
US20210205987A1 (en) System and method for dynamic robot configuration for enhanced digital experiences
KR20020071917A (en) User interface/entertainment device that simulates personal interaction and charges external database with relevant data
KR20020067592A (en) User interface/entertainment device that simulates personal interaction and responds to user&#39;s mental state and/or personality
KR20020067591A (en) Self-updating user interface/entertainment device that simulates personal interaction
US20190251716A1 (en) System and method for visual scene construction based on user communication
US20190202061A1 (en) System and method for detecting physical proximity between devices
CN110737335B (en) Interaction method and device of robot, electronic equipment and storage medium
JP2018014091A (en) Image display device, topic selection method, and topic selection program
US20210049352A1 (en) Information processing system, information processing method, and recording medium
JP2003108362A (en) Communication supporting device and system thereof
KR102063389B1 (en) Character display device based the artificial intelligent and the display method thereof
JP7015711B2 (en) Equipment, robots, methods, and programs
Zhu Quiet Interaction: Designing an Accessible Home Environment for Deaf and Hard of Hearing (DHH) Individuals through AR, AI, and IoT Technologies
USMAN et al. Polilips: application deaf & hearing disable students

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220819

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220916

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231212

R150 Certificate of patent or registration of utility model

Ref document number: 7408105

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150