JP2019184813A - Robot and robot control program - Google Patents
Robot and robot control program Download PDFInfo
- Publication number
- JP2019184813A JP2019184813A JP2018075313A JP2018075313A JP2019184813A JP 2019184813 A JP2019184813 A JP 2019184813A JP 2018075313 A JP2018075313 A JP 2018075313A JP 2018075313 A JP2018075313 A JP 2018075313A JP 2019184813 A JP2019184813 A JP 2019184813A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- parameter
- robot
- person
- motion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 claims abstract description 13
- 230000033001 locomotion Effects 0.000 claims description 159
- 230000004044 response Effects 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 abstract description 6
- 238000003786 synthesis reaction Methods 0.000 abstract description 6
- 238000000034 method Methods 0.000 description 57
- 230000008569 process Effects 0.000 description 38
- 230000032683 aging Effects 0.000 description 9
- 230000007423 decrease Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 210000004209 hair Anatomy 0.000 description 3
- 210000002768 hair cell Anatomy 0.000 description 3
- 230000000474 nursing effect Effects 0.000 description 3
- 235000015429 Mirabilis expansa Nutrition 0.000 description 2
- 244000294411 Mirabilis expansa Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 210000003027 ear inner Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005021 gait Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 235000013536 miso Nutrition 0.000 description 2
- 235000021419 vinegar Nutrition 0.000 description 2
- 239000000052 vinegar Substances 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 210000002659 acromion Anatomy 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 210000004394 hip joint Anatomy 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 210000001562 sternum Anatomy 0.000 description 1
- 210000003454 tympanic membrane Anatomy 0.000 description 1
Images
Landscapes
- Toys (AREA)
- Manipulator (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、高齢者、被介護者等の人物と会話を行うロボット及びロボット制御プログラムに関する。 The present invention relates to a robot and a robot control program that have a conversation with a person such as an elderly person or a care recipient.
介護分野では、介護者の負担を軽減するためのロボットの導入が進んでいる。従来より、人物に関する検出データに基づき、パーソナルアシスタンスを自動的、能動的に提供するロボットが提案されている(特許文献1参照)。この特許文献1に記載のロボットは、人物の健康、運動又はダイエット活動に関するパーソナルアシスタンスを行うものである。
In the care field, robots are being introduced to reduce the burden on caregivers. Conventionally, a robot that automatically and actively provides personal assistance based on detection data related to a person has been proposed (see Patent Document 1). The robot described in
しかし、特許文献1に記載のロボットは、高齢者、被介護者等の人物に合わせた会話を行うことができない。その結果、このロボットとの会話は、その人物にとって必ずしも聞き取り易いものではなく、会話が途絶えてしまい、パーソナルアシスタンスを十分に提供できないことがある。
However, the robot described in
そこで、本発明は、人物に合わせた会話を可能とするロボット及びロボット制御プログラムを提供することを課題とする。 SUMMARY OF THE INVENTION An object of the present invention is to provide a robot and a robot control program that enable conversation according to a person.
前記した課題に鑑みて、本発明に係るロボットは、人物の発話が入力されるマイクと、前記人物を撮影するカメラと、前記人物に音声を出力するスピーカとを備えるロボットであって、前記人物に対する質問を選択する質問選択部と、前記スピーカを介して、前記質問選択部が選択した質問を音声で出力する音声出力部と、前記マイクから入力された、前記質問に対する前記人物の返答を音声認識する音声認識部と、前記カメラが撮影した人物の顔画像を画像認識する顔画像認識部と、前記返答の音声認識結果、又は、前記顔画像の画像認識結果に基づいて、前記人物を特定する人物特定部と、前記人物毎のパラメータとして、強調する前記音声の高域側周波数成分を表す高域強調情報、前記質問の内容を置き換える質問置換規則、及び、話速を記憶するパラメータ記憶部と、前記人物特定部が特定した人物について、前記パラメータ記憶部からパラメータを取得するパラメータ取得部と、を備え、前記音声出力部は、前記パラメータ取得部が取得したパラメータに応じて前記質問の内容を置き換えて、当該パラメータに応じた周波数及び話速で当該質問を出力する構成とした。 In view of the above-described problems, a robot according to the present invention is a robot including a microphone to which a person's utterance is input, a camera that captures the person, and a speaker that outputs sound to the person. A question selection unit that selects a question for the voice, a voice output unit that outputs the question selected by the question selection unit by voice via the speaker, and a voice of the person's response to the question that is input from the microphone The person is identified based on the voice recognition unit that recognizes, the face image recognition unit that recognizes the face image of the person photographed by the camera, and the voice recognition result of the response or the image recognition result of the face image A person specifying unit that performs high frequency emphasis information that represents a high frequency side frequency component of the voice to be emphasized, a question replacement rule that replaces the content of the question, and a story A parameter storage unit for storing parameters, and a parameter acquisition unit for acquiring parameters from the parameter storage unit for the person specified by the person specifying unit, wherein the voice output unit uses the parameters acquired by the parameter acquisition unit as parameters Accordingly, the content of the question is replaced, and the question is output at a frequency and a speech speed corresponding to the parameter.
また、前記した課題に鑑みて、本発明に係るロボット制御プログラムは、コンピュータを、本発明に係るロボットとして機能させる構成とした。 In view of the above-described problems, the robot control program according to the present invention is configured to cause a computer to function as the robot according to the present invention.
本発明に係るロボット及びロボット制御プログラムによれば、高齢者、被介護者等の人物が聞き取りにくい単語や文章を置き換えると共に、その人物に合わせた周波数及び話速を用いることで、その人物に合わせて会話を行うことができる。 According to the robot and the robot control program according to the present invention, words and sentences that are difficult for a person such as an elderly person or a cared person to replace are replaced with each other by using a frequency and a speech speed adapted to the person. Can have a conversation.
(実施形態)
以下、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。なお、実施形態において、同一の手段には同一の符号を付し、説明を省略した。
(Embodiment)
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings as appropriate. In the embodiment, the same means is denoted by the same reference numeral, and description thereof is omitted.
[ロボットの概略]
図1を参照し、本発明の実施形態に係るロボット1の概略について説明する。
図1に示すように、ロボット1は、介護現場で用いるものであり、高齢の被介護者を相手する人型の介護ロボットである。具体的には、ロボット1は、介護者に代わって、被介護者と会話し、被介護者と共に歌唱や体操を行う。
[Robot outline]
The outline of the
As shown in FIG. 1, the
ここで、高齢の被介護者は、特定周波数の音声や早口の音声を聞き取りにくいことがある。介護施設やリハビリテーション病院では、リハビリテーションの一環として、童謡等の歌唱や体操が行われるが、被介護者は、介護者に合わせた歌唱や体操が困難なことが多い。このような場合、介護者は、被介護者に合わせて歌唱や体操を行う。そこで、ロボット1は、人間の介護者と同様、被介護者に合わせて会話、歌唱、体操を行う。
Here, an elderly care receiver may have difficulty in hearing a specific frequency sound or a quick-speaking sound. In nursing facilities and rehabilitation hospitals, singing and gymnastics such as nursery rhymes are performed as part of rehabilitation, but the cared person often has difficulty in singing and gymnastics tailored to the carer. In such a case, the caregiver performs singing and gymnastics according to the care recipient. Therefore, the
ロボット1は、被介護者を撮影するカメラCと、被介護者の音声を取得するマイクMと、被介護者に音声や歌を出力するスピーカSと、ロボット1の各種制御を行う制御部10(図2)とを備える。カメラCは、ロボット1の頭部正面に2個、取り付けられている。マイクMは、ロボット1の頭頂前後に2個、取り付けられている。スピーカSは、ロボット1の頭部左右に2個、取り付けられている。また、ロボット1は、首、肩、肘、股関節、膝、足首等の可動部を有し、サーボモータ等の駆動機構Dにより可動部を駆動する。
なお、図1では、マイクM及びスピーカSを1個のみ図示した。
The
In FIG. 1, only one microphone M and one speaker S are shown.
[ロボットの構成]
図2を参照し、ロボット1の構成について説明する。
カメラCは、被介護者の顔画像及び全身の撮影画像を撮影する一般的なカメラである。本実施形態では、カメラCは、被介護者の顔領域が含まれる顔画像を撮影し、撮影した顔画像を顔画像認識部11に出力する。また、カメラCは、被介護者の全身が含まれる撮影画像を撮影し、撮影した撮影画像を動作解析部12に出力する。
マイクMは、被介護者の音声を取得する一般的なマイクロホンである。また、マイクMは、取得した音声を発話認識部13及び音声解析部14に出力する。
スピーカSは、音声合成部21からの合成音声を被介護者に出力する一般的なスピーカである。
駆動機構Dは、動作指令部23からの指令に従って、ロボット1の各可動部を駆動するものである。例えば、駆動機構Dとしては、一般的なサーボモータをあげることができる。
[Robot configuration]
The configuration of the
The camera C is a general camera that captures a face image of a cared person and a captured image of the whole body. In the present embodiment, the camera C captures a face image that includes the face area of the care recipient and outputs the captured face image to the face
The microphone M is a general microphone that acquires the care receiver's voice. The microphone M outputs the acquired voice to the
The speaker S is a general speaker that outputs synthesized speech from the
The drive mechanism D drives each movable part of the
制御部10は、顔画像認識部11と、動作解析部12と、発話認識部(音声認識部)13と、音声解析部14と、話者特定部(人物特定部)15と、パラメータ記憶部16と、パラメータ取得部17と、会話解析部18と、会話記憶部19と、会話選択部(質問選択部)20と、音声合成部(音声出力部)21と、提示動作記憶部22と、動作指令部23と、を備える。
The
顔画像認識部11は、カメラCから入力された顔画像を画像認識するものである。本実施形態では、顔画像認識部11は、既知の手法により、顔画像の特徴点を抽出し、抽出した特徴点を画像認識結果として話者特定部15に出力する。
The face
ここで、顔画像を画像認識する手法としては、参考文献1に記載の顔認証技術を用いることができる。この顔認証技術は、大きく顔検出処理と顔照合処理の2つの処理に分かれている。顔検出処理では、顔画像の中から顔領域を決定し、次に顔特徴点の検出を行って、目、鼻、口端等の顔特徴点の位置を求める。さらに、顔特徴点の位置を用いて、顔領域の位置や大きさを正規化した後、顔照合処理を行う。
参考文献1:“顔認証のしくみ”、[online]、[平成30年3月30日検索]、インターネット〈URL:https://jpn.nec.com/biometrics/face/technology/structure.html>
Here, as a method for recognizing a face image, the face authentication technique described in
Reference 1: "Face authentication mechanism", [online], [March 30, 2018 search], Internet <URL: https://jpn.nec.com/biometrics/face/technology/structure.html>
動作解析部12は、カメラCから入力された撮影画像を用いて、被介護者の追従動作を解析するものである。例えば、動作解析部12は、動きベクトル等の既知の手法により、被介護者の動作部分、動作量、動作開始時間、動作持続時間等を解析する。そして、動作解析部12は、その動作解析結果を話者特定部15、会話選択部20及び動作指令部23に出力する。
なお、追従動作とは、ロボット1の動作に追従して被介護者が行う動作のことである。
The
The following operation is an operation performed by the care recipient following the operation of the
発話認識部13は、マイクMから入力された被介護者の音声(例えば、質問に対する被介護者の返答)を音声認識するものである。本実施形態では、発話認識部13は、既知の手法により、マイクMからの音声に含まれる単語を音声認識し、単語認識結果を話者特定部15及び会話解析部18に出力する。
The
音声解析部14は、マイクMから入力された被介護者の音声や歌唱を解析するものである。本実施形態では、音声解析部14は、既知の手法により、マイクMからの音声について、音韻、音素、発話速度等の音響特性を解析する(参考文献2)。そして、音声解析部14は、音響特性解析結果を話者特定部15、パラメータ取得部17及び音声合成部21に出力する。
The
参考文献2:藤崎博也、“韻律の分析,定式化とモデル化”、[online]、[平成30年3月30日検索]、インターネット〈URL:http://www.gavo.t.u-tokyo.ac.jp/tokutei_pub/houkoku/model/model.pdf#search=%27%E9%9F%B3%E9%9F%BB%E3%80%81%E9%9F%B3%E7%B4%A0%E3%80%81%E7%99%BA%E8%A9%B1%E9%80%9F%E5%BA%A6+%E8%A7%A3%E6%9E%90%27> Reference 2: Hiroya Fujisaki, “Prosody Analysis, Formulation and Modeling”, [online], [March 30, 2018 search], Internet <URL: http: //www.gavo.tu-tokyo .ac.jp / tokutei_pub / houkoku / model / model.pdf # search =% 27% E9% 9F% B3% E9% 9F% BB% E3% 80% 81% E9% 9F% B3% E7% B4% A0% E3% 80% 81% E7% 99% BA% E8% A9% B1% E9% 80% 9F% E5% BA% A6 +% E8% A7% A3% E6% 9E% 90% 27>
話者特定部15は、顔画像認識部11、動作解析部12、発話認識部13及び音声解析部14の解析結果に基づいて、被介護者を特定するものである。ここで、話者特定部15では、ロボット1の演算装置の能力、被介護者の人数等を考慮して、適切な話者特定手法を採用できる。例えば、話者特定手法としては、ディープラーニング、パターンマッチング、特徴点間の位置関係等の手法があげられる。そして、話者特定部15は、特定した被介護者を表す話者特定結果をパラメータ取得部17に出力する。
The
また、話者特定部15は、被介護者を特定できない場合、顔画像の画像認識結果や音響特性解析結果に基づいて、被介護者の推定年齢及び推定性別を求める。本実施形態では、話者特定部15は、既知の手法により、被介護者の年齢及び性別を推定できる。
例えば、年齢及び性別を推定する手法としては、IMDB−WIKIデータセットを用いるものがあげられる(参考文献3)。このIMDB−WIKIデータセットは、顔画像から年齢及び性別を推定するタスクに利用できる。
また、性別を推定する手法としては、フォルマント分布を認識するものがあげられる(参考文献4)。この手法は、男女で音声のフォルマント分布が異なるので、そのフォルマント分布を認識することで男女を判定する。例えば、男声の場合、ピッチ周波数が100Hz〜150Hzとなり、女声の場合、ピッチ周波数が250Hz〜300Hzとなる。
また、年齢を推定する手法としては、分節的特徴(声道の音響特性)や韻律的特徴(音源の音響特性)を用いるものがあげられる。前者の分節的特徴は、加齢に伴う声道長の伸びに起因するフォルマントシフトや、加齢に伴うスペクトル高域のゲイン低下を利用するものである。後者の韻律的特徴は、加齢に伴う平均基本周波数の低下や、加齢に伴う音源波形(有声音であれば周期波形となる)の乱れ(シマー及びジッター)を測定するものである(参考文献5)。
Moreover, the speaker specific |
For example, as a method for estimating age and sex, there is a method using an IMDB-WIKI data set (Reference Document 3). This IMDB-WIKI data set can be used for the task of estimating age and gender from face images.
Moreover, as a technique for estimating gender, there is a method for recognizing formant distribution (Reference Document 4). In this method, since the formant distribution of speech differs between men and women, the sexes are determined by recognizing the formant distribution. For example, in the case of a male voice, the pitch frequency is 100 Hz to 150 Hz, and in the case of a female voice, the pitch frequency is 250 Hz to 300 Hz.
Further, as a method for estimating the age, there are methods using segmental features (acoustic characteristics of the vocal tract) and prosodic features (acoustic characteristics of the sound source). The former segmental feature utilizes formant shift due to the increase in vocal tract length accompanying aging and gain reduction in the spectral high band accompanying aging. The latter prosodic feature measures the decrease in average fundamental frequency with aging and the disturbance (simmer and jitter) of the sound source waveform (periodic waveform for voiced sound) with aging (reference) Reference 5).
参考文献3:“IMDB−WIKI”、[online]、[平成30年2月14日検索]、インターネット〈URL:https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/>
参考文献4:“フォルマント分布”、[online]、[平成30年2月14日検索]、インターネット〈URL:http://media.sys.wakayama-u.ac.jp/kawahara-lab/LOCAL/diss/diss7/S3_6.htm>
参考文献5:峯松信明、“音声の音響的特徴を用いた知覚的年齢の推定とその高精度化(人を観る)”
Reference 3: “IMDB-WIKI”, [online], [searched on February 14, 2018], Internet <URL: https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki />
Reference 4: “Formant distribution”, [online], [Search February 14, 2018], Internet <URL: http://media.sys.wakayama-u.ac.jp/kawahara-lab/LOCAL/ diss / diss7 / S3_6.htm>
Reference 5: Nobuaki Hamamatsu, “Estimating Perceptual Age Using Acoustic Features of Speech and Improving Its Accuracy (Watching People)”
この他、話者特定部15は、撮影画像の動作解析結果から、被介護者の推定年齢及び推定性別を求めてもよい。例えば、話者特定部15は、歩容認証により、被介護者の年齢及び性別を推定できる。この歩容認証は、歩き方の個性を歩幅や腕の振り方から分析し、その分析結果と加齢に伴う一般的な歩き方の変化とを比較することで、年齢性別を推定するものである。
その後、話者特定部15は、推定した年齢及び性別を表す年齢性別推定結果をパラメータ取得部17に出力する。
In addition, the
Thereafter, the
パラメータ記憶部16は、被介護者との会話に必要な各種パラメータを記憶するメモリ等の記憶手段である。例えば、ロボット1の管理者や介護者が、被介護者毎に、各種パラメータをパラメータ記憶部16に手動で設定する。このパラメータには、被介護者に出力する音声に関する音声パラメータ、被介護者に提示する提示動作に関する提示動作パラメータ、被介護者との歌唱に関する歌唱パラメータが含まれる。
さらに、パラメータ記憶部16は、被介護者を特定できない場合に備え、推定年齢及び推定性別に対応したパラメータを記憶する。
The
Further, the
<音声パラメータ>
以下、パラメータ記憶部16に記憶する各種パラメータについて説明する。
ここで、人間は、20歳を超えると徐々に聴力が低下すると言われている。内耳には、音を伝える役割を担う数万本の毛が生えた細胞(有毛細胞)が並んでいる。この数万本の毛は、耳の穴から鼓膜と伝わってきた音に反応して揺れることで、音を電気信号に変換する。この有毛細胞の毛が加齢と共に減少することが、加齢性難聴の原因と考えられる。
<Audio parameters>
Hereinafter, various parameters stored in the
Here, it is said that humans gradually lose their hearing when they are over 20 years old. In the inner ear, cells (hair cells) with tens of thousands of hairs that play a role in transmitting sound are arranged. These tens of thousands of hairs change in response to the sound transmitted from the ear hole to the eardrum, thereby converting the sound into an electrical signal. It is thought that this hair cell hair decreases with aging is the cause of age-related hearing loss.
また、人間は、加齢と共に高い周波数が聞えにくくなり、全体にくぐもり、はっきりしない感じに聞こえると言われている。そこで、音声合成部21は、被介護者に聞こえやすい音声を出力するため、低下した周波数成分を上げるとよい。
また、高齢者は、小さな音は聞こえにくいが、聞こえる音の大きさがある音量で急に増加すると言われている。単純に、高齢者の耳元で大きな声で話せばよいというわけではない。つまり、音声合成部21は、小さな音は大きく、大きな音は抑え気味にするとよい。
また、高齢者は、有毛細胞が減り、内耳から脳に伝達できる情報が欠落するため、時間分解能が減退し、言葉の内容を理解するのに時間がかかると言われている。そこで、音声合成部21は、ゆっくり、はっきりと音声を出力するとよい。
また、高齢者は、音に含まれる微妙な周波数の違いが分からなくなり、聞き取り能力が落ちると言われている。例えば、高齢者は、パ行、タ行、カ行、そしてサ行の音を聞き取りにくい。また、例えば、高齢者は、「しゅ」「つ」「て」「す」「か」「ひ」「さ」「し」等、高い周波数成分の音を聞き取りにくい。
In addition, it is said that humans cannot hear high frequencies as they age, and they are muffled throughout and sound indistinct. Therefore, the
In addition, it is said that elderly people can hardly hear small sounds but suddenly increase at a certain volume. Simply speaking, you don't have to speak loudly in the ears of the elderly. In other words, the
In addition, it is said that elderly people have less hair cells and lack information that can be transmitted from the inner ear to the brain, so that time resolution is reduced and it takes time to understand the content of words. Therefore, the
In addition, it is said that elderly people can not understand the subtle frequency difference included in the sound and the listening ability is reduced. For example, elderly people are difficult to hear the sounds of pa, ta, ka and sa. Also, for example, elderly people are difficult to hear high frequency component sounds such as “shu”, “tsu”, “te”, “su”, “ka”, “hi”, “sa”, and “shi”.
そこで、パラメータ記憶部16には、以下の(1)〜(3)に留意し、各被介護者に適切な高域エンハンス情報及び話速を音声パラメータとして設定する。なお、高域エンハンス情報とは、ロボット1が出力する音声の周波数成分のうち、強調する音声の高域側周波数成分を表す高域強調情報のことである。
Therefore, paying attention to the following (1) to (3), the
(1)大声ではなく、少し大きめの声でゆっくり、ハッキリと話す
(2)パ行、タ行、カ行、サ行を明確にハッキリと発声する
(3)母音部分は、過度に大きい声にならないように注意して、言葉の始まり(立ち上がり)に、しっかりと力を入れて長めに話す
(1) Slowly and clearly speaking with a slightly louder voice rather than loud (2) Speak clearly clearly in the pa, ta, ka, and sa lines (3) The vowel part is overly loud Be careful not to become confused and speak long for the beginning of words.
さらに、パラメータ記憶部16には、各被介護者に適切な会話置換規則(質問置換規則)を音声パラメータとして設定する。この会話置換規則としては、以下の(A)〜(C)を例示できる。
Further, the
(A)単語の置き換え
「明日の夜7時に会いましょう」という文章に含まれる単語“7(しち)”を“なな”に置き換える。
「履き違える」という単語を「間違える」に置き換える。
(A) Word replacement Replace the word “7 (shichi)” in the sentence “Let's meet at 7:00 tomorrow night” with “Nana”.
Replace the word “I miss” with “I miss”.
(B)文章の置き換え
話そうとしていることが、事前にわかるように文章を置き換える。例えば、「明日の7時に駅前広場で待ち合わせの予定です」という文書を「待合せは、時間が明日の7時、場所は駅前広場の予定です」に置き換える。
(B) Replacing the sentence Replace the sentence so that it is understood in advance that you are going to speak. For example, the document “I am planning to meet at the station square at 7 o'clock tomorrow” is replaced with “Meeting is scheduled for 7 o'clock tomorrow and the place will be at the station square”.
(C)空白の付与
単語が長いときは、一呼吸あけるように空白を付与する。例えば、「からし酢味噌」という単語を「からし□□□酢味噌」に置き換える。なお、“□”が単語に付与した空白を表し、合成音声に変換すると無音区間となる。
(C) Giving a space When a word is long, a space is given to take a break. For example, the word “karakushi vinegar miso” is replaced with “karashi □□□ vinegar miso”. Note that “□” represents a blank given to a word, and when converted to synthesized speech, it becomes a silent section.
<提示動作パラメータ>
人間は、加齢と共に関節の可動範囲が狭く、動作を開始するまでの時間が遅く、ある動作を継続できる時間が短くなると言われている。そこで、パラメータ記憶部16には、各被介護者に適切な動作部分、動作量、動作開始時間及び動作継続時間を提示動作パラメータとして設定する。
なお、提示動作とは、ロボット1が被介護者に対して提示する動作のことである。
<Presentation operation parameters>
It is said that humans have a narrow joint movable range as they age, and it takes a long time to start a motion, and a time during which a certain motion can be continued is shortened. In view of this, in the
The presentation operation is an operation that the
図3を参照し、動作部分及び動作量の定義の一例を説明する。例えば、動作部分が上腕の場合、その動作部分の動作量は、運動方向毎の角度で表すことができる。このとき、運動方向が屈曲又は伸展の場合、動作部分及び動作量は、両肩の峰を結ぶ線を基本軸とし、頭頂と肩峰を結ぶ線を移動軸とする。また、運動方向が拳上又は引き下げの場合、動作部分及び動作量は、基本軸が同様であるが、肩峰と胸骨上縁を結ぶ線を移動軸とする。 An example of the definition of the motion part and the motion amount will be described with reference to FIG. For example, when the motion part is the upper arm, the motion amount of the motion part can be represented by an angle for each motion direction. At this time, when the movement direction is flexion or extension, the movement portion and the movement amount have a line connecting the peaks of both shoulders as a basic axis and a line connecting the crown and shoulder peaks as a movement axis. When the direction of movement is fist up or down, the movement part and the movement amount are the same on the basic axis, but the line connecting the acromion and the upper sternum is the movement axis.
なお、動作部分及び動作量の定義は、例えば、参考文献6に記載されているため、これ以上の説明を省略する。
参考文献6:“上腕の関節可動域の定義”、[online]、[平成30年2月14日検索]、インターネット〈URL:http://www.study-channel.com/2015/06/ROM-upper-limbs.html/>
In addition, since the definition of an operation | movement part and operation amount is described in the reference document 6, for example, the description beyond this is abbreviate | omitted.
Reference 6: “Definition of range of motion of upper arm”, [online], [searched on February 14, 2018], Internet <URL: http://www.study-channel.com/2015/06/ROM -upper-limbs.html />
<歌唱パラメータ>
人間は、加齢と共に高い音域が聞えにくくなり、歌唱速度が低下すると言われている(参考文献7,8)。そこで、パラメータ記憶部16には、各被介護者に適切な音域及び歌唱速度を歌唱パラメータとして設定する。
参考文献7:“声の老化について”[online]、[平成30年3月30日検索]、インターネット〈URL:http://hozawa.jp/news/2011/11/post-48.html/>
参考文献8:西尾正輝、新美成二、“加齢に伴う話声位の変化”、音声言語医学46:136-144,2005
<Singing parameters>
It is said that humans cannot hear a high sound range with aging, and the singing speed decreases (Reference Documents 7 and 8). Therefore, in the
Reference 7: “Aging of voice” [online], [Search on March 30, 2018], Internet <URL: http://hozawa.jp/news/2011/11/post-48.html/>
Reference 8: Masateru Nishio, Seiji Niimi, “Change in spoken voice position with aging”, Spoken Language Medicine 46: 136-144,2005
図2に戻り、ロボット1の構成について、説明を続ける。
パラメータ取得部17は、話者特定部15が被介護者を特定できた場合、話者特定部15からの話者特定結果に基づいて、パラメータ記憶部16からパラメータを取得するものである。
また、パラメータ取得部17は、話者特定部15が被介護者を特定できかった場合、話者特定部15からの年齢性別推定結果に基づいて、パラメータ記憶部16からパラメータを取得する。
その後、パラメータ取得部17は、取得したパラメータのうち、提示動作パラメータを動作指令部23に出力し、音声パラメータ及び歌唱パラメータを音声合成部21に出力する。
Returning to FIG. 2, the description of the configuration of the
The
Further, the
Thereafter, the
会話解析部18は、発話認識部13からの単語認識結果に基づいて、被介護者の会話を解析するものである。本実施形態では、会話解析部18は、既知の手法により、具体的な会話内容を解析し、会話解析結果を会話選択部20に出力する。
また、会話解析部18は、会話解析結果が予め設定された歌唱希望の場合、会話選択部20に歌唱を指令する(歌唱指令)。この歌唱希望は、例えば、「○○○を歌おうよ」のような、被介護者が歌唱を希望することを示す音声である。なお、“○○○”が歌の名称を表す。
また、会話解析部18は、会話解析結果が予め設定された提示動作希望の場合、動作指令部23に提示動作を指令する(提示動作指令)。この提示動作希望は、例えば、「△△△しようよ」のような、被介護者が提示動作を希望することを示す音声である。なお、“△△△”が体操や太極拳といった提示動作の種類を表す。
The
Moreover, the
The
会話記憶部19は、被介護者との会話(会話プログラム)を記憶するメモリ等の記憶手段である。この会話には、被介護者に対する質問が含まれる。また、会話記憶部19は、被介護者との歌唱に必要な歌詞・楽譜(曲)も記憶する。
The
会話選択部20は、会話解析部18からの会話解析結果に基づいて、会話記憶部19に記憶されている会話を選択するものである。本実施形態では、会話選択部20は、既知の手法により、被介護者の発話に対して適切な内容の会話を選択する。
また、会話選択部20は、会話解析部18から歌唱指令が入力された場合、その指令に応じた歌詞・楽譜を会話記憶部19から選択する。
その後、会話選択部20は、選択した会話、又は、歌詞・楽譜を音声合成部21に出力する。
The
In addition, when a singing instruction is input from the
After that, the
音声合成部21は、スピーカSを介して、会話選択部20からの会話を音声で出力するものである。本実施形態では、音声合成部21は、パラメータ記憶部16からの音声パラメータ(会話置換規則)に基づいて会話を置き換える。そして、音声合成部21は、音声パラメータ(高域エンハンス情報、話速)に基づいて、その会話を表す合成音声を生成し、生成した合成音声をスピーカSに出力する。このように、ロボット1は、被介護者が聞き取りやすい周波数、話速で合成音声を出力するので、被介護者が会話を継続しやすくなる。
The
また、音声合成部21は、スピーカSを介して、会話選択部20からの歌詞・楽譜を出力する。本実施形態では、音声合成部21は、会話選択部20からの歌詞の合成音声を生成する。そして、音声合成部21は、楽譜による伴奏と共に、パラメータ記憶部16からの歌唱パラメータ(音域、歌唱速度)に基づいて、生成した合成音声で歌唱を行う。このように、ロボット1は、被介護者が共に歌いやすい音域、歌唱速度で歌唱・伴奏を行うので、被介護者が歌唱を継続しやすくなる。
The
提示動作記憶部22は、体操や太極拳等の提示動作を記憶するメモリ等の記憶手段である。この提示動作は、例えば、体操や太極拳等、ロボット1が被介護者に提示する動作である。
The presentation
動作指令部23は、提示動作記憶部22から提示動作を取得し、取得した提示動作を駆動機構Dに指令するものである。本実施形態では、動作指令部23は、会話解析部18から提示動作指令が入力された場合、その指令に応じた提示動作を提示動作記憶部22から取得する。そして、動作指令部23は、パラメータ記憶部16からの提示動作パラメータや動作解析部12から動作解析結果に基づいて、提示動作を調整する。このように、ロボット1は、被介護者の動きに合わせて提示動作を調整するので、被介護者が運動を継続しやすくなる。
The
[ロボットの動作]
図4を参照し、ロボット1の動作について説明する。
図4に示すように、ロボット1は、提示動作を行うか否かを判定する。例えば、ロボット1は、会話解析部18によって、会話解析結果が提示動作希望であるか否かにより、提示動作を行うか否かを判定する(ステップS1)。
提示動作を行わない場合(ステップS1でNo)、ロボット1は、歌唱を行うか否かを判定する。例えば、ロボット1は、会話解析部18によって、会話解析結果が歌唱希望であるか否かを判定する(ステップS2)。
歌唱を行わない場合(ステップS2でNo)、ロボット1は、図5の話者認識処理を行って、パラメータを取得する(ステップS3)。
[Robot motion]
The operation of the
As shown in FIG. 4, the
When the presentation operation is not performed (No in step S1), the
When singing is not performed (No in step S2), the
<話者認識処理>
図5を参照し、話者認識処理について説明する。
図5に示すように、カメラCは、被介護者の顔画像を撮影する(ステップS100)。
顔画像認識部11は、ステップS100で撮影した顔画像を画像認識する。
話者特定部15は、顔画像認識部11の画像認識結果に基づいて、被介護者を特定する(ステップS101)。
<Speaker recognition processing>
The speaker recognition process will be described with reference to FIG.
As shown in FIG. 5, the camera C captures a face image of the care recipient (step S100).
The face
The
被介護者を特定できた場合(ステップS101でYes)、パラメータ取得部17は、ステップS101で特定した被介護者について、パラメータ記憶部16からパラメータを取得し、話者認識処理を終了する(ステップS102)。
When the care receiver can be identified (Yes in step S101), the
被介護者を特定できない場合(ステップS101でNo)、話者特定部15は、顔画像の画像認識結果に基づいて、被介護者の年齢及び性別を推定する(ステップS103)。
パラメータ取得部17は、ステップS103で推定した年齢及び性別に対応するパラメータをパラメータ記憶部16から取得し、話者認識処理を終了する(ステップS104)。
When the cared person cannot be identified (No in step S101), the
The
図4に戻り、ロボット1の動作について説明を続ける。
会話選択部20は、被介護者が提示動作や歌唱の何れも希望していないので、被介護者に対する質問を選択する。例えば、会話選択部20は、被介護者に会話を促す「体調はいかがですか?」といった質問を選択する。
音声合成部21は、ステップS3で取得した音声パラメータ(会話置換規則)に基づいて、選択した質問を置き換える。そして、音声合成部21は、その音声パラメータ(高域エンハンス情報、話速)に基づいて、選択した質問の合成音声を生成し、生成した合成音声をスピーカSに出力する(ステップS4)。
Returning to FIG. 4, the description of the operation of the
The
The
発話認識部13は、マイクMから入力された被介護者の音声に含まれる単語を認識し、ステップS4の質問に対して、被介護者が返答したか否かを判定する(ステップS5)。
The
被介護者が返答した場合(ステップS5でYes)、会話解析部18は、ステップS5の単語認識結果に基づいて、被介護者の返答を解析する。
会話選択部20は、会話解析部18が解析した被介護者の返答に基づいて、会話記憶部19から会話を選択する。
音声合成部21は、ステップS3で取得した音声パラメータ(会話置換規則)に基づいて、選択した会話を置き換える。そして、音声合成部21は、その音声パラメータ(高域エンハンス情報、話速)に基づいて、選択した会話の合成音声を生成し、生成した合成音声をスピーカSに出力する(ステップS6)。
When the cared person responds (Yes in step S5), the
The
The
その後、ロボット1は、被介護者が会話を終了するまでステップS6の処理を継続し、被介護者が会話を終了したら、ステップS1の処理に戻る。
なお、被介護者が返答したにも関わらず、図5の話者認識処理により被介護者を特定できない場合がある。この場合、ロボット1は、後記する音声解析処理(図9)を行って、被介護者を特定する。
Thereafter, the
In some cases, the cared person cannot be identified by the speaker recognition process in FIG. 5 even though the cared person responds. In this case, the
被介護者が返答しない場合(ステップS5でNo)、話者特定部15は、顔画像の画像認識結果に基づいて、被介護者の年齢及び性別を推定する(ステップS7)。
When the cared person does not respond (No in step S5), the
会話選択部20は、被介護者に対する質問を選択する。
音声合成部21は、取得した音声パラメータ(会話置換規則)に基づいて、選択した質問を置き換える。そして、音声合成部21は、ステップS7で推定した年齢及び性別に基づいて、さらに話速を遅くし、高域周波数成分を強調した合成音声を生成する。ここで、音声合成部21は、話速を2割遅くすると聞き取り易くなるので(参考文献9)、話速を2割だけ低下させる(ステップS8)。
参考文献9:“人にやさしい話速変換”、[online]、[平成30年3月30日検索]、インターネット〈URL:https://www.nhk.or.jp/strl/onepoint/data/wasoku.pdf#search=%27%E9%AB%98%E9%BD%A2%E8%80%85+%E8%A9%B1%E9%80%9F%27>
The
The
Reference 9: "People-friendly speech speed conversion", [online], [Search on March 30, 2018], Internet <URL: https://www.nhk.or.jp/strl/onepoint/data/ wasoku.pdf # search =% 27% E9% AB% 98% E9% BD% A2% E8% 80% 85 +% E8% A9% B1% E9% 80% 9F% 27>
音声合成部21は、ステップS8で生成した質問の合成音声をスピーカSに出力する(ステップS9)。
発話認識部13は、マイクMから入力された被介護者の音声に含まれる単語を認識し、ステップS9の質問に対して、被介護者が返答したか否かを判定する(ステップS10)。
被介護者が返答した場合(ステップS10でYes)、ロボット1は、図5の話者認識処理を行って、パラメータを取得する(ステップS11)。
The
The
When the cared person responds (Yes in step S10), the
ロボット1は、ステップS6と同様、ステップS11で取得したパラメータを用いて、会話を行う(ステップS12)。
その後、ロボット1は、被介護者が会話を終了するまでステップS12の処理を継続し、被介護者が会話を終了したら、ステップS13の処理に進む。
Similar to step S6, the
Thereafter, the
パラメータ取得部17は、被介護者の識別情報(例えば、顔画像の特徴量)と、ステップS11で取得したパラメータとを対応付けてパラメータ記憶部16に書き込み、ステップS1の処理に戻る(ステップS13)。
The
被介護者が返答しない場合(ステップS10でNo)、話者特定部15は、質問回数に‘1’を加算する。この質問回数は、ロボット1が被介護者に質問を行った回数を表し、初期値を‘0’とする(ステップS14)。
話者特定部15は、ステップS14で加算した質問回数が予め設定した指定回数未満であるか否かを判定する。この指定回数は、ロボット1が被介護者に質問を行う回数を表す(ステップS15)。
質問回数が指定回数未満の場合(ステップS15でYes)、ロボット1は、ステップS8の処理に戻る。
If the care receiver does not respond (No in step S10), the
The
If the number of questions is less than the specified number (Yes in step S15), the
質問回数が指定回数以上の場合(ステップS15でNo)、会話選択部20は、会話記憶部19から会話終了を選択する。この会話終了は、例えば、「残念ですが、私は聞き取りやすい発声ができません」というように、被介護者との会話を終了する内容である。
音声合成部21は、会話終了の合成音声を生成し、生成した合成音声をスピーカSに出力し(ステップS16)、ステップS1の処理に戻る。
When the number of questions is equal to or greater than the specified number (No in step S15), the
The
提示動作を行う場合(ステップS1でYes)、ロボット1は、図6の動作解析処理を行い、ステップS1の処理に戻る(ステップS17)。
歌唱を行う場合(ステップS2でYes)、ロボット1は、図8の歌唱処理を行い、ステップS1の処理に戻る(ステップS18)。
When performing the presentation operation (Yes in step S1), the
When singing (Yes in step S2), the
<動作解析処理>
図6,図7を参照し、動作解析処理について説明する。
図6に示すように、ロボット1は、図5の話者認識処理を行って、パラメータを取得する(ステップS200)。
動作指令部23は、被介護者が希望した提示動作を提示動作記憶部22から取得し、ステップS200の提示動作パラメータで提示動作を駆動機構Dに指令する(ステップS201)。
カメラCは、被介護者の撮影画像を撮影する(ステップS202)。
<Operation analysis processing>
The operation analysis process will be described with reference to FIGS.
As shown in FIG. 6, the
The
The camera C takes a photographed image of the care recipient (step S202).
動作解析部12は、ステップS202で撮影した撮影画像を用いて、被介護者の追従動作を解析する。例えば、動作解析部12は、その撮影画像から、被介護者の動作部分、動作量、動作開始時間、動作持続時間等の動作解析結果を求める(ステップS203)。
The
動作解析部12は、ロボット1が行っている提示動作と被介護者が行っている追従動作とを比較し、動作部分が一致するか否かを判定する。例えば、動作解析部12は、ロボット1が駆動している可動部と、被介護者が動かしている関節が一致するか否かを判定する(ステップS204)。
動作部分が一致しない場合(ステップS204でNo)、動作解析部12は、被介護者が座位であるか否かを判定する(ステップS205)。
The
If the motion parts do not match (No in step S204), the
被介護者が座位の場合(ステップS205でYes)、動作解析部12は、会話選択部20や動作指令部23に座位モードを指令する。この座位モードは、被介護者が座位の状態で可能な動作の中で、動作が一致していない部分を、ロボット1が小刻みに動かしたり音声で案内するモードである。
動作指令部23は、座位モードで提示動作を駆動機構Dに指令する(ステップS206)。
When the cared person is in the sitting position (Yes in step S205), the
The
被介護者が座位でない場合(ステップS205でNo)、動作解析部12は、会話選択部20や動作指令部23に立位モードを指令する。この立位モードは、被介護者が立位の状態で可能な動作の中で、動作が一致していない部分を、ロボット1が小刻みに動かしたり音声で案内するモードである。
動作指令部23は、立位モードで提示動作を駆動機構Dに指令する(ステップS207)。
When the cared person is not in the sitting position (No in step S205), the
The
例えば、リハビリテーションでは、ロボット1の提示動作に合わせ、被介護者が追従動作を行うのが基本である一方、ロボット1が被介護者に合わせて動作する必要もある。
そこで、動作解析部12は、ロボット1が行っている提示動作と被介護者が行っている追従動作との動作量を比較する。例えば、動作解析部12は、提示動作毎に動作量閾値を予め設定し、この動作量閾値と追従動作の動作量とを比較する(ステップS208)。
For example, in rehabilitation, it is basic that the cared person performs a follow-up operation in accordance with the presentation operation of the
Therefore, the
動作量閾値よりも追従動作の動作量が小さい場合(ステップS208で小)、動作解析部12は、会話選択部20や動作指令部23に追従動作の動作量増加を指令する。この場合、ロボット1は、追従動作の動作量が小さい部分を、小刻みに動かしたり音声で案内する(ステップS209)。
When the motion amount of the follow-up motion is smaller than the motion amount threshold value (small in step S208), the
動作量閾値よりも追従動作の動作量が大きい場合(ステップS208で大)、動作解析部12は、会話選択部20や動作指令部23に追従動作の動作量減少を指令する。この場合、ロボット1は、追従動作の動作量が大きい部分を、小刻みに動かしたり音声で案内する(ステップS210)。
When the motion amount of the follow-up motion is larger than the motion amount threshold (large in step S208), the
動作解析部12は、ロボット1が行っている提示動作と被介護者が行っている追従動作との動作速度を比較する。例えば、動作解析部12は、提示動作毎に動作速度閾値を予め設定し、この動作速度閾値と追従動作の動作速度とを比較する(ステップS211)。
The
動作速度閾値よりも追従動作の動作速度が遅い場合(ステップS211で遅)、動作解析部12は、会話選択部20や動作指令部23に追従動作の速度増加を指令する。この場合、ロボット1は、追従動作の動作速度が遅い部分を、小刻みに動かしたり音声で案内する(ステップS212)。
When the operation speed of the follow-up operation is slower than the operation speed threshold (delayed in step S211), the
動作速度閾値よりも追従動作の動作速度が速い場合(ステップS211で速)、動作解析部12は、会話選択部20や動作指令部23に追従動作の速度減少を指令する。この場合、ロボット1は、追従動作の動作速度が速い部分を、小刻みに動かしたり音声で案内する(ステップS213)。
When the operation speed of the follow-up operation is faster than the operation speed threshold (fast in step S211), the
動作解析部12は、動作開始時間の調整が初回であるか否かを判定する(ステップS214)。
動作開始時間の調整が初回の場合(ステップS214でYes)、動作解析部12は、ロボット1が行っている提示動作と被介護者が行っている追従動作との動作開始時間とを比較する。
動作解析部12は、追従動作の動作開始時間を調整する。つまり、動作解析部12は、追従動作の動作開始時間が提示動作より早い場合、追従動作の動作開始時間を遅く、追従動作の動作開始時間が提示動作より遅い場合、追従動作の開始時間を早くするように動作指令部23に指令する。この場合、ロボット1は、追従動作の動作開始時間の調整が必要な部分を、小刻みに動かしたり音声で案内する(ステップS215)。
なお、動作解析部12は、追従動作及び提示動作の動作開始時間が一致する場合、調整を行わない。
The
When the adjustment of the motion start time is the first time (Yes in step S214), the
The
Note that the
動作開始時間の調整が初回でない場合(ステップS214でNo)、被介護者がこれ以上早く動作を開始できないと考えられる。従って、動作解析部12は、提示動作の動作開始時間を遅くするように動作指令部23に指令する(ステップS216)。
When the adjustment of the operation start time is not the first time (No in step S214), it is considered that the care recipient cannot start the operation earlier than this. Therefore, the
動作解析部12は、動作継続時間の調整が初回であるか否かを判定する(ステップS217)。
動作継続時間の調整が初回の場合(ステップS217でYes)、動作解析部12は、ロボット1が行っている提示動作と、被介護者が行っている追従動作との動作継続時間を比較する。
動作解析部12は、追従動作の動作継続時間を調整する。つまり、動作解析部12は、追従動作の動作継続時間が提示動作より短い場合、追従動作の動作継続時間を長くし、追従動作の動作継続時間が提示動作より長い場合、追従動作の動作継続時間を短くするように動作指令部23に指令する。この場合、ロボット1は、追従動作の動作継続時間の調整が必要な部分を、小刻みに動かしたり音声で案内する(ステップS218)。
なお、動作解析部12は、追従動作及び提示動作の動作継続時間が一致する場合、調整を行わない。
The
When the adjustment of the operation duration is the first time (Yes in step S217), the
The
Note that the
動作継続時間の調整が初回でない場合(ステップS217でNo)、被介護者がこれ以上早く動作できないと考えられる。従って、動作解析部12は、追従動作の動作継続時間を長くするように動作指令部23に指令する(ステップS219)。
When the adjustment of the operation duration time is not the first time (No in step S217), it is considered that the care recipient cannot operate any faster. Therefore, the
動作解析部12は、被介護者の追従動作が安定したか否かを判定する。例えば、動作解析部12は、動作量の偏位や動作開始時間が動作安定範囲になったとき、動作が安定したと判定する。この動作安定範囲は、被介護者の年齢や性別、提示動作の種類や難易度に応じて、予め設定する(ステップS220)。
The
追従動作が安定した場合(ステップS220でYes)、パラメータ取得部17は、被介護者の識別情報と、調整後の提示動作パラメータとを対応付けてパラメータ記憶部16に書き込む(ステップS221)。
When the tracking operation is stable (Yes in step S220), the
動作指令部23は、提示動作が終了したか否かを判定する(ステップS222)。
提示動作が終了していない場合(ステップS222でNo)、動作指令部23は、ステップS202の処理に戻る。
提示動作が終了した場合(ステップS222でYes)、動作指令部23は、動作解析処理を終了する。
The
If the presentation operation has not ended (No in step S222), the
When the presentation operation is completed (Yes in step S222), the
<歌唱処理>
図8を参照し、歌唱処理について説明する。
図8に示すように、ロボット1は、図5の話者認識処理を行って、パラメータを取得する(ステップS300)。
<Singing process>
The singing process will be described with reference to FIG.
As shown in FIG. 8, the
会話選択部20は、被介護者が希望した歌について、歌詞・楽譜を会話記憶部19から選択する。
音声合成部21は、ステップS300で取得した歌唱パラメータ(音域、歌唱速度)で歌唱・伴奏を行う(ステップS301)。
The
The
音声解析部14は、マイクMから入力された被介護者の歌唱の音響特性を解析し、被介護者の音域及び歌唱速度を抽出する(ステップS302)。
音声合成部21は、ステップS302に抽出した被介護者の音響特性に合わせて、音域及び歌唱速度を変更する(ステップS303)。
The
The
音声解析部14は、被介護者の歌唱が安定したか否かを判定する。例えば、音声解析部14は、被介護者の音域や歌唱速度が歌唱安定範囲になったとき、歌唱が安定したと判定する。この歌唱安定範囲は、被介護者の年齢や性別、歌の種類や難易度に応じて、予め設定する(ステップS304)。
The
歌唱が安定した場合(ステップS304でYes)、パラメータ取得部17は、被介護者の識別情報と、調整後の歌唱パラメータとを対応付けてパラメータ記憶部16に書き込む(ステップS305)。
When the singing is stable (Yes in step S304), the
会話選択部20は、歌唱が終了したか否かを判定する(ステップS306)。
歌唱が終了していない場合(ステップS306でNo)、会話選択部20は、ステップS302の処理に戻る。
歌唱が終了した場合(ステップS306でYes)、会話選択部20は、歌唱処理を終了する。
The
When the singing has not ended (No in step S306), the
When the singing is finished (Yes in step S306), the
<音声解析処理>
図9を参照し、音声解析処理について説明する。
図9に示すように、マイクMは、被介護者の音声を取得する(ステップS400)。
音声解析部14は、ステップS400で取得した被介護者の音響特性を解析する(ステップS401)。
話者特定部15は、ステップS401の音響特性解析結果に基づいて、被介護者(話者)を特定する(ステップS402)。
<Audio analysis processing>
The voice analysis process will be described with reference to FIG.
As shown in FIG. 9, the microphone M acquires the care receiver's voice (step S400).
The
The
被介護者を特定できた場合(ステップS402でYes)、パラメータ取得部17は、ステップS402で特定した被介護者について、パラメータ記憶部16からパラメータを取得し、音声解析処理を終了する(ステップS403)。
When the care recipient can be identified (Yes in step S402), the
被介護者を特定できない場合(ステップS402でNo)、パラメータ取得部17は、新たな被介護者のパラメータを取得する。例えば、パラメータ取得部17は、予め設定されているパラメータ初期値を、新たな被介護者のパラメータとすればよい。この他、パラメータ取得部17は、新たな被介護者が歌唱を行った場合、ステップS304で歌唱が安定したときのパラメータを用いてもよい。そして、パラメータ取得部17は、被介護者の識別情報(例えば、顔画像の特徴量)に対応付けて、新たな被介護者のパラメータをパラメータ記憶部16に書き込み、音声解析処理を終了する(ステップS404)。
When the care receiver cannot be specified (No in step S402), the
[作用・効果]
以上のように、本実施形態に係るロボット1は、被介護者が聞き取りにくい単語や文章を置き換えると共に、被介護者に合わせて会話を行うので、被介護者が会話を中断せずに継続しやすくなる。
さらに、ロボット1は、被介護者に合わせて動作を行うので、被介護者が運動を中断せずに継続しやすくなる。
さらに、ロボット1は、被介護者に合わせて歌唱や伴奏を行うので、被介護者が歌を中断せずに継続しやすくなる。
さらに、ロボット1は、被介護者に適したパラメータを学習するので、被介護者が会話、動作、歌唱をより継続しやすくなる。
このように、ロボット1は、介護者に代わって、被介護者を相手することができる。
[Action / Effect]
As described above, the
Furthermore, since the
Furthermore, since the
Furthermore, since the
As described above, the
(変形例)
以上、本発明の実施形態を詳述してきたが、本発明は前記した実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
前記した実施形態では、ロボットとの会話相手となる人物が被介護者であることとして説明したが、被介護者に限定されない。
前記した実施形態では、ロボットがスタンドアローンであることとして説明したが、クラウドにより、より高速なコンピュータを利用することもできる。
(Modification)
As mentioned above, although embodiment of this invention was explained in full detail, this invention is not limited to above-described embodiment, The design change etc. of the range which does not deviate from the summary of this invention are included.
In the above-described embodiment, it has been described that the person who is a conversation partner with the robot is a cared person, but is not limited to the cared person.
In the above-described embodiment, the robot is described as being a stand-alone, but a faster computer can also be used with the cloud.
前記した実施形態では、被介護者が1人であることとして説明したが、複数の被介護者からなるグループにも対応できる。この場合、ロボットは、半数以上の被介護者にふさわしい発話、提示動作、歌唱をおこなってもよい。
前記した実施形態では、ロボットが歌唱及び伴奏を行うこととして説明したが、歌唱又は伴奏の何れか一方のみをおこなってもよい。例えば、ロボットは、ディスプレイを備え、伴奏を行うと共に、その伴奏に合わせて歌詞をディスプレイに表示してもよい。
前記した実施形態では、ロボットが会話、提示動作、歌唱の何れか一つのみを行うこととして説明したが、これらを組み合わせておこなってもよい。例えば、ロボットは、会話及び提示動作の組み合わせ、提示動作及び歌唱の組み合わせを行うことができる。
In the above-described embodiment, it has been described that there is one cared person, but it can also be applied to a group of a plurality of cared persons. In this case, the robot may perform utterances, presentation operations, and singing suitable for more than half of the care recipients.
In the above-described embodiment, it has been described that the robot performs singing and accompaniment, but either one of singing or accompaniment may be performed. For example, the robot may include a display, perform accompaniment, and display lyrics on the display in accordance with the accompaniment.
In the above-described embodiment, the robot has been described as performing only one of conversation, presentation operation, and singing, but may be performed in combination. For example, the robot can perform a combination of conversation and presentation operation, and a combination of presentation operation and singing.
前記した実施形態では、ロボットを独立したハードウェアとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、前記したロボットの制御部として協調動作させるプログラムで実現することもできる。これらのプログラムは、通信回線を介して配布してもよく、CD−ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。 In the above-described embodiment, the robot has been described as independent hardware, but the present invention is not limited to this. For example, the present invention can also be realized by a program that causes hardware resources such as a CPU, a memory, and a hard disk included in a computer to operate cooperatively as the control unit of the robot. These programs may be distributed via a communication line, or may be distributed by writing in a recording medium such as a CD-ROM or a flash memory.
1 ロボット
10 制御部
11 顔画像認識部
12 動作解析部
13 発話認識部(音声認識部)
14 音声解析部
15 話者特定部(人物特定部)
16 パラメータ記憶部
17 パラメータ取得部
18 会話解析部
19 会話記憶部
20 質問選択部(会話選択部)
21 音声合成部(音声出力部)
22 提示動作記憶部
23 動作指令部
C カメラ
M マイク
S スピーカ
D 駆動機構
DESCRIPTION OF
14
16
21 Speech synthesis unit (speech output unit)
22 presentation
Claims (6)
前記人物に対する質問を選択する質問選択部と、
前記スピーカを介して、前記質問選択部が選択した質問を音声で出力する音声出力部と、
前記マイクから入力された、前記質問に対する前記人物の返答を音声認識する音声認識部と、
前記カメラが撮影した人物の顔画像を画像認識する顔画像認識部と、
前記返答の音声認識結果、又は、前記顔画像の画像認識結果に基づいて、前記人物を特定する人物特定部と、
前記人物毎のパラメータとして、強調する前記音声の高域側周波数成分を表す高域強調情報、前記質問の内容を置き換える質問置換規則、及び、話速を記憶するパラメータ記憶部と、
前記人物特定部が特定した人物について、前記パラメータ記憶部からパラメータを取得するパラメータ取得部と、を備え、
前記音声出力部は、前記パラメータ取得部が取得したパラメータに応じて前記質問の内容を置き換えて、当該パラメータに応じた周波数及び話速で当該質問を出力することを特徴とするロボット。 A robot comprising a microphone for inputting a person's speech, a camera for photographing the person, and a speaker for outputting sound to the person,
A question selection unit for selecting a question for the person;
Via the speaker, a voice output unit that outputs the question selected by the question selection unit by voice; and
A voice recognition unit that recognizes the person's response to the question input from the microphone;
A face image recognition unit for recognizing a face image of a person photographed by the camera;
A person identifying unit that identifies the person based on the voice recognition result of the reply or the image recognition result of the face image;
As the parameter for each person, high frequency emphasis information representing the high frequency side frequency component of the voice to be emphasized, a question replacement rule for replacing the content of the question, and a parameter storage unit for storing speech speed;
A parameter acquisition unit that acquires a parameter from the parameter storage unit for the person specified by the person specifying unit;
The voice output unit replaces the content of the question according to the parameter acquired by the parameter acquisition unit, and outputs the question at a frequency and a speech speed according to the parameter.
前記パラメータ記憶部は、前記推定年齢及び前記推定性別に対応するパラメータをさらに記憶し、
前記パラメータ取得部は、前記人物特定部が前記人物を特定できない場合、前記推定年齢及び前記推定性別に対応するパラメータを取得することを特徴とする請求項1に記載のロボット。 The person specifying unit, when the person cannot be specified, obtains the estimated age and estimated sex of the person from the image recognition result of the face image,
The parameter storage unit further stores parameters corresponding to the estimated age and the estimated sex,
The robot according to claim 1, wherein the parameter acquisition unit acquires parameters corresponding to the estimated age and the estimated sex when the person specifying unit cannot specify the person.
予め設定された提示動作を前記駆動機構に指令する動作指令部と、をさらに備え、
前記パラメータ記憶部は、前記パラメータとして、動作部分、動作量、動作開始時間及び動作継続時間をさらに記憶し、
前記動作指令部は、前記パラメータ取得部が取得したパラメータに応じた動作部分、動作量、動作開始時間及び動作継続時間で前記提示動作を指令することを特徴とする請求項1から請求項3の何れか一項に記載のロボット。 A drive mechanism for driving the movable part of the robot;
An operation command unit that commands the drive mechanism to perform a preset presentation operation;
The parameter storage unit further stores an operation part, an operation amount, an operation start time, and an operation duration as the parameters,
The said operation command part commands the said presentation operation | movement with the operation | movement part according to the parameter which the said parameter acquisition part acquired, the operation amount, the operation start time, and the operation continuation time. The robot according to any one of the above.
前記音声出力部は、前記パラメータ取得部が取得したパラメータに応じた音域及び歌唱速度で歌唱することを特徴とする請求項1から請求項4の何れか一項に記載のロボット。 The parameter storage unit further stores a range and singing speed as the parameter,
The robot according to any one of claims 1 to 4, wherein the voice output unit sings at a sound range and a singing speed corresponding to the parameter acquired by the parameter acquisition unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018075313A JP2019184813A (en) | 2018-04-10 | 2018-04-10 | Robot and robot control program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018075313A JP2019184813A (en) | 2018-04-10 | 2018-04-10 | Robot and robot control program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019184813A true JP2019184813A (en) | 2019-10-24 |
Family
ID=68340374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018075313A Pending JP2019184813A (en) | 2018-04-10 | 2018-04-10 | Robot and robot control program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019184813A (en) |
-
2018
- 2018-04-10 JP JP2018075313A patent/JP2019184813A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11856369B1 (en) | Methods and systems implementing phonologically-trained computer-assisted hearing aids | |
US7676372B1 (en) | Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech | |
Jiang et al. | On the relationship between face movements, tongue movements, and speech acoustics | |
Houde et al. | Sensorimotor adaptation of speech I | |
Tran et al. | Improvement to a NAM-captured whisper-to-speech system | |
KR101475894B1 (en) | Method and apparatus for improving disordered voice | |
Garnier et al. | Hyper-articulation in Lombard speech: An active communicative strategy to enhance visible speech cues? | |
US20070112570A1 (en) | Voice synthesizer, voice synthesizing method, and computer program | |
Smiljanic | Clear speech perception: Linguistic and cognitive benefits | |
JP2002268699A (en) | Device and method for voice synthesis, program, and recording medium | |
WO2011151956A1 (en) | Voice quality conversion device, method therefor, vowel information generating device, and voice quality conversion system | |
Kim et al. | Hearing speech in noise: Seeing a loud talker is better | |
Kim et al. | Comparing the consistency and distinctiveness of speech produced in quiet and in noise | |
Aylett et al. | Building and designing expressive speech synthesis | |
Vojtech et al. | The effects of modulating fundamental frequency and speech rate on the intelligibility, communication efficiency, and perceived naturalness of synthetic speech | |
JP2001188779A (en) | Device and method for processing information and recording medium | |
JP6728116B2 (en) | Speech recognition device, speech recognition method and program | |
Vipperla et al. | 8. Spoken Dialogue Interfaces for Older People | |
JP2019184813A (en) | Robot and robot control program | |
JP6424419B2 (en) | Voice control device, voice control method and program | |
Athanasopoulos et al. | 3D immersive karaoke for the learning of foreign language pronunciation | |
WO1999046732A1 (en) | Moving picture generating device and image control network learning device | |
JP6375604B2 (en) | Voice control device, voice control method and program | |
JP5518621B2 (en) | Speech synthesizer and computer program | |
JP2013033103A (en) | Voice quality conversion device and voice quality conversion method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180412 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180516 |