JP7416245B2 - Learning devices, learning methods and learning programs - Google Patents
Learning devices, learning methods and learning programs Download PDFInfo
- Publication number
- JP7416245B2 JP7416245B2 JP2022531321A JP2022531321A JP7416245B2 JP 7416245 B2 JP7416245 B2 JP 7416245B2 JP 2022531321 A JP2022531321 A JP 2022531321A JP 2022531321 A JP2022531321 A JP 2022531321A JP 7416245 B2 JP7416245 B2 JP 7416245B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- voice
- learning
- degree
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000013016 learning Effects 0.000 title claims description 74
- 238000000034 method Methods 0.000 title claims description 28
- 230000037007 arousal Effects 0.000 claims description 54
- 238000006243 chemical reaction Methods 0.000 claims description 44
- 230000008859 change Effects 0.000 claims description 22
- 238000013145 classification model Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 description 20
- 238000003786 synthesis reaction Methods 0.000 description 20
- 230000004044 response Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 230000000694 effects Effects 0.000 description 17
- 230000008569 process Effects 0.000 description 17
- 238000004891 communication Methods 0.000 description 13
- 230000036626 alertness Effects 0.000 description 12
- 206010062519 Poor quality sleep Diseases 0.000 description 9
- 238000000605 extraction Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000035484 reaction time Effects 0.000 description 6
- 101100328887 Caenorhabditis elegans col-34 gene Proteins 0.000 description 5
- 230000004424 eye movement Effects 0.000 description 5
- 230000000638 stimulation Effects 0.000 description 5
- 230000003935 attention Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 239000000470 constituent Substances 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 210000001747 pupil Anatomy 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000010332 selective attention Effects 0.000 description 3
- 206010041349 Somnolence Diseases 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 230000000193 eyeblink Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 206010048909 Boredom Diseases 0.000 description 1
- 206010052804 Drug tolerance Diseases 0.000 description 1
- 206010027646 Miosis Diseases 0.000 description 1
- 208000032140 Sleepiness Diseases 0.000 description 1
- 101100524639 Toxoplasma gondii ROM3 gene Proteins 0.000 description 1
- RRLHMJHRFMHVNM-BQVXCWBNSA-N [(2s,3r,6r)-6-[5-[5-hydroxy-3-(4-hydroxyphenyl)-4-oxochromen-7-yl]oxypentoxy]-2-methyl-3,6-dihydro-2h-pyran-3-yl] acetate Chemical compound C1=C[C@@H](OC(C)=O)[C@H](C)O[C@H]1OCCCCCOC1=CC(O)=C2C(=O)C(C=3C=CC(O)=CC=3)=COC2=C1 RRLHMJHRFMHVNM-BQVXCWBNSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000002490 cerebral effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000005281 excited state Effects 0.000 description 1
- 230000026781 habituation Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000003547 miosis Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000037321 sleepiness Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Electrically Operated Instructional Devices (AREA)
- Traffic Control Systems (AREA)
Description
本実施形態は、音声選択のための学習装置、学習方法及び学習プログラムに関する。 The present embodiment relates to a learning device, a learning method, and a learning program for voice selection.
ユーザに対して提示する音声を複数の音声候補の中から選択するための手法が種々提案されている。このような選択に音声の分類モデルが用いられることがある。この種の分類モデルの中には、分類された音声の正否の情報を教師データとして与えることによって学習が実施されるものもある。教師データの生成には、音声に対する適切な評価が必要である。音声の評価に関する提案として、例えば非特許文献1で挙げられている手法が知られている。
Various methods have been proposed for selecting a voice to be presented to a user from among a plurality of voice candidates. A speech classification model may be used for such selection. Some classification models of this type perform learning by providing information on whether the classified speech is correct or incorrect as training data. Appropriate evaluation of speech is required to generate training data. As a proposal regarding voice evaluation, for example, a method listed in Non-Patent
実施形態は、効率よく音声の分類のための教師データを収集できる学習装置、学習方法及び学習プログラムを提供する。 The embodiments provide a learning device, a learning method, and a learning program that can efficiently collect training data for speech classification.
実施形態に係る学習装置は、複数の音声候補の中からユーザに対して提示する音声を選択するための学習モデルに対する教師データを、ユーザに対して同時に提示された複数の音声に対するユーザの反応に基づいて取得する学習部を具備する。複数の音声は、ユーザに対して等距離かつ異なる方向に配置され、異なる方向からユーザに向かって音声を発する複数のスピーカのそれぞれから提示された音声である。 The learning device according to the embodiment uses training data for a learning model for selecting a voice to be presented to a user from among a plurality of voice candidates based on the user's reaction to a plurality of voices simultaneously presented to the user. Equipped with a learning section that acquires based on. The plurality of sounds are sounds presented from each of a plurality of speakers arranged equidistantly and in different directions from the user and emitting sounds toward the user from different directions .
実施形態によれば、効率よく音声の分類のための教師データを収集できる学習装置、学習方法及び学習プログラムが提供される。 According to the embodiment, a learning device, a learning method, and a learning program are provided that can efficiently collect teacher data for classifying speech.
以下、図面を参照して実施形態を説明する。図1は、実施形態に係る学習装置を含む音声生成装置の一例のハードウェア構成を示す図である。実施形態に係る音声生成装置1は、ユーザが眠気を有している状態等の覚醒の状態にないときに、ユーザの覚醒を促す呼びかけ音声を発する。
Hereinafter, embodiments will be described with reference to the drawings. FIG. 1 is a diagram illustrating a hardware configuration of an example of a speech generation device including a learning device according to an embodiment. The
実施形態では、「覚醒度」に基づいてユーザが覚醒の状態にあるか否かが判定される。実施形態における覚醒度は、覚醒水準に対応した覚醒の程度を示す指標である。覚醒水準は、大脳の活動レベルに対応し、睡眠から興奮に至るまでの覚醒の程度を表している。覚醒水準は、眼球運動、瞬目活動、皮膚電気活動、刺激への反応時間等から計測される。実施形態における覚醒度は、これらの覚醒水準を計測するための、眼球運動、瞬目活動、皮膚電気活動、刺激への反応時間の何れか又はそれらの組み合わせで算出される。覚醒度は、例えば睡眠状態から興奮状態に向かうに従って大きくなる値である。覚醒度は、連続的な数値でもよいし、Level 1, Level 2,…といった離散値であってもよい。また、眼球運動、瞬目活動、皮膚電気活動、刺激への反応時間の各値の組み合わせによって覚醒度が算出される場合において、それらの組み合わせ方は、特に限定されない。例えばこれらの値を単純に合算する、重みづけ加算する等が組み合わせ方として用いられ得る。
In the embodiment, it is determined whether the user is in a state of wakefulness based on the "degree of wakefulness." The arousal degree in the embodiment is an index indicating the degree of arousal corresponding to the arousal level. The arousal level corresponds to the cerebral activity level and represents the degree of arousal ranging from sleep to excitement. Arousal level is measured from eye movements, blink activity, electrodermal activity, reaction time to stimulation, etc. The degree of alertness in the embodiment is calculated using any one or a combination of eye movements, eye blink activity, electrodermal activity, reaction time to stimulation, to measure the level of alertness. The degree of arousal is a value that increases from a sleeping state to an excited state, for example. The arousal level may be a continuous numerical value or may be a discrete value such as
音声生成装置1は、プロセッサ2と、ROM3と、RAM4と、ストレージ5と、マイクロホン(マイク)6と、スピーカ7a、7bと、カメラ8と、入力装置9と、ディスプレイ10と、通信モジュール11とを有する。音声生成装置1は、例えばパーソナルコンピュータ(PC)、スマートフォン、タブレット端末といった各種の端末である。これに限らず、音声生成装置1は、ユーザによって利用される各種の装置に搭載され得る。なお、音声生成装置1は、図1で示したすべての構成を有している必要はない。例えば、マイク6、スピーカ7a、7b、カメラ8、ディスプレイ10は、音声生成装置1と別体の装置であってもよい。
The
プロセッサ2は、CPU等の音声生成装置1の全体的な動作を制御する制御回路である。プロセッサ2は、CPUである必要はなく、ASIC、FPGA、GPU等であってもよい。プロセッサ2は、単一のCPU等で構成されている必要はなく、複数のCPU等で構成されていてもよい。
The
ROM3は、フラッシュメモリ等の不揮発性のメモリである。ROM3には、例えば音声生成装置1の起動プログラムが記憶されている。RAM4は、SDRAM等の揮発性のメモリである。RAM4は、音声生成装置1における各種処理のための作業用のメモリとして使用され得る。
ROM3 is a nonvolatile memory such as a flash memory. The
ストレージ5は、フラッシュメモリ、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)といったストレージである。ストレージ5には、音声生成装置1で利用される各種のプログラムが記憶される。ストレージ5には、なじみ度データベース(DB)、ユーザログデータベース(DB)52と、モデルデータベース53と、音声合成パラメータデータベース(DB)54と、呼びかけ文データベース(DB)55とが記憶されてもよい。これらのデータベースについては後で詳しく説明する。
The
マイク6は、入力された音声を電気信号である音声信号に変換するデバイスである。マイク6で得られた音声信号は、例えばRAM4又はストレージ5に記憶され得る。例えば、呼びかけ音声を合成するための音声合成パラメータは、マイク6を介して入力された音声より取得され得る。
The
スピーカ7a、7bは、入力された音声信号に基づいて音声を出力するデバイスである。ここで、スピーカ7aとスピーカ7bとは近接していないことが望ましい。また、スピーカ7aとスピーカ7bは、ユーザを中心としたときの配置の方向が異なっていることが望ましい。さらに、スピーカ7aとユーザとの距離及びスピーカ7bとユーザとの距離は、等距離であることが望ましい。
The
図2A及び図2Bは、スピーカ7a、7bの配置例を示す図である。図2Aでは、ユーザUの前方にそれぞれユーザに対して等距離となるようにスピーカ7a、7bが配置されている。図2Bでは、ユーザUの前方と後方にそれぞれユーザに対して等距離となるようにスピーカ7a、7bが配置されている。
FIGS. 2A and 2B are diagrams showing examples of arrangement of
ここで、スピーカは、ユーザのいる環境内に音声の提示数と同数だけ配置される。つまり、図1は、音声の提示数が2つの例である。これに対し、音声の提示数は、3つ以上であってもよい。この場合、スピーカも3つ以上配置されることになる。スピーカが3つ以上配置される場合であっても、それぞれのスピーカは近接していないことが望ましい。また、それぞれのスピーカは、ユーザを中心としたときの配置の方向が異なっていることが望ましい。さらに、それぞれのスピーカとユーザとの距離は、等距離であることが望ましい。例えば、スピーカが3つのスピーカ7a、7b、7cであるときの配置例が図2C、図2Dに示されている。図2Cでは、スピーカ7a、7b、7cがユーザUの前方に配置されている。また、図2Dでは、スピーカ7a、7b、7cがユーザUの後方に配置されている。
Here, the same number of speakers as the number of voices to be presented are placed in the environment where the user is present. In other words, FIG. 1 is an example in which the number of audio presentations is two. On the other hand, the number of audio presentations may be three or more. In this case, three or more speakers will also be arranged. Even when three or more speakers are arranged, it is desirable that the speakers are not close to each other. Further, it is desirable that the respective speakers are arranged in different directions with respect to the user. Furthermore, it is desirable that the distances between each speaker and the user be equal. For example, an arrangement example when the speakers are three
カメラ8は、ユーザを撮像し、ユーザの画像を取得する。カメラ8で得られたユーザの画像は、例えばRAM4又はストレージ5に記憶され得る。ユーザの画像は、例えば、覚醒度の取得のため又は呼びかけ音声に対するユーザの反応を取得するために用いられる。
The
入力装置9は、ボタン、スイッチ、キーボード、マウスといった機械式の入力装置、タッチセンサを用いたソフトウェア式の入力装置である。入力装置9は、ユーザからの各種の入力を受け付ける。そして、入力装置9は、ユーザの入力に応じた信号をプロセッサ2に出力する。
The
ディスプレイ10は、例えば液晶ディスプレイ、有機ELディスプレイといったディスプレイである。ディスプレイ10は、各種の画像を表示する。
The
通信モジュール11は、音声生成装置1が通信を実施するための装置である。通信モジュール11は、例えば音声生成装置1の外部に設けられたサーバと通信する。通信モジュール11による通信の方式は特に限定されない。通信モジュール11は、無線で通信を実施してもよいし、有線で通信を実施してもよい。
The
次に、なじみ度データベース(DB)51、ユーザログデータベース(DB)52、モデルデータベース(DB)53、音声合成パラメータデータベース(DB)54、呼びかけ文データベース(DB)55について説明する。 Next, the familiarity database (DB) 51, user log database (DB) 52, model database (DB) 53, speech synthesis parameter database (DB) 54, and appeal sentence database (DB) 55 will be explained.
図3は、なじみ度DB51の一例の構成を示す図である。なじみ度DB51は、ユーザの「なじみ度」を記録したデータベースである。なじみ度DB51は、例えばユーザIDと、音声ラベルと、なじみ対象と、なじみ度と、反応あり数と、提示回数と、覚醒度変化平均値とを関連付けて記録している。
FIG. 3 is a diagram showing an example of the configuration of the
「ユーザID」は、音声生成装置1のユーザ毎に付けられたIDである。ユーザIDには、ユーザ名等のユーザの属性情報が対応付けられていてよい。
“User ID” is an ID assigned to each user of the
「音声ラベル」は、呼びかけ音声の候補のそれぞれに一意に付けられたラベルである。音声ラベルには、任意のラベルが用いられ得る。例えば、音声ラベルに、なじみ対象の名前が用いられてもよい。 The "voice label" is a label uniquely attached to each candidate for a calling voice. Any label can be used as the audio label. For example, the name of the familiar target may be used as the audio label.
「なじみ対象」は、ユーザが日頃会話する人又はユーザがよく耳にする音声を発生する対象である。なじみ対象は、必ずしも人でなくてもよい。 A "familiar object" is a person with whom the user converses on a daily basis or an object that generates sounds that the user often hears. The familiar object does not necessarily have to be a person.
「なじみ度」は、対応するなじみ対象の音声に対するユーザのなじみの度合いである。なじみ度は、SNS等によるなじみ対象とのコミュニケーション頻度、なじみ対象との日常の会話頻度、なじみ対象から日常的に耳にする頻度等から算出され得る。例えば、SNS等によるなじみ対象とのコミュニケーション頻度、なじみ対象との日常の会話頻度、なじみ対象から日常的に耳にする頻度が多いほど、なじみ度の値は大きくなる。ここで、なじみ度は、ユーザによる自己申告によって取得されてもよい。 “Familiarity level” is the user's degree of familiarity with the corresponding familiarity target voice. The degree of familiarity can be calculated from the frequency of communication with the familiar target through SNS etc., the frequency of daily conversations with the familiar target, the frequency of hearing from the familiar target on a daily basis, etc. For example, the value of the degree of familiarity increases as the frequency of communication with the familiar target through SNS etc., the frequency of daily conversations with the familiar target, and the frequency of hearing from the familiar target on a daily basis. Here, the degree of familiarity may be acquired by self-report by the user.
「反応あり数」は、対応する音声ラベルに基づいて生成された呼びかけ音声に対してユーザが反応した回数である。提示回数は、対応する音声ラベルに基づいて生成された呼びかけ音声をユーザに対して提示した回数である。反応あり数を提示回数で割ることにより、反応確率が算出され得る。反応確率は、対応する音声ラベルに基づいて生成される呼びかけ音声に対してユーザが反応する確率である。 The “number of responses” is the number of times the user responded to the calling voice generated based on the corresponding voice label. The number of presentations is the number of times the calling voice generated based on the corresponding voice label was presented to the user. The response probability can be calculated by dividing the number of responses by the number of presentations. The response probability is the probability that the user will respond to the calling voice generated based on the corresponding voice label.
「覚醒度変化平均値」は、対応する音声ラベルに基づいて生成された呼びかけ音声に対するユーザの覚醒度変化量の平均値である。覚醒度変化量については後で説明する。 The "average change in arousal level" is the average value of the amount of change in the user's arousal level with respect to the calling voice generated based on the corresponding voice label. The amount of change in arousal level will be explained later.
図4は、ユーザログDB52の一例の構成を示す図である。ユーザログDB52は、ユーザによる音声生成装置1の利用に係るログを記録したデータベースである。ユーザログDB52は、例えばログ発生日時と、ユーザIDと、音声ラベルと、なじみ対象と、集中度と、反応有無と、覚醒度と、新覚醒度と、覚醒度変化量と、正解ラベルとを関連付けて記録している。ユーザIDと、音声ラベルと、なじみ対象は、なじみ度DB51と同じものである。
FIG. 4 is a diagram showing an example of the configuration of the
「ログ発生日時」は、ユーザによる音声生成装置1の利用があった日時である。ログ発生日時は、例えばユーザに対する呼びかけ音声の提示がされる毎に記録される。
The “log occurrence date and time” is the date and time when the
「反応有無」は、ユーザに対して呼びかけ音声が提示された後のユーザの反応の有無の情報である。ユーザの反応があったときには、「あり」が記録される。ユーザの反応がなかったときには、「なし」が記録される。 “Reaction presence/absence” is information on whether or not the user reacts after the calling voice is presented to the user. When there is a reaction from the user, "Yes" is recorded. When there is no response from the user, "None" is recorded.
「集中度」は、呼びかけ音声の提示の際のユーザの集中の度合いである。集中度は、例えば作業中のユーザの姿勢、行動をカメラ8で得られる画像から推定することで測定され得る。集中度の値は、ユーザが集中していると考えられる姿勢、行動をする毎に高くなり、ユーザが集中していないと考えられる姿勢、行動をする毎に低くなるように算出される。また、作業中のユーザの瞳孔の開き具合をカメラ8で得られる画像から推定することで測定され得る。集中度の値は、瞳孔がより散瞳している場合に高くなり、瞳孔がより縮瞳している場合には低くなるように算出される。集中度は、例えばLv(Level)1、Lv2、…といった離散値であってよい。なお、集中度の取得手法は、特定の手法には限定されない。
The "degree of concentration" is the degree of concentration of the user when presenting the calling voice. The degree of concentration can be measured, for example, by estimating the user's posture and behavior during work from an image obtained by the
「覚醒度」は、音声生成装置1による呼びかけ音声の提示前に取得された覚醒度である。
The “awakeness level” is the wakefulness level acquired before the
「新覚醒度」は、ユーザの反応があった後で新たに取得された覚醒度である。新覚醒度は、ユーザの反応がなかったときには記録されない。 The "new arousal level" is the newly acquired arousal level after the user's reaction. The new arousal level is not recorded when there is no reaction from the user.
「覚醒度変化量」は、ユーザの反応の前後での覚醒度の変化を表す量である。例えば、覚醒度変化量は、例えば新覚醒度と覚醒度との差から得られる。覚醒度変化量は、新覚醒度と覚醒度との比等であってもよい。覚醒度変化量は、ユーザの反応がなかったときには記録されない。 The "amount of change in arousal level" is an amount representing a change in arousal level before and after the user's reaction. For example, the amount of change in arousal level can be obtained from, for example, the difference between the new arousal level and the arousal level. The amount of change in the arousal level may be a ratio between the new arousal level and the arousal level. The amount of change in arousal level is not recorded when there is no reaction from the user.
「正解ラベル」は、教師付き学習のための正解又は不正解のラベルである。例えば、正解は〇、不正解は×として記録される。正解ラベルについては後で詳しく説明する。 “Correct label” is a label of correct or incorrect answer for supervised learning. For example, a correct answer is recorded as ○, and an incorrect answer is recorded as ×. The correct answer label will be explained in detail later.
モデルDB53は、音声ラベル候補を抽出するための音声ラベル分類のモデルを記録したデータベースである。実施形態では、モデルは、なじみ度と集中度の2次元空間において、音声ラベルの正解又は不正解を分類するように構成されたモデルである。モデルは、初期モデルと、学習モデルとを含む。初期モデルは、モデルDB53に記憶された初期値に基づいて生成されるモデルであって、学習によって更新されないモデルである。ここで、初期値は、例えば「なじみ度」と、「集中度」、「覚醒度変化量」との3次元空間において定義される音声ラベルの分類のための分類名を決める定数(平面の方程式の係数)の値である。この初期値によって生成される分類面が初期モデルである。初期モデルでは、分類面よりも大きいなじみ度を持つ音声ラベルは正解(〇)に分類され、それ以外の音声ラベルは不正解(×)に分類される。また、学習モデルは、初期モデルから生成された学習済みのモデルである。学習モデルは、初期モデルとは異なる分類面の二値分類モデルになり得る。
The
音声合成パラメータDB54は、音声合成パラメータを記録したデータベースである。音声合成パラメータは、ユーザのなじみ対象の音声を合成するために用いられるデータである。例えば、音声合成パラメータは、事前にマイク6を介して収音された音声のデータから抽出される特徴量のデータであってよい。あるいは、他のシステムによって取得又は定義された音声合成パラメータを事前に記録しておいてもよい。ここで、音声合成パラメータは、音声ラベルと対応付けられている。
The speech
図5は、呼びかけ文DB55の一例の構成を示す図である。呼びかけ文DB55は、ユーザの覚醒を促すための各種の呼びかけ文のテンプレートデータを記録したデータベースである。呼びかけ文は特に限定されない。ただし、呼びかけ文は、ユーザの名前を用いた呼びかけを含んでいることが望ましい。これは、後で説明するカクテルパーティ効果を高めるためである。
FIG. 5 is a diagram showing the configuration of an example of the
ここで、なじみ度DB51、ユーザログDB52、モデルDB53、音声合成パラメータDB54、呼びかけ文DB55は、必ずしもストレージ5に記憶されている必要はない。例えば、なじみ度DB51、ユーザログDB52、モデルDB53、音声合成パラメータDB54、呼びかけ文DB55は、音声生成装置1とは別体のサーバに記憶されていてもよい。この場合、音声生成装置1は、通信モジュール11を用いてサーバにアクセスし、必要な情報を取得する。
Here, the
図6は、音声生成装置1の機能ブロック図である。図6に示すように、音声生成装置1は、取得部21と、判定部22と、選択部23と、生成部24と、提示部25と、学習部26とを有している。取得部21と、判定部22と、選択部23と、生成部24と、提示部25と、学習部26との動作は、例えばストレージ5に記憶されているプログラムをプロセッサ2が実行することによって実現される。判定部22と、選択部23と、生成部24と、提示部25と、学習部26とは、プロセッサ2とは別のハードウェアによって実現されてもよい。
FIG. 6 is a functional block diagram of the
取得部21は、ユーザの覚醒度を取得する。また、取得部21は、呼びかけ音声に対するユーザの反応を取得する。前述したように、覚醒度は、眼球運動、瞬目活動、皮膚電気活動、刺激への反応時間の何れか又はそれらの組み合わせで算出される。ここで、覚醒度を算出するための、眼球運動、瞬目活動、刺激への反応時間は、例えばカメラ8で取得されるユーザの画像から測定され得る。また、刺激への反応時間は、マイク6で取得される音声信号から測定されてもよい。また、皮膚電気活動は、例えばユーザの腕に装着されるセンサによって測定され得る。また、ユーザの反応は、ユーザの頭部がスピーカ7a又は7bの方向に向いた、ユーザの視線がスピーカ7a又は7bの方向に向いた等のユーザの身体的な反応の有無と反応の方向とを例えばカメラ8で取得される画像から測定することによって取得され得る。取得部21は、音声生成装置1の外部で算出された覚醒度又はユーザの反応を通信によって取得するように構成されていてもよい。
The
判定部22は、取得部21で取得された覚醒度に基づき、ユーザが覚醒している状態であるか否かを判定する。そして、判定部22は、ユーザが覚醒している状態であると判定したときに、選択部23の受信部231に対して音声ラベルの選択依頼を送信する。ここで、判定部22は、覚醒度を予め定められた閾値と比較することで判定を実施する。閾値は、ユーザが覚醒している状態であるかどうかを判定するための覚醒度の閾値であり、例えばストレージ5に記憶される。また、判定部22は、取得部21で取得されたユーザの反応の情報に基づき、ユーザの反応の有無を判定する。
The
選択部23は、ユーザが覚醒している状態でないと判定されたときに、ユーザの覚醒を促すための候補となる音声の音声ラベルを選択する。選択部23は、受信部231と、モデル選択部232と、音声ラベル候補抽出部233と、音声ラベル選択部234と、送信部235とを有している。
When it is determined that the user is not awake, the
受信部231は、判定部22から音声ラベルの選択依頼を受信する。
The receiving
モデル選択部232は、モデルDB53から音声ラベルの選択に用いるモデルを選択する。モデル選択部232は、当てはまり度に基づき、初期モデルと学習モデルとのうちの何れかを選択する。当てはまり度は、初期モデルと学習モデルとのどちらのほうが高い精度を有しているかを判定するための値である。当てはまり度については後で詳しく説明する。
The
音声ラベル候補抽出部233は、モデル選択部232で選択されたモデルとユーザの集中度とに基づき、ユーザに対して提示する呼びかけ音声の候補となる音声ラベルをなじみ度DB51から抽出する。
The voice label
音声ラベル選択部234は、音声ラベル候補抽出部233で抽出された音声ラベルから、ユーザに対して提示する呼びかけ音声を生成するための音声ラベルを選択する。
The voice
送信部235は、音声ラベル選択部234で選択された音声ラベルの情報を生成部24に送信する。
The
生成部24は、送信部235から受け取った音声ラベルに基づき、ユーザの覚醒を促すための呼びかけ音声を生成する。生成部24は、送信部235から受け取った音声ラベルと対応した音声合成パラメータを音声合成パラメータDB54から取得する。そして、生成部24は、呼びかけ文DB55に記録されている呼びかけ文のデータと音声合成パラメータとに基づき、呼びかけ音声を生成する。
The
提示部25は、生成部24で生成された呼びかけ音声をユーザに提示する。例えば、提示部25は、生成部24で生成された呼びかけ音声を、スピーカ7を利用して再生する。
The
学習部26は、モデルDB53に記録されているモデルの学習を実施する。学習部26は、例えば正解ラベルを用いた二値分類学習を用いて学習を実施する。
The
次に、音声生成装置1の動作について説明する。図7A及び図7Bは、音声生成装置1による音声提示処理を示すフローチャートである。図7A及び図7Bの処理は、定期的に行われてよい。
Next, the operation of the
ステップS1において、取得部21は、ユーザの覚醒度を取得する。取得部21は、取得した覚醒度を判定部22に出力する。また、取得部21は、取得した覚醒度を呼びかけ音声の提示後のユーザからの反応の取得のタイミングまで保持しておく。
In step S1, the
ステップS2において、判定部22は、取得部21で取得された覚醒度が閾値以下であるか否かを判定する。ステップS2において、覚醒度が閾値を超えていると判定されたとき、すなわちユーザが覚醒の状態にあるときには、図7A及び図7Bの処理は終了する。ステップS2において、覚醒度が閾値以下であると判定されたとき、すなわちユーザが眠気を有しているといった覚醒の状態にないときには、処理はステップS3に移行する。
In step S2, the
ステップS3において、判定部22は、選択部23に対して音声ラベルの選択依頼を送信する。音声ラベルの選択依頼が受信部231で受信されると、モデル選択部232は、ユーザログDB52を参照して、反応あり回数を取得する。反応あり回数は、「反応有無」の「あり」の総数である。
In step S3, the
ステップS4において、モデル選択部232は、反応あり回数が閾値未満であるか否かを判定する。閾値は、利用できる学習モデルがモデルDB53に記録されているか否かを判定するための閾値である。閾値は、例えば2に設定される。この場合、反応あり回数が0回又は1回のときには、反応あり回数が閾値未満であると判定される。ステップS4において、反応あり回数が閾値未満であると判定されたときには、処理はステップS5に移行する。ステップS4において、反応あり回数が閾値以上であると判定されたときには、処理はステップS6に移行する。
In step S4, the
ステップS5において、モデル選択部232は、初期値、すなわち初期モデルをモデルDB53から選択する。そして、モデル選択部232は、選択した初期モデルを音声ラベル候補抽出部233に出力する。その後、処理はステップS9に移行する。
In step S5, the
ステップS6において、モデル選択部232は、当てはまり度を計算する。当てはまり度の計算に際して、モデル選択部232は、まず、ユーザログDB52から過去の全ての反応あり及び反応なしのログを取得する。そして、モデル選択部232は、初期モデルと学習モデルの双方の当てはまり度を計算する。モデル選択部232は、例えば、それぞれのログの集中度の値が用いられた時の対応するモデルの正解又は不正解の出力結果とそれぞれのログの反応有無とを比較して求めた正答率(Accuracy)を当てはまり度として用いることができる。当てはまり度は、正答率に限らず、モデルの正解又は不正解の出力結果とログの反応有無とが用いられることによって算出される、適合率(Precision)、再現率(Recall)、F値(F-measure)等であってもよい。適合率は、正解と予測されたデータのうちで、実際にユーザの反応が「あり」であった割合である。再現率は、実際にユーザの反応ありであるログのうちの正解と予測されたものの割合である。F値は、再現率と適合率の調和平均である。例えば、F値は、2Recall・Precision/(Recall+Precision)から算出され得る。
In step S6, the
ステップS7において、モデル選択部232は、初期モデルと学習モデルの当てはまり度を比較し、学習モデルの当てはまり度の方が高いか否かを判定する。ステップS7において、初期モデルの当てはまり度のほうが高いと判定されたときには、処理はステップS5に移行する。この場合、モデル選択部232は、初期値、すなわち初期モデルを選択する。ステップS7において、学習モデルの当てはまり度のほうが高いと判定されたときには、処理はステップS8に移行する。
In step S7, the
ステップS8において、モデル選択部232は、学習モデルを選択する。そして、モデル選択部232は、選択した学習モデルを音声ラベル候補抽出部233に出力する。その後、処理はステップS9に移行する。
In step S8, the
ステップS9において、音声ラベル候補抽出部233は、取得部21から現在のユーザの集中度を取得する。
In step S9, the audio label
ステップS10において、音声ラベル候補抽出部233は、呼びかけ音声の生成に用いる候補の音声ラベルをなじみ度DB51から抽出する。候補の音声ラベルの抽出数は、指定された数、例えば呼びかけ音声の提示数以上である。音声ラベル候補抽出部233は、例えばなじみ度DB51に登録されている音声ラベルの中から、現在の集中度の値に対して正解のラベルが付けられているすべての音声ラベルを抽出する。正解のラベルが付けられている音声ラベルは、呼びかけ音声の提示によるユーザの反応が期待され、かつ、覚醒度の上昇も期待される音声ラベルである。
In step S<b>10 , the voice label
ステップS11において、音声ラベル選択部234は、音声ラベル候補抽出部233で抽出された音声ラベルの中から、指定された数、例えば呼びかけ音声の提示数と同数の音声ラベルを選択する。音声ラベル選択部234は、例えば音声ラベルを選択するに当たって、過去の提示回数を基に重み付き当選確率を求める。そして、音声ラベル選択部234は、重み付き当選確率を基にランダムサンプリングによって音声ラベルを選択する。重み付き当選確率は、例えば式(1)に従って算出され得る。重み付き当選確率は、式(1)と異なる式で算出されてもよい。
ステップS12において、送信部235は、音声ラベル選択部234で選択された音声ラベルを示す情報を、生成部24に送信する。生成部24は、音声合成パラメータDB54から、受信した音声ラベルに対応した音声合成パラメータを取得する。そして、生成部24は、呼びかけ文DB55からランダムに選択した呼びかけ文のデータと音声合成パラメータとに基づき、呼びかけ音声を生成する。呼びかけ音声の生成は、音声合成パラメータを用いた音声合成処理によって行われ得る。その後、処理はステップS13に移行する。
In step S12, the
ステップS13において、提示部25は、生成部24において生成された呼びかけ音声を、スピーカ7a、7bから同時にユーザに提示する。
In step S13, the
ステップS14において、取得部21は、ユーザの反応を取得する。そして、取得部21は、ユーザの反応の情報を判定部22に出力する。
In step S14, the
ステップS15において、判定部22は、ユーザの反応があったか否かを判定する。ステップS15において、ユーザの反応がなかったと判定されたときには、処理はステップS20に移行する。ステップS15において、ユーザの反応があったと判定されたときには、処理はステップS16に移行する。
In step S15, the determining
ステップS16において、判定部22は、取得部21に対して新覚醒度の取得を要求する。これを受けて、取得部21は、新覚醒度を取得する。新覚醒度の取得は、覚醒度の取得と同様に行われてよい。
In step S16, the
ステップS17において、取得部21は、正解ラベルの設定を行う。取得部21は、例えば次のようにして正解レベルを設定する。
1)ユーザが特定のスピーカの方を向いたことが反応として取得された場合
該当するスピーカにおいて提示された音声と対応する音声ラベル:〇
それ以外の音声ラベル:×
2)ユーザが複数のスピーカの間等を向いたことが反応として取得された場合
ユーザが向いた方向と各スピーカの方向とのなす角度を求め、その角度がより小さいスピーカにおいて提示された音声の音声ラベル:〇
それ以外の音声ラベル:×
3)ユーザが1つのスピーカの方向を向いた後に、別のスピーカの方向を向いたことが反応として取得された場合
始めに向いたスピーカにおいて提示された音声の音声ラベル:〇
それ以外の音声ラベル:×
4)反応が取得できなかった場合
すべての音声のラベル:×In step S17, the
1) When it is acquired as a reaction that the user turned towards a specific speaker: Audio label corresponding to the audio presented by the relevant speaker: 〇 Other audio labels: ×
2) When it is obtained as a response that the user turned between multiple speakers, etc. Find the angle between the direction the user turned and the direction of each speaker, and calculate the angle of the sound presented on the speaker with the smaller angle. Audio label: 〇 Other audio labels: ×
3) When it is obtained as a reaction that the user turned to one speaker and then turned to another speaker Audio label of the audio presented at the first speaker: 〇 Other audio labels :×
4) If no response was obtained All audio labels: ×
ステップS18において、取得部21は、集中度、反応有無の情報、覚醒度、新覚醒度、覚醒度変化量、正解ラベルをログ発生日時、音声ラベル、なじみ対象、なじみ度と対応付けてユーザログDB52に登録する。その後、処理はステップS19に移行する。
In step S18, the
ステップS19において、学習部26は、ユーザログDB52を参照して、反応あり回数を取得する。そして、学習部26は、反応あり回数が閾値未満であるか否かを判定する。閾値は、学習に必要な情報が蓄積されたか否かを判定するための閾値である。閾値は、例えば2に設定される。この場合、反応あり回数が0回又は1回のときには、反応あり回数が閾値未満であると判定される。ステップS19において、反応あり回数が閾値未満であると判定されたときには、図7A及び図7Bの処理は終了する。ステップS19において、反応あり回数が閾値以上であると判定されたときには、処理はステップS20に移行する。
In step S19, the
ステップS20において、学習部26は、二値分類学習を実施する。そして、学習部26は、二値分類学習の実施による学習の結果をモデルDB53に記録する。その後、図7A及び図7Bの処理は終了する。ステップS20において、学習部26は、例えばユーザログDB52に記録されている正解ラベルと、正解ラベルに関連付けられたなじみ度と、集中度とを取得する。そして、学習部26は、「なじみ度」と、「集中度」と、「覚醒度変化量」の3次元空間における音声ラベルの二値分類モデルを生成する。図8は、「なじみ度」と、「集中度」、「覚醒度変化量」とを用いた二値分類モデルのイメージを表す図である。図8の例では、分類面Pよりも上側の空間に位置するなじみ度を持つ音声ラベルは正解(〇)に分類される。一方、分類面Pよりも下側の空間に位置するなじみ度を持つ音声ラベルは不正解(×)に分類される。ここで、モデルの生成には、ロジスティック回帰、SVN(Support Vector Machine)、ニューラルネットワーク等を用いた各種の二値分類学習が用いられ得る。
In step S20, the
ここで、実施形態における二値分類モデルに、「なじみ度」と、「集中度」、「覚醒度変化量」の3軸が採用されている理由について説明する。人は、自分が興味のある人の会話や自分の名前等のなじみある音声に対しては、選択的注意が働く特性を有している。これは、カクテルパーティ効果と呼ばれている。また、本城由美子,”注意と覚醒に関する生理心理学的研究”, 関西学院大学博士論文,乙第217号,p.187-188では、選択的注意と覚醒の双方を導入した注意と覚醒のモデルが導出されている。このことから、選択的注意の発生と覚醒度とには関連があると考えられる。このように、「なじみ度」は、カクテルパーティ効果の生じやすさとカクテルパーティ効果による覚醒度の変化に影響すると考えられるので、学習の1軸として採用されている。 Here, the reason why the three axes of "familiarity level", "concentration level", and "alertness level change" are adopted in the binary classification model in the embodiment will be explained. People have the characteristic of selectively paying attention to familiar sounds such as conversations of people they are interested in or their own names. This is called the cocktail party effect. In addition, Yumiko Honjo, “Physiological psychological research on attention and arousal,” Kwansei Gakuin University doctoral dissertation, Otsu No. 217, p.187-188, discusses the relationship between attention and arousal, which introduces both selective attention and arousal. A model has been derived. This suggests that there is a relationship between the occurrence of selective attention and the level of arousal. In this way, "familiarity" is considered to influence the likelihood of the cocktail party effect occurring and the change in arousal due to the cocktail party effect, and is therefore adopted as one axis of learning.
また、「集中度」については、“「効率的選択」で脳は注意を向け集中を高める”, 理化学研究所ニュースリリース,2011年12月8日, [Online][令和2年6月10日検索],インターネットURL:https://www.riken.jp/press/2011/20111208/に、集中状態では、感覚から知覚へ伝達する情報が限定されることが報告されている。つまり、集中が高まっているときに認知される音は、よりユーザにとって必要とされる又は耳に入りやすい音となると推測される。このように、「集中度」は、ユーザの選択的注意を生じさせやすさ、つまりどの音に反応しやすいかに影響すると考えることができるので、学習の1軸として採用されている。 Regarding "concentration level", "The brain directs attention and increases concentration through 'efficient selection'", RIKEN News Release, December 8, 2011, [Online] [June 10, 2020] Internet URL: https://www.riken.jp/press/2011/20111208/ reports that in a state of concentration, the information transmitted from the senses to perception is limited. It is presumed that the sound that is perceived when the user's attention is high is the one that is needed by the user or is easier for the user to hear.In this way, "concentration level" increases the likelihood that the user's selective attention will occur. Since it can be thought of as having an effect on which sounds we tend to respond to, it has been adopted as one of the pillars of learning.
覚醒度変化量は、正解ラベル、すなわち、ユーザが反応するかどうかに加えて、ユーザの反応を特徴づけるものである。したがって、「覚醒度変化量」は、正解ラベルの判定の精度のさらなる向上が見込まれるものとして、学習の1軸として採用されている。 The amount of change in arousal degree characterizes the user's reaction in addition to the correct label, that is, whether or not the user responds. Therefore, the "amount of change in arousal level" is adopted as one axis of learning as it is expected to further improve the accuracy of determining correct labels.
以上説明したように実施形態によれば、ユーザが覚醒していない状態であると判定されたときには、ユーザにとってなじみのある音声を用いてユーザに対する呼びかけが行われる。このため、ユーザが眠気を有している状態等であっても、カクテルパーティ効果によってユーザに呼びかけ音声を聞かせることができる。したがって、短時間での覚醒度の向上が見込まれる。また、実施形態では、なじみのある音声の選択にあたり、なじみ度と集中度とが用いられる。このため、よりユーザが反応し易い呼びかけ音声をユーザに聞かせることができる。 As described above, according to the embodiment, when it is determined that the user is not awake, a voice familiar to the user is used to address the user. Therefore, even if the user is drowsy or the like, the cocktail party effect allows the user to hear the calling voice. Therefore, it is expected that the level of alertness will improve in a short period of time. Further, in the embodiment, familiarity and concentration are used to select familiar voices. For this reason, it is possible to make the user hear a calling voice that the user is more likely to respond to.
また、実施形態によれば、なじみ度と、集中度と、覚醒度変化量の3軸を有する学習モデルを用いて音声ラベルの分類が行われる。このため、学習が進むことにより、よりユーザに適した音声ラベルの候補が抽出されることが期待される。また、実施形態によれば、抽出された候補の中から過去の提示回数に基づくランダムサンプリングによって音声を生成するための音声ラベルが選択される。これにより、同じ音声ラベルの呼びかけ音声が頻繁に提示されることによる、ユーザの慣れや飽きが抑制される。これにより、長期に音声生成装置1が利用される場合であっても、呼びかけ音声に対するユーザの反応が期待され易くなり、結果としてユーザの覚醒度の上昇が見込まれる。
Further, according to the embodiment, audio labels are classified using a learning model having three axes: familiarity, concentration, and arousal level change. Therefore, as learning progresses, it is expected that voice label candidates that are more suitable for the user will be extracted. Further, according to the embodiment, an audio label for generating audio is selected from the extracted candidates by random sampling based on the number of past presentations. This suppresses the user's habituation and boredom caused by frequent presentation of calling voices with the same voice label. As a result, even if the
さらに、実施形態によれば、環境に配置された複数のスピーカから同時に呼びかけ音声が提示され、それぞれの呼びかけ音声に対するユーザの反応が取得される。そして、このユーザの反応に従って正解ラベルが設定される。これにより、効率よく教師データを得ることができる。 Furthermore, according to the embodiment, a plurality of speakers placed in the environment present calling voices simultaneously, and a user's reaction to each calling voice is obtained. Then, a correct label is set according to the user's reaction. Thereby, teacher data can be obtained efficiently.
[変形例]
実施形態の変形例を説明する。実施形態では、なじみ度と、集中度と、覚醒度変化量に基づく音声ラベルの選択、呼びかけ音声の生成、学習モデルの学習は、何れも音声生成装置1の中で行われている例が示されている。しかしながら、音声ラベルの選択、呼びかけ音声の生成、学習モデルの学習は、別個の装置において行われてもよい。[Modified example]
A modification of the embodiment will be described. In the embodiment, an example is shown in which the selection of a voice label based on the degree of familiarity, the degree of concentration, and the amount of change in arousal level, the generation of a calling voice, and the learning of a learning model are all performed in the
また、実施形態では、二値分類モデルに、「なじみ度」と、「集中度」、「覚醒度変化量」の3軸が採用されている。これに対し、より簡易的に例えば「なじみ度」だけ、「なじみ度」と「集中度」だけといった二値分類モデルが用いられてもよい。 Further, in the embodiment, three axes of "familiarity", "concentration", and "amount of change in arousal" are employed in the binary classification model. On the other hand, a simpler binary classification model may be used, for example, only "familiarity" or only "familiarity" and "concentration".
また、実施形態では、学習装置は、ユーザの覚醒を促す呼びかけ音声のための音声ラベルの分類モデルの学習装置として用いられている。これに対し、実施形態の学習装置は、ユーザが認知しやすい音声を選定するための各種のモデルの学習に利用可能である。 Further, in the embodiment, the learning device is used as a learning device for a classification model of a voice label for a calling voice that urges the user to wake up. In contrast, the learning device of the embodiment can be used to learn various models for selecting voices that are easy for the user to recognize.
上述した実施形態による各処理は、コンピュータであるプロセッサに実行させることができるプログラムとして記憶させておくこともできる。この他、磁気ディスク、光ディスク、半導体メモリ等の外部記憶装置の記憶媒体に格納して配布することができる。そして、プロセッサは、この外部記憶装置の記憶媒体に記憶されたプログラムを読み込み、この読み込んだプログラムによって動作が制御されることにより、上述した処理を実行することができる。 Each process according to the embodiments described above can also be stored as a program that can be executed by a processor that is a computer. In addition, it can be stored and distributed in a storage medium of an external storage device such as a magnetic disk, an optical disk, or a semiconductor memory. The processor reads the program stored in the storage medium of the external storage device, and its operations are controlled by the read program, thereby being able to execute the above-described processes.
なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。 Note that the present invention is not limited to the above-described embodiments, and can be variously modified at the implementation stage without departing from the gist thereof. Moreover, each embodiment may be implemented in combination as appropriate, and in that case, the combined effect can be obtained. Furthermore, the embodiments described above include various inventions, and various inventions can be extracted by combinations selected from the plurality of constituent features disclosed. For example, if a problem can be solved and an effect can be obtained even if some constituent features are deleted from all the constituent features shown in the embodiment, the configuration from which these constituent features are deleted can be extracted as an invention.
1…音声生成装置
2…プロセッサ
3…ROM
4…RAM
5…ストレージ
6…マイクロホン(マイク)
7a,7b…スピーカ
8…カメラ
9…入力装置
10…ディスプレイ
11…通信モジュール
21…取得部
22…判定部
23…選択部
24…生成部
25…提示部
26…学習部
51…なじみ度データベース(DB)
52…ユーザログデータベース(DB)
53…モデルデータベース(DB)
54…音声合成パラメータデータベース(DB)
55…呼びかけ文データベース(DB)
231…受信部
232…モデル選択部
233…音声ラベル候補抽出部
234…音声ラベル選択部
235…送信部1...
4...RAM
5...
7a, 7b...
52...User log database (DB)
53...Model database (DB)
54...Speech synthesis parameter database (DB)
55...Call text database (DB)
231... Receiving
Claims (4)
前記複数の音声は、前記ユーザに対して等距離かつ異なる方向に配置され、異なる方向からユーザに向かって音声を発する複数のスピーカのそれぞれから提示された音声である学習装置。 a learning unit that acquires training data for a learning model for selecting a voice to be presented to a user from among a plurality of voice candidates based on the user's reactions to a plurality of voices simultaneously presented to the user; Equipped with
In the learning device, the plurality of sounds are sounds presented from each of a plurality of speakers arranged at equal distances and different directions from the user and emitting sounds toward the user from different directions.
前記複数の音声は、前記ユーザに対して等距離かつ異なる方向に配置され、異なる方向からユーザに向かって音声を発する複数のスピーカのそれぞれから提示された音声である学習方法。 The learning unit generates training data for a learning model for selecting a voice to be presented to a user from among a plurality of voice candidates based on the user's reactions to a plurality of voices simultaneously presented to the user. Equipped with obtaining
In the learning method, the plurality of sounds are sounds presented from each of a plurality of speakers arranged at equal distances and different directions from the user and emitting sounds toward the user from different directions.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/024823 WO2021260848A1 (en) | 2020-06-24 | 2020-06-24 | Learning device, learning method, and learning program |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021260848A1 JPWO2021260848A1 (en) | 2021-12-30 |
JP7416245B2 true JP7416245B2 (en) | 2024-01-17 |
Family
ID=79282108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022531321A Active JP7416245B2 (en) | 2020-06-24 | 2020-06-24 | Learning devices, learning methods and learning programs |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7416245B2 (en) |
WO (1) | WO2021260848A1 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190082276A1 (en) | 2017-09-12 | 2019-03-14 | Whisper.ai Inc. | Low latency audio enhancement |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4517256B2 (en) * | 2000-04-25 | 2010-08-04 | ソニー株式会社 | Car equipment |
JP2007271296A (en) * | 2006-03-30 | 2007-10-18 | Yamaha Corp | Alarm device, and program |
JP2013101248A (en) * | 2011-11-09 | 2013-05-23 | Sony Corp | Voice control device, voice control method, and program |
JP2016191791A (en) * | 2015-03-31 | 2016-11-10 | ソニー株式会社 | Information processing device, information processing method, and program |
JP2020024293A (en) * | 2018-08-07 | 2020-02-13 | トヨタ自動車株式会社 | Voice interaction system |
JP7063779B2 (en) * | 2018-08-31 | 2022-05-09 | 国立大学法人京都大学 | Speech dialogue system, speech dialogue method, program, learning model generator and learning model generation method |
-
2020
- 2020-06-24 WO PCT/JP2020/024823 patent/WO2021260848A1/en active Application Filing
- 2020-06-24 JP JP2022531321A patent/JP7416245B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190082276A1 (en) | 2017-09-12 | 2019-03-14 | Whisper.ai Inc. | Low latency audio enhancement |
Also Published As
Publication number | Publication date |
---|---|
WO2021260848A1 (en) | 2021-12-30 |
JPWO2021260848A1 (en) | 2021-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10944708B2 (en) | Conversation agent | |
US11288708B2 (en) | System and method for personalized preference optimization | |
CN109460752B (en) | Emotion analysis method and device, electronic equipment and storage medium | |
CN106464758B (en) | It initiates to communicate using subscriber signal | |
WO2017033697A1 (en) | Lifestyle management assistance device and lifestyle management assistance method | |
KR20180137490A (en) | Personal emotion-based computer-readable cognitive memory and cognitive insights for memory and decision making | |
JP2019084249A (en) | Dementia diagnosis apparatus, dementia diagnosis method, and dementia diagnosis program | |
JP7347414B2 (en) | Information processing system, information processing method, and recording medium | |
JP6906197B2 (en) | Information processing method, information processing device and information processing program | |
JP2013097311A (en) | Learning support device, learning support method and learning support program | |
WO2017168907A1 (en) | Information processing device, information processing method and program | |
US11751813B2 (en) | System, method and computer program product for detecting a mobile phone user's risky medical condition | |
CN110881987B (en) | Old person emotion monitoring system based on wearable equipment | |
JP2019030557A (en) | Presentation device, presentation method, emotion estimation server, emotion estimation method, and emotion estimation system | |
JP2018503187A (en) | Scheduling interactions with subjects | |
JP7416245B2 (en) | Learning devices, learning methods and learning programs | |
JP7416244B2 (en) | Voice generation device, voice generation method, and voice generation program | |
Hansen et al. | Fixating, attending, and observing: A behavior analytic eye-movement analysis | |
JP2019212263A (en) | Information processor and program | |
JP2019211824A (en) | Healthcare support server, healthcare support method and computer readable program | |
JP7300929B2 (en) | Cognitive function promotion support system, learning system, estimation system, and cognitive function promotion support method | |
JP7485038B2 (en) | Speech generation device, speech generation method, and speech generation program | |
CN108461125B (en) | Memory training device for the elderly | |
JP2020166593A (en) | User support device, user support method, and user support program | |
JP6540224B2 (en) | Processing program, processing method and processing apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221031 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20230104 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20230208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7416245 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |