JP6716397B2 - Audio processing device, audio processing method and program - Google Patents

Audio processing device, audio processing method and program Download PDF

Info

Publication number
JP6716397B2
JP6716397B2 JP2016170043A JP2016170043A JP6716397B2 JP 6716397 B2 JP6716397 B2 JP 6716397B2 JP 2016170043 A JP2016170043 A JP 2016170043A JP 2016170043 A JP2016170043 A JP 2016170043A JP 6716397 B2 JP6716397 B2 JP 6716397B2
Authority
JP
Japan
Prior art keywords
voice
output
text data
emphasized portion
emphasized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016170043A
Other languages
Japanese (ja)
Other versions
JP2018036527A (en
Inventor
山本 雅裕
雅裕 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2016170043A priority Critical patent/JP6716397B2/en
Publication of JP2018036527A publication Critical patent/JP2018036527A/en
Application granted granted Critical
Publication of JP6716397B2 publication Critical patent/JP6716397B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明の実施形態は、音声処理装置、音声処理方法およびプログラムに関する。 Embodiments of the present invention relate to a voice processing device, a voice processing method, and a program.

日常環境の中で適切なメッセージを伝えることは非常に重要である。特にカーナビゲーションの中での注意喚起および危険通知、さらには緊急災害放送において周囲の環境音に埋もれることなく通知すべきメッセージなどは、その後の行動を考えても確実に届ける必要がある。 Communicating the right message in the everyday environment is very important. In particular, it is necessary to reliably deliver warnings and danger notifications in car navigation, as well as messages that should be notified in an emergency disaster broadcast without being buried in the surrounding environmental sounds, even considering future actions.

カーナビゲーションの中で注意喚起および危険通知を行うために広く行われている方法として、光による刺激、および、ブザー音の追加等が挙げられる。 Widely used methods for alerting and warning in a car navigation system include light stimulation and addition of a buzzer sound.

特開2007−019980号公報JP, 2007-019980, A

しかしながら、従来技術では、通常の音声ガイドから刺激を増やすことで注意喚起を行っているため、注意喚起の瞬間にドライバーなどの利用者が驚くという現象を生じさせる。驚いた後の利用者の行動は遅れる傾向があり、本来刺激によりスムーズな危機回避行動を促すはずが、かえって行動を制限する結果になる場合がある。 However, in the prior art, attention is given by increasing the stimulus from a normal voice guide, and therefore a user such as a driver is surprised at the moment of attention. The behavior of the user after being surprised tends to be delayed, and although the stimulus is supposed to promote smooth crisis avoidance behavior, the behavior may be rather restricted.

実施形態の音声処理装置は、特定部と、変調部と、を備える。特定部は、出力させる音声の強調部分を特定する。変調部は、第1出力部に出力させる第1音声の強調部分と第2出力部に出力させる第2音声の強調部分との間で、ピッチおよび位相の少なくとも一方が異なるように、第1音声および第2音声の少なくとも一方の強調部分を変調する。 The voice processing device of the embodiment includes a specifying unit and a modulating unit. The identifying unit identifies the emphasized portion of the voice to be output. The modulation unit is configured such that at least one of pitch and phase is different between the emphasized portion of the first sound to be output to the first output unit and the emphasized portion of the second sound to be output to the second output unit. And modulating at least one emphasized portion of the second voice.

第1の実施形態にかかる音声処理装置のブロック図。FIG. 3 is a block diagram of the audio processing device according to the first embodiment. 実施形態のスピーカの配置の一例を示す図。The figure which shows an example of arrangement|positioning of the speaker of embodiment. 測定結果の一例を示す図。The figure which shows an example of a measurement result. 実施形態のスピーカの配置の他の例を示す図。The figure which shows the other example of arrangement|positioning of the speaker of embodiment. 実施形態のスピーカの配置の他の例を示す図。The figure which shows the other example of arrangement|positioning of the speaker of embodiment. ピッチ変調および位相変調について説明するための図。The figure for demonstrating a pitch modulation and a phase modulation. 位相の差(度)と背景音の音圧(dB)との関係を示す図。The figure which shows the relationship between the phase difference (degree) and the sound pressure (dB) of a background sound. 周波数差(Hz)と背景音の音圧(dB)との関係を示す図。The figure which shows the relationship between a frequency difference (Hz) and the sound pressure (dB) of a background sound. 第1の実施形態における音声出力処理のフローチャート。The flowchart of the audio|voice output process in 1st Embodiment. 第2の実施形態にかかる音声処理装置のブロック図。The block diagram of the audio|voice processing apparatus concerning 2nd Embodiment. 第2の実施形態における音声出力処理のフローチャート。The flowchart of the audio|voice output process in 2nd Embodiment. 第3の実施形態にかかる音声処理装置のブロック図。The block diagram of the audio|voice processing apparatus concerning 3rd Embodiment. 第3の実施形態における音声出力処理のフローチャート。The flowchart of the audio|voice output process in 3rd Embodiment. 実施形態にかかる音声処理装置のハードウェア構成図。1 is a hardware configuration diagram of a voice processing device according to an embodiment.

以下に添付図面を参照して、この発明にかかる音声処理装置の好適な実施形態を詳細に説明する。 Hereinafter, preferred embodiments of a voice processing device according to the present invention will be described in detail with reference to the accompanying drawings.

発明者の実験では、複数の音声出力装置(スピーカ、ヘッドフォンなど)のそれぞれから、ピッチおよび位相の少なくとも一方が異なる音声を聴く場合に、音声の物理的な大きさ(ラウドネス)によらず知覚による明瞭さが大きくなり、かつ、注意レベルが上昇することが確認されている。このとき、驚きの感覚はほとんど観測されない。 In an experiment conducted by the inventor, when a plurality of voice output devices (speakers, headphones, etc.) hear a voice having different pitches and/or phases, it is perceived regardless of the physical loudness of the voice (loudness). It has been confirmed that the clarity increases and the attention level increases. At this time, no surprising feeling is observed.

これまでの考え方では、複数の音声出力装置のそれぞれから、ピッチおよび位相のいずれかが異なる音声を聴く場合には、明瞭さが減少するため聞き取りが悪化するとされてきた。しかし、上記のように発明者の実験では、ピッチおよび位相の少なくとも一方が異なる音声を左右の耳で聴く場合に明瞭さが上昇し、注意レベルが上昇することが確認できた。 According to the idea so far, when listening to voices having different pitches or phases from each of the plurality of voice output devices, the clarity is reduced and the listening performance is deteriorated. However, as described above, in the experiment by the inventor, it was confirmed that the clarity increases and the attention level rises when listening to voices having different pitches and/or phases with the left and right ears.

これは、聴覚が両耳を使用して音声をより明確に知覚しようとする働きを示しており、これまでにはない新しい発見である。以下の実施形態は、この発見を基にしており、左右の耳に対してピッチおよび位相の少なくとも一方が異なる音声による知覚上昇を利用して注意喚起および危険通知を可能とする。 This is an unprecedented new discovery, showing how the auditory sense uses both ears to perceive speech more clearly. The following embodiments are based on this discovery, and enable alertness and danger notification using the perceptual increase by the voices having different pitches and/or phases for the left and right ears.

(第1の実施形態)
第1の実施形態にかかる音声処理装置は、強調部分に対応する音声のピッチおよび位相の少なくとも一方を変調し、変調した音声を出力する。これにより、音声信号の強度を変えることなく、利用者の注意力を増大させ、次動作をスムーズに実行させることが可能となる。
(First embodiment)
The voice processing device according to the first embodiment modulates at least one of the pitch and the phase of the voice corresponding to the emphasized portion, and outputs the modulated voice. As a result, the attention of the user can be increased and the next operation can be smoothly performed without changing the strength of the audio signal.

図1は、第1の実施形態にかかる音声処理装置100の構成の一例を示すブロック図である。図1に示すように、音声処理装置100は、記憶部121と、受付部101と、特定部102と、変調部103と、出力制御部104と、スピーカ105−1〜105−n(nは2以上の整数)と、を備えている。 FIG. 1 is a block diagram showing an example of the configuration of a voice processing device 100 according to the first embodiment. As illustrated in FIG. 1, the voice processing device 100 includes a storage unit 121, a reception unit 101, a specification unit 102, a modulation unit 103, an output control unit 104, and speakers 105-1 to 105-n (n is 2 or more).

記憶部121は、音声処理装置100で使用される各種データを記憶する。例えば記憶部121は、入力されたテキストデータ、および、テキストデータから特定された強調部分を示すデータなどを記憶する。記憶部121は、HDD(Hard Disk Drive)、SSD(Solid State Drive))、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。 The storage unit 121 stores various data used in the voice processing device 100. For example, the storage unit 121 stores the input text data, data indicating the emphasized portion specified from the text data, and the like. The storage unit 121 can be configured by any commonly used storage medium such as an HDD (Hard Disk Drive), an SSD (Solid State Drive), an optical disk, a memory card, and a RAM (Random Access Memory).

スピーカ105−1〜105−nは、出力制御部104からの指示に従い音声を出力する出力部である。スピーカ105−1〜105−nは、同様の構成を備えるため、区別する必要がない場合は単にスピーカ105という場合がある。以下では、スピーカ105−1(第1出力部)およびスピーカ105−2(第2出力部)の2つのスピーカの組に出力する音声の間でピッチおよび位相の少なくとも一方を変調する場合を例に説明する。2以上の組に対して同様の処理を適用してもよい。 The speakers 105-1 to 105-n are output units that output audio according to instructions from the output control unit 104. Since the speakers 105-1 to 105-n have the same configuration, they may be simply referred to as the speakers 105 when there is no need to distinguish them. In the following, an example will be described in which at least one of the pitch and the phase is modulated between the sounds output to the two speaker sets of the speaker 105-1 (first output unit) and the speaker 105-2 (second output unit). explain. Similar processing may be applied to two or more sets.

受付部101は、処理対象とする各種データを受け付ける。例えば受付部101は、音声に変換して出力させるテキストデータの入力を受け付ける。 The receiving unit 101 receives various data to be processed. For example, the reception unit 101 receives input of text data to be converted into voice and output.

特定部102は、出力させる音声のうち、強調して出力する部分を表す強調部分を特定する。強調部分は、注意喚起および危険通知等を行うためにピッチおよび位相の少なくとも一方を変調して出力する部分に相当する。例えば特定部102は、入力されたテキストデータから強調部分を特定する。入力するテキストデータに事前に強調部分を特定するための情報が付加されている場合は、特定部102は、付加された情報(付加情報)を参照して強調部分を特定することができる。特定部102は、テキストデータと、予め定められた強調部分を示すデータとを照合することにより、強調部分を特定してもよい。特定部102は、付加情報による特定およびデータ照合による特定の両方を実行してもよい。強調部分を示すデータは、記憶部121に記憶されてもよいし、音声処理装置100の外部の記憶装置に記憶されてもよい。 The specifying unit 102 specifies an emphasized part that represents a part to be emphasized and output from the voice to be output. The emphasized portion corresponds to a portion that modulates and outputs at least one of the pitch and the phase in order to call attention and notify the danger. For example, the identifying unit 102 identifies the emphasized portion from the input text data. When the information for specifying the emphasized part is added in advance to the input text data, the specifying unit 102 can specify the emphasized part by referring to the added information (additional information). The identifying unit 102 may identify the emphasized portion by collating the text data with the data indicating the predetermined emphasized portion. The identifying unit 102 may perform both the identification based on the additional information and the identification based on the data collation. The data indicating the emphasized portion may be stored in the storage unit 121 or may be stored in a storage device external to the voice processing device 100.

特定部102は、特定した強調部分を強調することを示す情報(付加情報)をテキストデータに付加する符号化処理を実行してもよい。後段の変調部103は、このようにして付加された付加情報を参照して、変調する強調部分を判定することが可能となる。付加情報は、強調部分であることを判定可能であればどのような形式であってもよい。また、特定部102は、符号化処理を実行したテキストデータを記憶部121などの記憶媒体に保存してもよい。これにより、以降の音声出力処理では、事前に付加情報が付加されたテキストデータを利用することが可能となる。 The specifying unit 102 may execute an encoding process of adding information (additional information) indicating that the specified emphasized portion is emphasized to the text data. The post-modulation unit 103 can determine the emphasized portion to be modulated by referring to the additional information added in this way. The additional information may have any format as long as it can be determined that it is an emphasized portion. Further, the identifying unit 102 may store the text data subjected to the encoding process in a storage medium such as the storage unit 121. As a result, in the subsequent voice output processing, it becomes possible to use the text data to which the additional information has been added in advance.

変調部103は、出力させる音声のピッチおよび位相の少なくとも一方である変調対象を変調する。例えば変調部103は、スピーカ105−1に出力させる音声(第1音声)の強調部分と、スピーカ105−2に出力させる音声(第2音声)の強調部分との間で変調対象が異なるように、少なくとも一方の音声の強調部分の変調対象を変調する。 The modulation unit 103 modulates a modulation target that is at least one of a pitch and a phase of audio to be output. For example, the modulation unit 103 may make the modulation target different between the emphasized part of the sound (first sound) output to the speaker 105-1 and the emphasized part of the sound (second sound) output to the speaker 105-2. , The modulation target of the emphasized portion of at least one voice is modulated.

本実施形態では、変調部103は、テキストデータを変換した音声を生成するときに、テキストデータが強調部分であるかを逐次判定し、強調部分に対して変調処理を実行する。すなわち変調部103は、テキストデータを変換して、スピーカ105−1に出力させる音声(第1音声)およびスピーカ105−2に出力させる音声(第2音声)を生成するときに、強調部分のテキストデータに対しては、変調対象が相互に異なるように、少なくとも一方の変調対象を変調した第1音声および第2音声を生成する。 In the present embodiment, the modulation unit 103 sequentially determines whether the text data is the emphasized portion when generating the voice in which the text data is converted, and performs the modulation process on the emphasized portion. That is, the modulation unit 103 converts the text data to generate a voice (first voice) to be output to the speaker 105-1 and a voice (second voice) to be output to the speaker 105-2 when the text of the emphasized portion is generated. For data, the first voice and the second voice are generated by modulating at least one of the modulation targets so that the modulation targets are different from each other.

テキストデータを音声に変換する処理(音声合成処理)は、フォルマント音声合成および音声コーパスベースの音声合成などの従来から用いられているあらゆる方法を用いることができる。 For the processing of converting text data into speech (speech synthesis processing), any conventionally used method such as formant speech synthesis and speech corpus-based speech synthesis can be used.

位相を変調する場合、変調部103は、スピーカ105−1およびスピーカ105−2のうち一方に入力する信号の極性を反転してもよい。これにより、スピーカ105の一方が他方に対して逆相になり、音声データの位相を変調する場合と同様の機能を実現できる。 When modulating the phase, the modulator 103 may invert the polarity of the signal input to one of the speaker 105-1 and the speaker 105-2. As a result, one of the speakers 105 has an opposite phase to the other, and the same function as in the case of modulating the phase of audio data can be realized.

変調部103は、処理対象のデータの完全性を確認し、完全性が確認された場合に変調処理を行ってもよい。例えばテキストデータに付加された付加情報が、強調部分の開始を示す情報と、強調部分の終了を示す情報とを指定する形式の場合、変調部103は、開始を示す情報と終了を示す情報とが対応することが確認できた場合に変調処理を行ってもよい。 The modulation unit 103 may confirm the integrity of the data to be processed, and may perform the modulation processing when the integrity is confirmed. For example, in the case where the additional information added to the text data has a format in which information indicating the start of the emphasized portion and information indicating the end of the emphasized portion are specified, the modulation unit 103 outputs information indicating the start and information indicating the end. The modulation processing may be performed when it is confirmed that

出力制御部104は、スピーカ105からの音声の出力を制御する。例えば出力制御部104は、変調対象が変調された第1音声をスピーカ105−1に出力させ、第2音声をスピーカ105−2から出力させる。スピーカ105−1およびスピーカ105−2以外のスピーカ105が備えられている場合は、出力制御部104は、各スピーカ105に最適な音声を割り当てて出力させる。各スピーカ105は、出力制御部104からの出力データに基づいて音声を出力する。 The output control unit 104 controls the output of sound from the speaker 105. For example, the output control unit 104 causes the speaker 105-1 to output the first sound in which the modulation target is modulated, and causes the speaker 105-2 to output the second sound. When the speakers 105 other than the speaker 105-1 and the speaker 105-2 are provided, the output control unit 104 allocates the optimum sound to each speaker 105 and outputs the sound. Each speaker 105 outputs a sound based on the output data from the output control unit 104.

出力制御部104は、スピーカ105の位置および特性等のパラメータを用いて、各スピーカ105への出力(アンプ出力)を計算する。これらのパラメータは、例えば記憶部121に記憶される。 The output control unit 104 calculates the output (amplifier output) to each speaker 105 using parameters such as the position and characteristics of the speaker 105. These parameters are stored in the storage unit 121, for example.

例えば、2つのスピーカ105において必要な音圧を揃える場合には、以下のように、各スピーカへのアンプ出力W1、W2を計算する。2つのスピーカの距離をL1、L2とする。L1(L2)は、例えば、スピーカ105−1(スピーカ105−2)と頭部の中心との間の距離である。各スピーカ105から、最も近い耳までの距離を用いてもよい。使用する音声の可聴領域のスピーカ105−1(スピーカ105−2)のゲインをGs1(Gs2)とする。距離が2倍になると6dBの低下となり、3dBの音圧上昇にアンプ出力が2倍必要であるとする。両耳での音圧を揃えるために、出力制御部104は、以下の式が成り立つように、アンプ出力W1、W2を計算して決定する。
−6×(L1/L2)×(1/2)+(2/3)×Gs1×W1=
−6×(L2/L1)×(1/2)+(2/3)×Gs2×W2
For example, when equalizing the required sound pressures in the two speakers 105, the amplifier outputs W1 and W2 to the speakers are calculated as follows. The distance between the two speakers is L1 and L2. L1 (L2) is, for example, the distance between the speaker 105-1 (speaker 105-2) and the center of the head. The distance from each speaker 105 to the nearest ear may be used. The gain of the speaker 105-1 (speaker 105-2) in the audible area of the voice used is Gs1 (Gs2). When the distance is doubled, it is reduced by 6 dB, and the amplifier output is required to be doubled to raise the sound pressure by 3 dB. In order to equalize the sound pressures in both ears, the output control unit 104 calculates and determines the amplifier outputs W1 and W2 so that the following equations hold.
−6×(L1/L2)×(1/2)+(2/3)×Gs1×W1=
−6×(L2/L1)×(1/2)+(2/3)×Gs2×W2

受付部101、特定部102、変調部103、および、出力制御部104は、例えば、CPU(Central Processing Unit)などの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。 The accepting unit 101, the specifying unit 102, the modulating unit 103, and the output control unit 104 may be implemented by causing a processing device such as a CPU (Central Processing Unit) to execute a program, that is, by software. It may be realized by hardware such as an IC (Integrated Circuit), or may be realized by using software and hardware together.

図2は、本実施形態のスピーカ105の配置の一例を示す図である。図2は、利用者205の鉛直上方から下方を観察した場合のスピーカ105の配置の例を示す。スピーカ105−1とスピーカ105−2からは、変調部103により変調処理が実行された音声が流れる。スピーカ105−1は、利用者205の右耳の延長上に置かれている。スピーカ105−2は、スピーカ105−1と右耳とを通過する線を基準として角度もって置くことができる。 FIG. 2 is a diagram showing an example of the arrangement of the speakers 105 of this embodiment. FIG. 2 shows an example of the arrangement of the speakers 105 when the user 205 is observed from above vertically to below. From the speaker 105-1 and the speaker 105-2, the sound subjected to the modulation processing by the modulator 103 flows. The speaker 105-1 is placed on the extension of the right ear of the user 205. The speaker 105-2 can be placed at an angle with respect to the line passing through the speaker 105-1 and the right ear.

発明者は、曲線203または曲線204に沿ってスピーカ105−2の位置を変化させ、ピッチおよび位相を変調した音声を出力した場合の注意力を測定し、いずれの場合でも注意力の増大を確認した。注意力は、EEG(Electroencephalogram)、NIRS(Near-Infrared Spectroscopy)、および、主観評価などの評価基準を用いて測定した。 The inventor changes the position of the speaker 105-2 along the curve 203 or the curve 204, measures the attention when a voice in which the pitch and the phase are modulated is output, and confirms the increase of the attention in any case. did. Attention was measured using evaluation criteria such as EEG (Electroencephalogram), NIRS (Near-Infrared Spectroscopy), and subjective evaluation.

図3は、測定結果の一例を示す図である。図3のグラフの横軸は、スピーカ105の配置角度を表す。配置角度は、例えば、スピーカ105−1と利用者205とを結ぶ線と、スピーカ105−2と利用者205とを結ぶ線とのなす角度である。図3に示すように、配置角度が90°から180°のときに注意力の増加が大きくなる。従って、スピーカ105−1とスピーカ105−2は、配置角度が90°から180°となるように配置することが望ましい。なお注意力は検出されるため、配置角度が0°より大きければ90°より小さくてもよい。 FIG. 3 is a diagram showing an example of the measurement result. The horizontal axis of the graph of FIG. 3 represents the arrangement angle of the speaker 105. The arrangement angle is, for example, an angle formed by a line connecting the speaker 105-1 and the user 205 and a line connecting the speaker 105-2 and the user 205. As shown in FIG. 3, when the arrangement angle is 90° to 180°, attention is increased significantly. Therefore, it is desirable that the speakers 105-1 and 105-2 be arranged such that the arrangement angle is 90° to 180°. Since attention is detected, the arrangement angle may be smaller than 90° if the arrangement angle is larger than 0°.

音声の全区間のピッチまたは位相を変調してもよいが、この場合、慣れなどのために注意力が減少する可能性がある。そこで変調部103は、付加情報などにより特定された強調部分のみに対して変調を行う。これにより、強調部分に対する注意力をより効果的に高めることが可能となる。 The pitch or phase of the entire section of the voice may be modulated, but in this case, attention may be reduced due to habituation. Therefore, the modulator 103 modulates only the emphasized portion specified by the additional information or the like. This makes it possible to more effectively increase the attention paid to the emphasized portion.

図4は、本実施形態のスピーカ105の配置の他の例を示す図である。図4は、例えば屋外で場外放送を出力するために設置されるスピーカ105の配置の例を示す。図3に示すように、90°から180°の配置角度となるスピーカ105の組を用いることが望ましい。従って、図4の例では、180°の配置角度で配置されるスピーカ105−1、スピーカ105−2の組に対して、音声の変調処理が実行される。 FIG. 4 is a diagram showing another example of the arrangement of the speakers 105 of this embodiment. FIG. 4 shows an example of the arrangement of the speakers 105 installed to output outside broadcast, for example, outdoors. As shown in FIG. 3, it is desirable to use a set of speakers 105 having an arrangement angle of 90° to 180°. Therefore, in the example of FIG. 4, the sound modulation process is executed for the set of the speaker 105-1 and the speaker 105-2 arranged at the arrangement angle of 180°.

図5は、本実施形態のスピーカ105の配置の他の例を示す図である。図5は、ヘッドフォンとしてスピーカ105−1およびスピーカ105−2を構成した例である。 FIG. 5: is a figure which shows the other example of arrangement|positioning of the speaker 105 of this embodiment. FIG. 5 is an example in which a speaker 105-1 and a speaker 105-2 are configured as headphones.

スピーカ105の配置例は図2、図4および図5に限られるものではない。図3に示したように注意力が得られる配置角度で配置されれば、どのような組み合わせのスピーカであってもよい。例えば、カーナビゲーションのために用いられる複数のスピーカに対して本実施形態を適用してもよい。 The arrangement example of the speaker 105 is not limited to those shown in FIGS. 2, 4, and 5. Any combination of speakers may be used as long as they are arranged at an arrangement angle at which attention can be obtained as shown in FIG. For example, the present embodiment may be applied to a plurality of speakers used for car navigation.

次に、ピッチ変調および位相変調について説明する。図6は、ピッチ変調および位相変調について説明するための図である。位相変調は、音声の包絡線604をもとに、元の信号601に対して同一の包絡線に対して単位時間内の波数を変えることなく、ピークの時間位置を変更した信号603を出力する。ピッチ変調は、波数を変更した信号602を出力する。 Next, pitch modulation and phase modulation will be described. FIG. 6 is a diagram for explaining pitch modulation and phase modulation. The phase modulation outputs a signal 603 whose peak time position is changed based on the voice envelope 604 without changing the wave number within the unit time for the same envelope with respect to the original signal 601. .. The pitch modulation outputs a signal 602 whose wave number is changed.

次に、ピッチまたは位相の変調と、音声の聞き取りやすさとの関係について説明する。図7は、位相の差(度)と背景音の音圧(dB)との関係を示す図である。位相の差は、2つのスピーカ105から出力させる音声間の位相の差(例えばスピーカ105−1から出力させる音声の位相と、スピーカ105−2から出力させる音声の位相との差)を表す。背景音の音圧は、出力された音声を利用者が聞き取ることができる背景音の音圧の最大値(限界音圧)を表す。 Next, the relationship between pitch or phase modulation and audibility of voice will be described. FIG. 7 is a diagram showing the relationship between the phase difference (degree) and the sound pressure (dB) of the background sound. The phase difference represents the phase difference between the sounds output from the two speakers 105 (for example, the difference between the phase of the sound output from the speaker 105-1 and the phase of the sound output from the speaker 105-2). The sound pressure of the background sound represents the maximum value (limit sound pressure) of the sound pressure of the background sound with which the user can hear the output voice.

背景音は、スピーカ105から出力する音声以外の音である。例えば周囲の雑音、および、音声以外に出力されている音楽等の音が、背景音に相当する。図7の矩形で示す点が、得られた値の平均値を表す。この点の上下の線で示した範囲が得られた値の標準偏差を表す。 The background sound is a sound other than the voice output from the speaker 105. For example, ambient noise and sounds such as music output other than voice correspond to background sounds. The points indicated by the rectangles in FIG. 7 represent the average values of the obtained values. The range indicated by the line above and below this point represents the standard deviation of the values obtained.

図7に示すように、0.5dB以上の背景音が存在する場合であっても、位相の差が60°以上180°以下であれば、利用者はスピーカ105から出力される音声を聞き取ることができる。従って、変調部103は、位相の差が60°以上180°以下となるように変調処理を実行してもよい。変調部103は、より限界音圧の高い90°以上180°以下、または、120°以上180°以下の位相差となるように変調処理を実行してもよい。 As shown in FIG. 7, even when there is a background sound of 0.5 dB or more, if the phase difference is 60° or more and 180° or less, the user can hear the sound output from the speaker 105. You can Therefore, the modulation unit 103 may execute the modulation processing such that the phase difference is 60° or more and 180° or less. The modulator 103 may perform the modulation process so that the phase difference is 90° or more and 180° or less, or 120° or more and 180° or less, which has a higher limit sound pressure.

図8は、周波数差(Hz)と背景音の音圧(dB)との関係を示す図である。周波数差は、2つのスピーカ105から出力させる音声の周波数の差(例えばスピーカ105−1から出力させる音声の周波数と、スピーカ105−2から出力させる音声の周波数との差)を表す。図8の矩形で示す点が、得られた値の平均値を表す。この点の横に付した数値“A、B”のうち、Aが周波数差を表し、Bが背景音の音圧を表す。 FIG. 8 is a diagram showing the relationship between the frequency difference (Hz) and the sound pressure (dB) of the background sound. The frequency difference represents the difference between the frequencies of the sounds output from the two speakers 105 (for example, the difference between the frequency of the sounds output from the speaker 105-1 and the frequency of the sounds output from the speaker 105-2). The points shown by the rectangles in FIG. 8 represent the average values of the obtained values. Among the numerical values "A, B" attached to the side of this point, A represents the frequency difference and B represents the sound pressure of the background sound.

図8に示すように、背景音が存在する場合であっても、周波数差が100Hz(ヘルツ)以上であれば、利用者はスピーカ105から出力される音声を聞き取ることができる。従って、変調部103は、可聴域の範囲内で、周波数差が100Hz以上となるように変調処理を実行してもよい。 As shown in FIG. 8, even if there is background sound, if the frequency difference is 100 Hz (hertz) or more, the user can hear the sound output from the speaker 105. Therefore, the modulation unit 103 may perform the modulation processing so that the frequency difference is 100 Hz or more within the audible range.

次に、このように構成された第1の実施形態にかかる音声処理装置100による音声出力処理について図9を用いて説明する。図9は、第1の実施形態における音声出力処理の一例を示すフローチャートである。 Next, a voice output process performed by the voice processing device 100 according to the first embodiment configured as described above will be described with reference to FIG. FIG. 9 is a flowchart showing an example of the audio output process in the first embodiment.

受付部101は、テキストデータの入力を受け付ける(ステップS101)。特定部102は、テキストデータに付加情報が付加されているか否かを判断する(ステップS102)。付加されていない場合(ステップS102:No)、特定部102は、テキストデータから強調部分を特定する(ステップS103)。例えば特定部102は、入力されたテキストデータと、予め定められた強調部分を示すデータとを照合することにより、強調部分を特定する。特定部102は、強調部分を示す付加情報を、対応するテキストデータの強調部分に付加する(ステップS104)。付加情報の付加方法は、変調部103が、強調部分を特定できればどのような方法であってもよい。 The reception unit 101 receives input of text data (step S101). The identifying unit 102 determines whether or not additional information is added to the text data (step S102). If not added (step S102: No), the identifying unit 102 identifies the emphasized portion from the text data (step S103). For example, the identifying unit 102 identifies the emphasized portion by collating the input text data with the data indicating the predetermined emphasized portion. The identifying unit 102 adds the additional information indicating the emphasized portion to the emphasized portion of the corresponding text data (step S104). The method of adding the additional information may be any method as long as the modulator 103 can specify the emphasized portion.

付加情報が付加された後(ステップS104)、および、テキストデータに付加情報が付加されている場合(ステップS102:Yes)、変調部103は、テキストデータに対応する音声であって、強調部分のテキストデータに対しては変調対象が相互に異なるように変調対象を変調した音声(第1音声、第2音声)を生成する(ステップS105)。 After the additional information is added (step S104), and when the additional information is added to the text data (step S102: Yes), the modulation unit 103 outputs the voice corresponding to the text data, which is the emphasized part. For the text data, voices (first voice, second voice) are generated by modulating the modulation targets so that the modulation targets are different from each other (step S105).

出力制御部104は、スピーカ105ごとに出力する音声を決定し、決定した音声を出力させる(ステップS106)。各スピーカ105は、出力制御部104の指示に従い音声を出力する。 The output control unit 104 determines the sound to be output for each speaker 105 and outputs the determined sound (step S106). Each speaker 105 outputs sound according to an instruction from the output control unit 104.

このように、第1の実施形態にかかる音声処理装置では、テキストデータに対応する音声を生成しながら、強調部分に対応するテキストデータに対しては、音声のピッチおよび位相の少なくとも一方を変調し、変調した音声を出力する。これにより、音声信号の強度を変えることなく、利用者の注意力を増大させることが可能となる。 As described above, in the voice processing device according to the first embodiment, at least one of the pitch and the phase of the voice is modulated for the text data corresponding to the emphasized portion while generating the voice corresponding to the text data. , Output the modulated voice. This makes it possible to increase the user's attention without changing the strength of the audio signal.

(第2の実施形態)
第1の実施形態では、テキストデータを逐次音声に変換するときに、強調部分のテキストデータに対して変調処理を行った。第2の実施形態にかかる音声処理装置は、テキストデータに対する音声を生成した後、生成した音声のうち強調部分に相当する音声に対して変調処理を行う。
(Second embodiment)
In the first embodiment, when the text data is sequentially converted into speech, the text data of the emphasized portion is subjected to the modulation process. The voice processing device according to the second embodiment generates a voice for text data, and then performs a modulation process on the voice corresponding to the emphasized portion of the generated voice.

図10は、第2の実施形態にかかる音声処理装置100−2の構成の一例を示すブロック図である。図10に示すように、音声処理装置100−2は、記憶部121と、受付部101と、特定部102と、変調部103−2と、出力制御部104と、スピーカ105−1〜105−nと、生成部106−2と、を備えている。 FIG. 10 is a block diagram showing an example of the configuration of the voice processing device 100-2 according to the second embodiment. As illustrated in FIG. 10, the voice processing device 100-2 includes a storage unit 121, a reception unit 101, a specification unit 102, a modulation unit 103-2, an output control unit 104, and speakers 105-1 to 105-. n and the generation unit 106-2.

第2の実施形態では、変調部103−2の機能、および、生成部106−2を追加したことが第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる音声処理装置100のブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。 The second embodiment differs from the first embodiment in that the function of the modulator 103-2 and the addition of the generator 106-2 are added. Other configurations and functions are the same as those in FIG. 1, which is a block diagram of the audio processing device 100 according to the first embodiment, and therefore, the same reference numerals are given and the description thereof is omitted here.

生成部106−2は、テキストデータに対応する音声を生成する。例えば生成部106−2は、入力されたテキストデータを、スピーカ105−1に出力する音声(第1音声)およびスピーカ105−2に出力する音声(第2音声)に変換する。 The generation unit 106-2 generates a voice corresponding to the text data. For example, the generation unit 106-2 converts the input text data into a voice (first voice) output to the speaker 105-1 and a voice (second voice) output to the speaker 105-2.

変調部103−2は、生成部106−2により生成された音声のうち、強調部分の音声に対して変調処理を行う。例えば変調部103−2は、生成された第1音声の強調部分と生成された第2音声の強調部分との間で変調対象が異なるように、第1音声および第2音声の少なくとも一方の強調部分の調対象を変調する。 The modulation unit 103-2 performs a modulation process on the emphasized part of the sound generated by the generation unit 106-2. For example, the modulation unit 103-2 emphasizes at least one of the first voice and the second voice so that the target to be modulated differs between the emphasized portion of the generated first sound and the emphasized portion of the generated second sound. Modulates the tonal object of a part.

次に、このように構成された第2の実施形態にかかる音声処理装置100−2による音声出力処理について図11を用いて説明する。図11は、第2の実施形態における音声出力処理の一例を示すフローチャートである。 Next, a voice output process performed by the voice processing device 100-2 according to the second embodiment having the above configuration will be described with reference to FIG. FIG. 11 is a flowchart showing an example of the voice output process in the second embodiment.

ステップS201からステップS204までは、第1の実施形態にかかる音声処理装置100におけるステップS101からステップS104までと同様の処理なので、その説明を省略する。 Since steps S201 to S204 are the same as steps S101 to S104 in the voice processing apparatus 100 according to the first embodiment, description thereof will be omitted.

本実施形態では、テキストデータが入力されると、生成部106−2による音声生成処理(音声合成処理)が実行される。すなわち、生成部106−2は、テキストデータに対応する音声を生成する(ステップS205)。 In the present embodiment, when text data is input, a voice generation process (voice synthesis process) by the generation unit 106-2 is executed. That is, the generation unit 106-2 generates a voice corresponding to the text data (step S205).

付加情報が付加された後(ステップS204)、および、テキストデータに付加情報が付加されている場合(ステップS202:Yes)、変調部103−2は、生成された音声から強調部分を抽出する(ステップS206)。例えば変調部103−2は、付加情報を参照してテキストデータのうち強調部分を特定するとともに、テキストデータと生成した音声との対応から、特定したテキストデータの強調部分に対応する音声の強調部分を抽出する。変調部103−2は、抽出した音声の強調部分に対して変調処理を実行する(ステップS207)。なお変調部103−2は、強調部分以外の音声に対しては変調処理を行わない。 After the additional information is added (step S204) and when the additional information is added to the text data (step S202: Yes), the modulator 103-2 extracts the emphasized part from the generated voice (step S202: Yes). Step S206). For example, the modulation unit 103-2 identifies the emphasized portion of the text data by referring to the additional information, and determines the emphasized portion of the voice corresponding to the emphasized portion of the identified text data from the correspondence between the text data and the generated voice. To extract. The modulation unit 103-2 executes a modulation process on the emphasized portion of the extracted voice (step S207). The modulation unit 103-2 does not perform modulation processing on the sound other than the emphasized portion.

ステップS208は、第1の実施形態にかかる音声処理装置100におけるステップS106と同様の処理なので、その説明を省略する。 Since step S208 is similar to step S106 in the voice processing apparatus 100 according to the first embodiment, its description is omitted.

このように、第2の実施形態にかかる音声処理装置では、テキストデータに対応する音声を生成した後に、音声の強調部分のピッチおよび位相の少なくとも一方を変調し、変調した音声を出力する。これにより、音声信号の強度を変えることなく、利用者の注意力を増大させることが可能となる。 As described above, in the voice processing device according to the second embodiment, after generating the voice corresponding to the text data, at least one of the pitch and the phase of the emphasized portion of the voice is modulated, and the modulated voice is output. This makes it possible to increase the user's attention without changing the strength of the audio signal.

(第3の実施形態)
第1および第2の実施形態では、テキストデータを入力し、テキストデータを音声に変換して出力した。このような実施形態は、例えば、予め定められた緊急災害放送用のテキストデータを出力する場合などに適用できる。一方、利用者が発声した音声を緊急災害放送用に出力する状況も考えられる。第3の実施形態にかかる音声処理装置は、マイクなどの音声入力装置から音声を入力し、入力された音声の強調部分に対して変調処理を行う。
(Third Embodiment)
In the first and second embodiments, text data is input, the text data is converted to voice and output. Such an embodiment is applicable, for example, when outputting text data for a predetermined emergency disaster broadcast. On the other hand, a situation in which the voice uttered by the user is output for emergency disaster broadcast may be considered. The voice processing device according to the third embodiment inputs a voice from a voice input device such as a microphone and performs a modulation process on an emphasized portion of the input voice.

図12は、第3の実施形態にかかる音声処理装置100−3の構成の一例を示すブロック図である。図12に示すように、音声処理装置100−3は、記憶部121と、受付部101−3と、特定部102−3と、変調部103−3と、出力制御部104と、スピーカ105−1〜105−nと、生成部106−2と、を備えている。 FIG. 12 is a block diagram showing an example of the configuration of the audio processing device 100-3 according to the third embodiment. As illustrated in FIG. 12, the voice processing device 100-3 includes a storage unit 121, a reception unit 101-3, a specification unit 102-3, a modulation unit 103-3, an output control unit 104, and a speaker 105-. 1 to 105-n and a generation unit 106-2.

第3の実施形態では、受付部101−3、特定部102−3、および、変調部103−3の機能が第2の実施形態と異なっている。その他の構成および機能は、第2の実施形態にかかる音声処理装置100−2のブロック図である図10と同様であるので、同一符号を付し、ここでの説明は省略する。 In the third embodiment, the functions of the reception unit 101-3, the identification unit 102-3, and the modulation unit 103-3 are different from those in the second embodiment. Other configurations and functions are the same as those in FIG. 10 which is a block diagram of the voice processing device 100-2 according to the second embodiment, and therefore, the same reference numerals are given and description thereof is omitted here.

受付部101−3は、テキストデータのみでなく、マイクなどの音声入力装置から入力される音声を受け付ける。また、受付部101−3は、入力される音声のうち強調する部分の指定を受け付ける。例えば受付部101−3は、利用者による所定のボタンの押下を、押下後に入力される音声が強調する部分であることを示す指定として受け付ける。受付部101−3は、強調部分の開始および終了の指定を、開始から終了までに入力された音声が強調する部分であることを示す指定として受け付けてもよい。指定方法はこれらに限られるものではなく、音声のうち強調する部分を決定可能であればどのような方法であってもよい。以下では、音声のうち強調する部分の指定をトリガーという場合がある。 The receiving unit 101-3 receives not only text data but also voice input from a voice input device such as a microphone. Further, the reception unit 101-3 receives the designation of the emphasized portion of the input voice. For example, the accepting unit 101-3 accepts the pressing of a predetermined button by the user as a designation indicating that the voice input after pressing is a portion to be emphasized. The receiving unit 101-3 may receive the designation of the start and end of the emphasized portion as the designation indicating that the voice input from the start to the end is the emphasized portion. The designation method is not limited to these, and any method may be used as long as it can determine the emphasized portion of the voice. In the following, the designation of the emphasized portion of the voice may be referred to as a trigger.

特定部102−3は、さらに、受け付けられた指定(トリガー)に基づいて、音声の強調部分を特定する機能を有する。 The specifying unit 102-3 further has a function of specifying the emphasized part of the sound based on the received designation (trigger).

変調部103−3は、生成部106−2により生成された音声、または、入力された音声のうち、強調部分の音声に対して変調処理を行う。 The modulation unit 103-3 performs a modulation process on the voice generated by the generation unit 106-2 or the voice of the emphasized portion of the input voice.

次に、このように構成された第3の実施形態にかかる音声処理装置100−3による音声出力処理について図13を用いて説明する。図13は、第3の実施形態における音声出力処理の一例を示すフローチャートである。 Next, a voice output process performed by the voice processing device 100-3 according to the third embodiment having the above configuration will be described with reference to FIG. FIG. 13 is a flowchart showing an example of audio output processing in the third embodiment.

受付部101−3は、音声入力優先であるか否かを判定する(ステップS301)。音声入力優先とは、テキストデータではなく、音声を入力して出力することを示す指定である。例えば、音声入力優先を指定するためのボタンが押下された場合に、受付部101−3は、音声入力優先であると判定する。 The reception unit 101-3 determines whether or not voice input has priority (step S301). The voice input priority is a designation indicating that voice is input and output instead of text data. For example, when the button for designating the voice input priority is pressed, the reception unit 101-3 determines that the voice input priority is given.

音声入力優先であるかの判定方法はこれに限られるものではない。例えば、音声入力優先であるかを示す事前に保存された情報を参照して判定してもよい。また、テキストデータは入力せず、音声入力のみとする場合は、音声入力優先の指定や判定(ステップS301)を実行しなくてもよい。この場合、後述するテキストデータに基づく付加処理(ステップS306)も実行しなくてもよい。 The method of determining whether the voice input has priority is not limited to this. For example, the determination may be made by referring to the information stored in advance indicating whether the voice input has priority. If text data is not input but only voice input is performed, it is not necessary to specify or determine voice input priority (step S301). In this case, the additional process (step S306) based on the text data, which will be described later, may not be executed.

音声入力優先の場合(ステップS301:Yes)、受付部101−3は、音声の入力を受け付ける(ステップS302)。特定部102−3は、音声の強調する部分の指定(トリガー)が入力されているか否かを判定する(ステップS303)。 When the voice input has priority (step S301: Yes), the reception unit 101-3 receives the voice input (step S302). The identifying unit 102-3 determines whether or not the designation (trigger) of the portion to emphasize the voice is input (step S303).

トリガーが入力されていない場合(ステップS303:No)、特定部102−3は、音声の強調部分を特定する(ステップS304)。例えば特定部102−3は、入力されている音声と、予め登録された音声データとを照合し、登録された音声データと一致または類似する音声を強調部分として特定する。特定部102−3は、入力された音声を音声認識して得られるテキストデータと、予め定められた強調部分を示すデータとを照合することにより、強調部分を特定してもよい。 When the trigger has not been input (step S303: No), the identifying unit 102-3 identifies the emphasized portion of the voice (step S304). For example, the identifying unit 102-3 compares the input voice with the voice data registered in advance, and identifies a voice that matches or is similar to the registered voice data as an emphasized portion. The identifying unit 102-3 may identify the emphasized portion by collating the text data obtained by voice-recognizing the input voice with the data indicating the predetermined emphasized portion.

ステップS303でトリガーが入力されていると判定した場合(ステップS303:Yes)、および、ステップS304で強調部分を特定した後、特定部102−3は、入力されている音声のデータに対して、強調部分を示す付加情報を付加する(ステップS305)。付加情報の付加方法は、音声が強調部分であることを判定できればどのような方法であってもよい。 When it is determined that the trigger is input in step S303 (step S303: Yes), and after the emphasized portion is specified in step S304, the specifying unit 102-3 sets the input voice data to Additional information indicating the emphasized portion is added (step S305). The method of adding the additional information may be any method as long as it can be determined that the voice is the emphasized portion.

ステップS301で音声入力優先でないと判定された場合(ステップS301:No)、テキストに基づく付加処理が実行される(ステップS306)。この処理は、例えば図11のステップS301からステップS305までと同様の処理で実現できる。 When it is determined in step S301 that the voice input is not prioritized (step S301: No), a text-based addition process is executed (step S306). This processing can be realized by the same processing as, for example, steps S301 to S305 in FIG.

変調部103−3は、生成された音声から強調部分を抽出する(ステップS307)。例えば変調部103−3は、付加情報を参照して音声の強調部分を抽出する。ステップS306を実行した場合は、変調部103−3は、図11のステップS206と同様の処理により強調部分を抽出する。 The modulator 103-3 extracts the emphasized part from the generated voice (step S307). For example, the modulation unit 103-3 refers to the additional information and extracts the emphasized portion of the voice. When step S306 is executed, the modulation section 103-3 extracts the emphasized part by the same processing as step S206 of FIG.

ステップS308からステップS309までは、第2の実施形態にかかる音声処理装置100−2におけるステップS207からステップS208までと同様の処理なので、その説明を省略する。 Since steps S308 to S309 are the same as steps S207 to S208 in the audio processing device 100-2 according to the second embodiment, description thereof will be omitted.

このように、第3の実施形態にかかる音声処理装置では、入力された音声の強調部分をトリガーなどにより特定し、音声の強調部分のピッチおよび位相の少なくとも一方を変調し、変調した音声を出力する。これにより、音声信号の強度を変えることなく、利用者の注意力を増大させることが可能となる。 As described above, in the voice processing device according to the third embodiment, the emphasized portion of the input voice is specified by a trigger or the like, at least one of the pitch and the phase of the emphasized portion of the voice is modulated, and the modulated voice is output. To do. This makes it possible to increase the user's attention without changing the strength of the audio signal.

以上説明したとおり、第1から第3の実施形態によれば、音声のピッチおよび位相の少なくとも一方を変調して出力することにより、音声信号の強度を変えることなく、利用者の注意力を増大させることが可能となる。 As described above, according to the first to third embodiments, by modulating and outputting at least one of the pitch and the phase of the voice, the attention of the user is increased without changing the intensity of the voice signal. It becomes possible.

次に、第1から第3の実施形態にかかる音声処理装置のハードウェア構成について図14を用いて説明する。図14は、第1から第3の実施形態にかかる音声処理装置のハードウェア構成例を示す説明図である。 Next, a hardware configuration of the voice processing device according to the first to third embodiments will be described with reference to FIG. FIG. 14 is an explanatory diagram showing a hardware configuration example of the voice processing device according to the first to third embodiments.

第1から第3の実施形態にかかる音声処理装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。 The audio processing devices according to the first to third embodiments include a control device such as a CPU (Central Processing Unit) 51, a storage device such as a ROM (Read Only Memory) 52 and a RAM (Random Access Memory) 53, and a network. A communication I/F 54 for connecting to each other for communication, and a bus 61 for connecting each unit.

第1から第3の実施形態における音声処理装置は、コンピュータまたは組み込みシステムであり、パソコンおよびマイコン等の1つからなる装置、または、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。また、本実施形態におけるコンピュータは、パソコンに限らず、情報処理機器に含まれる演算処理装置およびマイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器または装置を総称している。 The voice processing device according to the first to third embodiments is a computer or an embedded system, and has any configuration of a device such as a personal computer and a microcomputer, or a system in which a plurality of devices are network-connected. May be. Further, the computer in the present embodiment is not limited to a personal computer, and includes an arithmetic processing unit and a microcomputer included in information processing equipment, and is a generic term for equipment or devices capable of realizing the functions in the present embodiment by a program. There is.

第1から第3の実施形態にかかる音声処理装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。 The programs executed by the voice processing devices according to the first to third embodiments are provided by being pre-installed in the ROM 52 or the like.

第1から第3の実施形態にかかる音声処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)、USBフラッシュメモリー、SDカード、EEPROM(Electrically Erasable Programmable Read-Only Memory)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。 The program executed by the audio processing device according to the first to third embodiments is a file in an installable format or an executable format, which is a CD-ROM (Compact Disk Read Only Memory), a flexible disk (FD), a CD. -Recorded in a computer-readable recording medium such as R (Compact Disk Recordable), DVD (Digital Versatile Disk), USB flash memory, SD card, EEPROM (Electrically Erasable Programmable Read-Only Memory) and provided as a computer program product. It may be configured to be performed.

さらに、第1から第3の実施形態にかかる音声処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1から第3の実施形態にかかる音声処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。 Furthermore, the program executed by the voice processing device according to the first to third embodiments is stored in a computer connected to a network such as the Internet and is configured to be provided by being downloaded via the network. Good. Further, the programs executed by the voice processing devices according to the first to third embodiments may be provided or distributed via a network such as the Internet.

第1から第3の実施形態にかかる音声処理装置で実行されるプログラムは、コンピュータを上述した音声処理装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。 The program executed by the voice processing device according to the first to third embodiments can cause a computer to function as each unit of the above-described voice processing device. In this computer, the CPU 51 can read the program from the computer-readable storage medium onto the main storage device and execute the program.

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although some embodiments of the present invention have been described, these embodiments are presented as examples and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the spirit of the invention. These embodiments and modifications thereof are included in the scope and the gist of the invention, and are also included in the invention described in the claims and an equivalent range thereof.

100、100−2、100−3 音声処理装置
101 受付部
102、102−3 特定部
103、103−2、103−3 変調部
104 出力制御部
105 スピーカ
106−2 生成部
121 記憶部
100, 100-2, 100-3 Audio processing device 101 Reception part 102, 102-3 Specific part 103, 103-2, 103-3 Modulation part 104 Output control part 105 Speaker 106-2 Generation part 121 Storage part

Claims (8)

入力されたテキストデータから前記テキストデータに付加された付加情報に基づいて出力させる音声の強調部分を特定し、前記テキストデータに前記付加情報が付加されていない場合は、前記テキストデータと予め定められた強調部分を示すデータとを照合することにより前記強調部分を特定する特定部と、
第1出力部に出力させる第1音声の前記強調部分と第2出力部に出力させる第2音声の前記強調部分との間で、ピッチおよび位相の少なくとも一方が異なるように、前記第1音声および前記第2音声の少なくとも一方の前記強調部分を変調する変調部と、
を備える音声処理装置。
From the input text data, the emphasized part of the voice to be output is specified based on the additional information added to the text data, and when the additional information is not added to the text data, the text data is predetermined. And a specifying unit for specifying the emphasized portion by collating with the data indicating the emphasized portion ,
The first voice and the first voice to be output to the first output unit, the first voice and the emphasized portion of the second voice to be output to the second output unit, so that at least one of the pitch and the phase is different. A modulator for modulating the emphasized portion of at least one of the second sounds,
Voice processing apparatus comprising a.
記変調部は、前記テキストデータに対応する前記第1音声および前記第2音声であって、前記強調部分の前記ピッチおよび位相の少なくとも一方が異なるように、前記第1音声および前記第2音声の少なくとも一方の前記強調部分を変調した前記第1音声および前記第2音声を生成する、
請求項1に記載の音声処理装置。
Prior Symbol modulator section, the a first speech and said second speech corresponding to the text data, the as least one of the pitch and phase of the emphasis is different, the first speech and said second speech Generating at least one of the emphasized portion of the first voice and the second voice,
The audio processing device according to claim 1.
入力されたテキストデータに対応する前記第1音声および前記第2音声を生成する生成部をさらに備え、
記変調部は、生成された前記第1音声の前記強調部分と生成された前記第2音声の前記強調部分との間で、前記ピッチおよび位相の少なくとも一方が異なるように、前記第1音声および前記第2音声の少なくとも一方の前記強調部分を変調する、
請求項1に記載の音声処理装置。
Further comprising a generation unit that generates the first voice and the second voice corresponding to the input text data,
Prior Symbol modulator section, between the generated first said emphasis and generated the highlighted portions of the second audio in a voice, so that at least one of the pitch and the phase is different, the first speech And modulating the emphasized portion of at least one of the second sounds,
The audio processing device according to claim 1.
前記変調部は、前記第1音声の前記強調部分の位相と、前記第2音声の前記強調部分の位相との差が、60°以上180°以下となるように、前記第1音声および前記第2音声の少なくとも一方の前記強調部分の位相を変調する、
請求項1に記載の音声処理装置。
The modulation unit is configured such that the difference between the phase of the emphasized portion of the first sound and the phase of the emphasized portion of the second sound is 60° or more and 180° or less, so that the first sound and the first sound. Modulating the phase of the emphasized portion of at least one of the two sounds,
The audio processing device according to claim 1.
前記変調部は、前記第1音声の前記強調部分の周波数と、前記第2音声の前記強調部分の周波数との差が、100ヘルツ以上となるように、前記第1音声および前記第2音声の少なくとも一方の前記強調部分のピッチを変調する、 The modulation unit controls the first voice and the second voice so that the difference between the frequency of the emphasized portion of the first voice and the frequency of the emphasized portion of the second voice is 100 hertz or more. Modulating the pitch of at least one of the highlighted portions,
請求項1に記載の音声処理装置。 The audio processing device according to claim 1.
前記変調部は、前記第1出力部または前記第2出力部に入力する信号の極性を反転することにより、前記第1音声および前記第2音声の少なくとも一方の前記強調部分の位相を変調する、
請求項1に記載の音声処理装置。
The modulator modulates the phase of the emphasized portion of at least one of the first voice and the second voice by inverting the polarity of a signal input to the first output unit or the second output unit,
The audio processing device according to claim 1.
入力されたテキストデータから前記テキストデータに付加された付加情報に基づいて出力させる音声の強調部分を特定し、前記テキストデータに前記付加情報が付加されていない場合は、前記テキストデータと予め定められた強調部分を示すデータとを照合することにより前記強調部分を特定する特定ステップと、
第1出力部に出力させる第1音声の前記強調部分と第2出力部に出力させる第2音声の前記強調部分との間で、ピッチおよび位相の少なくとも一方が異なるように、前記第1音声および前記第2音声の少なくとも一方の前記強調部分を変調する変調ステップと、
を含む音声処理方法。
From the input text data, the emphasized part of the voice to be output is specified based on the additional information added to the text data, and when the additional information is not added to the text data, the text data is predetermined. A specific step of identifying the emphasized portion by collating with the data indicating the emphasized portion ,
The first voice and the first voice to be output to the first output unit, the first voice and the emphasized portion of the second voice to be output to the second output unit, so that at least one of the pitch and the phase is different. A modulation step of modulating the emphasized portion of at least one of the second sounds;
Voice processing method, including.
コンピュータを、
入力されたテキストデータから前記テキストデータに付加された付加情報に基づいて出力させる音声の強調部分を特定し、前記テキストデータに前記付加情報が付加されていない場合は、前記テキストデータと予め定められた強調部分を示すデータとを照合することにより前記強調部分を特定する特定部と、
第1出力部に出力させる第1音声の前記強調部分と第2出力部に出力させる第2音声の前記強調部分との間で、ピッチおよび位相の少なくとも一方が異なるように、前記第1音声および前記第2音声の少なくとも一方の前記強調部分を変調する変調部と、
として機能させるためのプログラム。
Computer,
From the input text data, the emphasized part of the voice to be output is specified based on the additional information added to the text data, and when the additional information is not added to the text data, the text data is predetermined. And a specifying unit for specifying the emphasized portion by collating with the data indicating the emphasized portion ,
The first voice and the first voice to be output to the first output unit, the first voice and the emphasized portion of the second voice to be output to the second output unit, so that at least one of the pitch and the phase is different. A modulator for modulating the emphasized portion of at least one of the second sounds,
Program to function as.
JP2016170043A 2016-08-31 2016-08-31 Audio processing device, audio processing method and program Active JP6716397B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016170043A JP6716397B2 (en) 2016-08-31 2016-08-31 Audio processing device, audio processing method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016170043A JP6716397B2 (en) 2016-08-31 2016-08-31 Audio processing device, audio processing method and program

Publications (2)

Publication Number Publication Date
JP2018036527A JP2018036527A (en) 2018-03-08
JP6716397B2 true JP6716397B2 (en) 2020-07-01

Family

ID=61567329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016170043A Active JP6716397B2 (en) 2016-08-31 2016-08-31 Audio processing device, audio processing method and program

Country Status (1)

Country Link
JP (1) JP6716397B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018159759A (en) 2017-03-22 2018-10-11 株式会社東芝 Voice processor, voice processing method and program
JP6646001B2 (en) 2017-03-22 2020-02-14 株式会社東芝 Audio processing device, audio processing method and program
CN109767752B (en) * 2019-02-27 2023-05-26 平安科技(深圳)有限公司 Voice synthesis method and device based on attention mechanism

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2740510B2 (en) * 1988-02-09 1998-04-15 株式会社リコー Text-to-speech synthesis method
US5633993A (en) * 1993-02-10 1997-05-27 The Walt Disney Company Method and apparatus for providing a virtual world sound system
JP2003131700A (en) * 2001-10-23 2003-05-09 Matsushita Electric Ind Co Ltd Audio information output apparatus and method
JP2012033988A (en) * 2010-07-28 2012-02-16 V-Seek Co Ltd Method for generating super deep bass sound
EP2608131A1 (en) * 2011-12-23 2013-06-26 Research In Motion Limited Event notification on a mobile device using binaural sounds
JP6510241B2 (en) * 2015-01-16 2019-05-08 矢崎総業株式会社 Alarm device

Also Published As

Publication number Publication date
JP2018036527A (en) 2018-03-08

Similar Documents

Publication Publication Date Title
CN109714663B (en) Earphone control method, earphone and storage medium
CN103730122B (en) Voice conversion device and method for converting user's voice
US8781836B2 (en) Hearing assistance system for providing consistent human speech
JP6716397B2 (en) Audio processing device, audio processing method and program
JP6268033B2 (en) Mobile device
US9855893B2 (en) Generating an audio signal with a configurable distance cue
KR20130083730A (en) Multimedia playing apparatus for outputting modulated sound according to hearing characteristic of a user and method for performing thereof
CN108630214B (en) Sound processing device, sound processing method, and storage medium
JP6646001B2 (en) Audio processing device, audio processing method and program
JP2018097029A (en) Voice recognition device and voice recognition method
CN107077838B (en) Earphone mixing active noise is eliminated and noise compensation
JP4977066B2 (en) Voice guidance device for vehicles
KR102301149B1 (en) Method, computer program and system for amplification of speech
JP6995907B2 (en) Speech processing equipment, audio processing methods and programs
JP7146152B2 (en) Information processing device, sound image forming system, control method, and control program
JP2014029406A (en) Information transmission device, information transmission program, information reception device, information reception program, and information communication method
Weedon et al. Perceived urgency in speech warnings
US20250069578A1 (en) Listening apparatus and control method of listening apparatus
KR20170038216A (en) Sound processing method, recording medium and device for performing the method
JP5395826B2 (en) Hearing aid adjustment device
JP2020106328A (en) Information processing equipment
WO2019009204A1 (en) Signal processing device, control method, program and storage medium
WO2022065441A1 (en) Pronunciation feedback device, pronunciation feedback method, and computer program
JP2009080298A (en) Hearing aid
US20180035925A1 (en) Method For Hearing Performance Assessment and Hearing System

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180905

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190716

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191008

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200512

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200610

R151 Written notification of patent or utility model registration

Ref document number: 6716397

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151