JP2007233284A - Voice processing device and voice processing method - Google Patents

Voice processing device and voice processing method Download PDF

Info

Publication number
JP2007233284A
JP2007233284A JP2006058095A JP2006058095A JP2007233284A JP 2007233284 A JP2007233284 A JP 2007233284A JP 2006058095 A JP2006058095 A JP 2006058095A JP 2006058095 A JP2006058095 A JP 2006058095A JP 2007233284 A JP2007233284 A JP 2007233284A
Authority
JP
Japan
Prior art keywords
spectrum
speech
envelope
voice
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006058095A
Other languages
Japanese (ja)
Other versions
JP4785563B2 (en
Inventor
Yoshihiro Irie
佳洋 入江
Yoshitane Tanaka
良種 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glory Ltd
Original Assignee
Glory Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glory Ltd filed Critical Glory Ltd
Priority to JP2006058095A priority Critical patent/JP4785563B2/en
Publication of JP2007233284A publication Critical patent/JP2007233284A/en
Application granted granted Critical
Publication of JP4785563B2 publication Critical patent/JP4785563B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To protect privacy of a speaker without displeasing a person by effectively preventing voice superimposed on the speaker's voice to be output from becoming high-pitched voice. <P>SOLUTION: By storing data concerning two or more different spectral envelopes in a spectral envelope database 15, extracting a spectral fine structure 14 from voice signals of the speaker, and selecting a data concerning the spectral envelope from among the data concerning the spectral envelope stored in the spectral envelope database 15, a spectrum 17 of the anti-hearing sound output by synthesizing the selected spectral envelope and the spectral fine structure and superimposing the speaker's voice on the synthetic sound is created. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、話者のプライバシーを保護する(会話の秘密保持含む)ために話者の音声に被せて出力される音声の音声スペクトルを生成する音声処理装置および音声処理方法に関し、特に、話者の音声に被せて出力される音声が甲高い音になってしまうのを効果的に防止し、人に不快感を与えることなく話者のプライバシーを保護することができる音声処理装置および音声処理方法に関する。   The present invention relates to a speech processing apparatus and speech processing method for generating a speech spectrum of speech output over a speaker's voice in order to protect the privacy of the speaker (including confidentiality of conversation). TECHNICAL FIELD The present invention relates to a speech processing apparatus and a speech processing method that can effectively prevent a sound output from being covered with a voice of a voice and protect a speaker's privacy without causing discomfort to a person. .

従来、銀行、病院、証券会社などのオープンスペースでは、プライバシーに関わる内容の会話が頻繁におこなわれている。このため、話者のプライバシーを保護することを目的として、話者の音声(会話による音声)に対してマスキング音を出力するマスキング装置が開発されている(たとえば、特許文献1を参照)。   Conventionally, in open spaces such as banks, hospitals, and securities companies, conversations related to privacy have been frequently performed. For this reason, for the purpose of protecting the privacy of a speaker, a masking device that outputs a masking sound with respect to a speaker's voice (voice by conversation) has been developed (see, for example, Patent Document 1).

具体的には、かかる「マスキング音」としてホワイトノイズやBGMなど、話者の発話音声を不明瞭にする妨害音を話者の発話音声に被せて出力し、話者の発話音声をかき消して発言内容を聞き取りにくくすることにより、話者のプライバシーを保護する。   Specifically, white noise, BGM, and other disturbing sounds that obscure the speaker's speech are output over the speaker's speech as the “masking sound”, and the speaker's speech is erased. Protect the speaker's privacy by making the content difficult to hear.

特開平6−175666号公報JP-A-6-175666

しかしながら、上述した従来技術では、話者のプライバシーを精度良く保護することができないという問題点があった。すなわち、上述した従来技術では、話者の音声との関連性が少ない音声をマスキング音として出力するため、話者の音声とマスキング音は別々の音声であると区別して傍聴者に認識されてしまうこととなり、話者のプライバシーを精度良く保護することができなかった。   However, the above-described prior art has a problem that the privacy of the speaker cannot be protected with high accuracy. That is, in the above-described prior art, since the voice having little relation to the voice of the speaker is output as the masking sound, the voice of the speaker and the masking sound are recognized as separate voices and recognized by the listener. As a result, the privacy of the speaker could not be protected with high accuracy.

このような問題を解決するため、話者の発話音声を用いて防聴音(後述にて説明)を生成し、マスキング音として出力することも考えられる。具体的には、話者の発話音声の音声スペクトルを検出し、音声スペクトルにおける山および谷の位置を反転・シフトして音声スペクトルを変形することにより防聴音を生成する。   In order to solve such a problem, it is also conceivable to generate a hearing-proof sound (described later) using the voice of the speaker and output it as a masking sound. Specifically, the hearing spectrum is generated by detecting the speech spectrum of the speech voice of the speaker and transforming the speech spectrum by inverting and shifting the positions of peaks and valleys in the speech spectrum.

ところが、単に音声スペクトルにおける山および谷を反転・シフトした場合には、防聴音が甲高い音になってしまい、防聴音を聞く人に不快感を与えてしまうという問題があった。そのため、防聴音が甲高い音になってしまうのをいかに効果的に防止し、防聴音を聞く人に不快感を与えないようにするかが重要な問題となる。   However, when the peaks and valleys in the voice spectrum are simply inverted / shifted, the hearing loss sound becomes high-pitched sound, and there is a problem in that the hearing person is uncomfortable. Therefore, it is an important problem how to effectively prevent the hearing loss from becoming high-pitched sound and not to give unpleasant feeling to the person who hears the hearing loss.

本発明は、上述した従来技術による問題点を解消するためになされたものであり、防聴音が甲高い音になってしまうのを効果的に防止し、人に不快感を与えることなく話者のプライバシーを保護することができる音声処理装置および音声処理方法を提供することを目的とする。   The present invention has been made to solve the above-described problems caused by the prior art, and effectively prevents the hearing loss from becoming a high-pitched sound. An object of the present invention is to provide an audio processing apparatus and an audio processing method capable of protecting privacy.

上述した課題を解決し、目的を達成するため、請求項1の発明に係る音声処理装置は、話者の音声に被せて出力される音声の音声スペクトルを生成する音声処理装置であって、異なる複数のスペクトル包絡に係るデータを記憶するスペクトル包絡データベースと、話者の音声信号からスペクトル微細構造を抽出するスペクトル微細構造抽出手段と、前記スペクトル包絡データベースに記憶されたスペクトル包絡に係るデータの中からスペクトル包絡に係るデータを選択するスペクトル包絡選択手段と、前記スペクトル包絡選択手段により選択されたスペクトル包絡とスペクトル微細構造とを合成することにより話者の音声に被せて出力される音声の音声スペクトルを生成する音声スペクトル生成手段とを備えたことを特徴とする。   In order to solve the above-described problems and achieve the object, a speech processing device according to claim 1 is a speech processing device that generates a speech spectrum of speech output over a speaker's speech, and is different. A spectral envelope database for storing data related to a plurality of spectral envelopes, a spectral fine structure extracting means for extracting a spectral fine structure from a speech signal of a speaker, and data related to a spectral envelope stored in the spectral envelope database Spectral envelope selection means for selecting data related to the spectral envelope, and the voice spectrum of the voice output over the voice of the speaker by synthesizing the spectral envelope selected by the spectral envelope selection means and the spectral fine structure. And a voice spectrum generating means for generating.

また、請求項2の発明に係る音声処理装置は、請求項1の発明において、前記スペクトル包絡選択手段は、話者の音声の時間変化量が所定値以上である場合に前記スペクトル包絡データベースからスペクトル包絡に係るデータを新たに選択し、前記音声スペクトル生成手段は、前記スペクトル包絡選択手段により新たに選択されたスペクトル包絡とスペクトル微細構造とを合成することにより話者の音声に被せて出力される音声の音声スペクトルを新たに生成することを特徴とする。   According to a second aspect of the present invention, there is provided the speech processing apparatus according to the first aspect of the present invention, wherein the spectrum envelope selection means is configured to generate a spectrum from the spectrum envelope database when a temporal change amount of a speaker's voice is a predetermined value or more. The data related to the envelope is newly selected, and the speech spectrum generation means outputs the voice over the speaker by synthesizing the spectrum envelope newly selected by the spectrum envelope selection means and the spectrum fine structure. A voice spectrum of voice is newly generated.

また、請求項3の発明に係る音声処理装置は、請求項1または2の発明において、前記スペクトル包絡選択手段は、前記スペクトル包絡データベースに記憶されたスペクトル包絡に係るデータの中からスペクトル包絡に係るデータをランダムに選択することを特徴とする。   According to a third aspect of the present invention, there is provided the speech processing apparatus according to the first or second aspect, wherein the spectrum envelope selecting means relates to a spectrum envelope from data related to a spectrum envelope stored in the spectrum envelope database. Data is selected at random.

また、請求項4の発明に係る音声処理装置は、請求項1または2の発明において、話者の音声信号からスペクトル包絡を抽出するスペクトル包絡抽出手段をさらに備え、前記スペクトル包絡選択手段は、前記スペクトル包絡抽出手段により抽出されたスペクトル包絡と、前記スペクトル包絡データベースにデータが記憶されたスペクトル包絡との間の類似度に基づいて、前記スペクトル包絡データベースに記憶されたスペクトル包絡に係るデータの中からスペクトル包絡に係るデータを選択することを特徴とする。   According to a fourth aspect of the present invention, there is provided a speech processing apparatus according to the first or second aspect of the present invention, further comprising spectrum envelope extraction means for extracting a spectrum envelope from a speech signal of a speaker, wherein the spectrum envelope selection means is Based on the degree of similarity between the spectrum envelope extracted by the spectrum envelope extraction means and the spectrum envelope stored in the spectrum envelope database, the data related to the spectrum envelope stored in the spectrum envelope database It is characterized by selecting data relating to the spectral envelope.

また、請求項5の発明に係る音声処理装置は、話者の音声に被せて出力される音声の音声スペクトルを生成する音声処理装置であって、話者の音声信号からスペクトル微細構造を抽出するスペクトル微細構造抽出手段と、前記スペクトル微細構造抽出手段により抽出されたスペクトル微細構造と所定のスペクトル包絡とを合成することにより話者の音声に被せて出力される音声の音声スペクトルを生成する音声スペクトル生成手段と、前記音声スペクトル生成手段により生成された音声スペクトルの所定の周波数領域におけるスペクトル強度を抑制することにより当該音声スペクトルを補正する周波数強度補正手段とを備えたことを特徴とする。   According to a fifth aspect of the present invention, there is provided a voice processing apparatus for generating a voice spectrum of a voice outputted over a speaker's voice, and extracting a spectral fine structure from the speaker's voice signal. A speech spectrum for generating a speech spectrum of speech output over a speaker's voice by synthesizing a spectral fine structure extraction means and the spectral fine structure extracted by the spectral fine structure extraction means and a predetermined spectral envelope It is characterized by comprising: generating means; and frequency intensity correcting means for correcting the sound spectrum by suppressing the spectrum intensity in a predetermined frequency region of the sound spectrum generated by the sound spectrum generating means.

また、請求項6の発明に係る音声処理装置は、請求項5の発明において、前記周波数強度補正手段は、話者の音声信号から得られる音声スペクトルと、前記音声スペクトル生成手段により生成された音声スペクトルとの差に基づいてスペクトル強度の補正量を設定することを特徴とする。   According to a sixth aspect of the present invention, in the fifth aspect of the present invention, the frequency intensity correcting means includes a voice spectrum obtained from a voice signal of a speaker and a voice generated by the voice spectrum generating means. The correction amount of the spectrum intensity is set based on the difference from the spectrum.

また、請求項7の発明に係る音声処理方法は、話者の音声に被せて出力される音声の音声スペクトルを生成する音声処理方法であって、話者の音声信号からスペクトル微細構造を抽出するスペクトル抽出工程と、前記スペクトル微細構造抽出工程によりスペクトル微細構造が抽出された場合に、あらかじめスペクトル包絡データベースに記憶された異なる複数のスペクトル包絡に係るデータの中からスペクトル包絡に係るデータを選択するスペクトル包絡選択工程と、前記スペクトル包絡選択工程により選択されたスペクトル包絡とスペクトル微細構造とを合成することにより話者の音声に被せて出力される音声の音声スペクトルを生成する音声スペクトル生成工程とを含んだことを特徴とする。   According to a seventh aspect of the present invention, there is provided a voice processing method for generating a voice spectrum of a voice outputted over a speaker's voice, and extracting a spectral fine structure from the speaker's voice signal. A spectrum for selecting data related to a spectrum envelope from a plurality of different spectrum envelope data stored in advance in a spectrum envelope database when a spectrum fine structure is extracted by the spectrum extraction step and the spectrum fine structure extraction step An envelope selection step, and a speech spectrum generation step of generating a speech spectrum of speech output over a speaker's speech by synthesizing the spectrum envelope selected by the spectrum envelope selection step and the spectrum fine structure. It is characterized by that.

また、請求項8の発明に係る音声処理方法は、話者の音声に被せて出力される音声の音声スペクトルを生成する音声処理方法であって、話者の音声信号からスペクトル微細構造を抽出するスペクトル微細構造抽出工程と、前記スペクトル微細構造抽出手段により抽出されたスペクトル微細構造と所定のスペクトル包絡とを合成することにより話者の音声に被せて出力される音声の音声スペクトルを生成する音声スペクトル生成工程と、前記音声スペクトル生成工程により生成された音声スペクトルの所定の周波数領域におけるスペクトル強度を抑制することにより当該音声スペクトルを補正する周波数強度補正工程とを含んだことを特徴とする。   The voice processing method according to the invention of claim 8 is a voice processing method for generating a voice spectrum of a voice outputted over a speaker's voice, and extracts a spectral fine structure from the voice signal of the speaker. A speech spectrum for generating a speech spectrum of speech output over a speaker's speech by synthesizing a spectral fine structure extracted step and a spectral fine structure extracted by the spectral fine structure extracting means and a predetermined spectral envelope It includes a generation step and a frequency intensity correction step of correcting the voice spectrum by suppressing the spectrum intensity in a predetermined frequency region of the voice spectrum generated by the voice spectrum generation step.

請求項1または7の発明によれば、異なる複数のスペクトル包絡に係るデータをスペクトル包絡データベースが記憶し、話者の音声信号からスペクトル微細構造を抽出し、スペクトル包絡データベースに記憶されたスペクトル包絡に係るデータの中からスペクトル包絡に係るデータを選択し、選択されたスペクトル包絡とスペクトル微細構造とを合成することにより話者の音声に被せて出力される音声の音声スペクトルを生成することとしたので、話者の音源情報を保持したスペクトル微細構造とスペクトル包絡とを利用して防聴音のスペクトルを生成するので、防聴音は話者の音源情報を保持しているため、話者の会話音声と融合し、話者の発言内容を聞き取りにくくすることができるとともに、話者の音声スペクトルを変形して防聴音を生成するのではなく、スペクトル包絡データベースにあらかじめ登録されたスペクトル包絡を用いて防聴音を生成するので、防聴音が甲高い音になって、人に不快感を与えてしまうことを効果的に防止することができるという効果を奏する。   According to the invention of claim 1 or 7, the spectrum envelope database stores data related to a plurality of different spectrum envelopes, extracts the spectral fine structure from the speech signal of the speaker, and stores the spectrum envelope stored in the spectrum envelope database. Since the data related to the spectral envelope is selected from the data, and the selected spectral envelope and the spectral fine structure are synthesized, the voice spectrum of the voice output over the speaker's voice is generated. Since the spectrum of the hearing loss is generated using the spectral fine structure and the spectrum envelope that hold the speaker's sound source information, the hearing loss holds the speaker's sound source information. This makes it difficult to hear the speaker's speech and transforms the speaker's voice spectrum to reduce hearing loss. Rather than creating a hearing loss using a spectrum envelope pre-registered in the spectrum envelope database, it effectively prevents the hearing loss from becoming a high pitched sound and causing discomfort to the person. There is an effect that can be.

また、請求項2の発明によれば、話者の音声の時間変化量が所定値以上である場合にスペクトル包絡データベースからスペクトル包絡に係るデータを新たに選択し、新たに選択されたスペクトル包絡とスペクトル微細構造とを合成することにより話者の音声に被せて出力される音声の音声スペクトルを新たに生成することとしたので、話者の発言内容を聞き取りにくくするのに適したスペクトル包絡を話者の音声の変化に追従して選択することができるという効果を奏する。   According to the second aspect of the present invention, when the amount of time change of the speaker's voice is equal to or greater than a predetermined value, data related to the spectrum envelope is newly selected from the spectrum envelope database, and the newly selected spectrum envelope is selected. Since the speech spectrum of the speech that is output over the speaker's voice is newly generated by synthesizing with the spectral fine structure, the spectrum envelope suitable for making it difficult to hear the speech content of the speaker is spoken. The effect is that it is possible to select following the change of the person's voice.

また、請求項3の発明によれば、スペクトル包絡データベースに記憶されたスペクトル包絡に係るデータの中からスペクトル包絡に係るデータをランダムに選択することとしたので、人に不快感を与えることのない防聴音の生成に用いられるスペクトル包絡を効率的に選択することができるという効果を奏する。   According to the invention of claim 3, since the data related to the spectrum envelope is randomly selected from the data related to the spectrum envelope stored in the spectrum envelope database, there is no discomfort to the person. There is an effect that it is possible to efficiently select a spectrum envelope used for generation of the hearing protection sound.

また、請求項4の発明によれば、話者の音声信号からスペクトル包絡をさらに抽出し、抽出されたスペクトル包絡と、スペクトル包絡データベースにデータが記憶されたスペクトル包絡との間の類似度に基づいて、スペクトル包絡データベースに記憶されたスペクトル包絡に係るデータの中からスペクトル包絡に係るデータを選択することとしたので、話者の音韻とかけ離れた音韻を表すスペクトル包絡を効果的に選択することができ、話者の発言内容を聞き取りにくくする防聴音を生成することができるという効果を奏する。   According to the invention of claim 4, the spectrum envelope is further extracted from the speech signal of the speaker, and based on the similarity between the extracted spectrum envelope and the spectrum envelope whose data is stored in the spectrum envelope database. Thus, since the data related to the spectral envelope is selected from the data related to the spectral envelope stored in the spectral envelope database, it is possible to effectively select the spectral envelope representing the phoneme far from the speaker's phoneme. It is possible to produce a hearing-proof sound that makes it difficult to hear the content of the speaker's speech.

また、請求項5または8の発明によれば、話者の音声信号からスペクトル微細構造を抽出し、抽出されたスペクトル微細構造と所定のスペクトル包絡とを合成することにより話者の音声に被せて出力される音声の音声スペクトルを生成し、生成された音声スペクトルの所定の周波数領域におけるスペクトル強度を抑制することにより当該音声スペクトルを補正することとしたので、防聴音が甲高い音になる原因となる周波数領域のスペクトル強度を抑制することにより、人に不快感を与えてしまうことを効果的に防止することができるという効果を奏する。   According to the invention of claim 5 or 8, the spectral fine structure is extracted from the voice signal of the speaker, and the extracted spectral fine structure and a predetermined spectral envelope are synthesized to cover the voice of the speaker. Since the sound spectrum of the output sound is generated and the sound spectrum is corrected by suppressing the spectrum intensity in a predetermined frequency region of the generated sound spectrum, the hearing loss becomes a high-pitched sound. By suppressing the spectral intensity in the frequency domain, it is possible to effectively prevent a person from feeling uncomfortable.

また、請求項6の発明によれば、話者の音声信号から抽出されたスペクトル微細構造および所定のスペクトル包絡を合成することにより生成された音声スペクトルと、話者の音声信号から得られる音声スペクトルとの差に基づいてスペクトル強度の補正量を設定することとしたので、防聴音が甲高い音になる原因となる周波数領域のスペクトル強度の補正量を適切に設定することができるという効果を奏する。   According to the invention of claim 6, a speech spectrum generated by synthesizing the spectral fine structure extracted from the speech signal of the speaker and a predetermined spectrum envelope, and a speech spectrum obtained from the speech signal of the speaker Since the correction amount of the spectral intensity is set based on the difference between the two, the effect of being able to appropriately set the correction amount of the spectral intensity in the frequency domain that causes the hearing-proof sound to become a high-pitched sound is obtained.

以下に添付図面を参照して、本発明に係る音声処理装置および音声処理方法の好適な実施例を詳細に説明する。   Exemplary embodiments of an audio processing device and an audio processing method according to the present invention will be explained below in detail with reference to the accompanying drawings.

まず、本実施例1に係る音声処理の概念について説明する。図1は、実施例1に係る音声処理の概念を説明する図である。   First, the concept of audio processing according to the first embodiment will be described. FIG. 1 is a diagram illustrating the concept of sound processing according to the first embodiment.

図1に示すように、この音声処理では、話者の会話音声を不明瞭にする音声(この音声は会話音声が第三者に聞き取られる(聴かれる)のを防ぐことが目的であるため、以下、この音声を防聴音と呼ぶ)を生成する場合に、マイクロフォン等により話者の音声信号を取得し、所定の時間間隔で音声信号のスペクトル分析をおこなって、音圧や周波数分布などの会話音声の特徴を抽出する。図1には、「あ」、「い」、「う」、「え」、「お」という音声波形10に対してスペクトル分析を適用した結果得られるスペクトログラム11の例が示されている。   As shown in FIG. 1, this voice processing is intended to prevent the voice of the speaker from obscuring the conversation voice (this voice is intended to prevent the voice of the conversation from being heard by a third party) In the following, this voice is called hearing-proof sound), and the speaker's voice signal is acquired by a microphone, etc., and the spectrum of the voice signal is analyzed at a predetermined time interval, and the conversation such as sound pressure and frequency distribution is performed. Extract voice features. FIG. 1 shows an example of a spectrogram 11 obtained as a result of applying spectrum analysis to a speech waveform 10 of “A”, “I”, “U”, “E”, and “O”.

そして、このようなスペクトログラム11から得られる短時間スペクトル12から、音韻情報を表すスペクトル包絡13と、音源情報を表すスペクトル微細構造14とが抽出される。   Then, from the short-time spectrum 12 obtained from such a spectrogram 11, a spectrum envelope 13 representing phonological information and a spectral fine structure 14 representing sound source information are extracted.

一方、この音声処理においては、あらかじめ人の代表的な音声信号をクラスタリングなどの統計手法を用いて抽出し、抽出された音声信号のスペクトル包絡をスペクトル包絡データベース15に複数登録しておく。   On the other hand, in this speech processing, representative speech signals of a person are extracted in advance using a statistical method such as clustering, and a plurality of spectrum envelopes of the extracted speech signals are registered in the spectrum envelope database 15.

そして、話者の会話音声のスペクトル分析から得られたスペクトル包絡13と最も類似していない(スペクトル距離が最大である)スペクトル包絡がスペクトル包絡データベース15に登録されたスペクトル包絡の中から選択され、選択されたスペクトル包絡16により話者の会話音声から得られたスペクトル包絡13が置換される。   Then, the spectrum envelope that is not most similar to the spectrum envelope 13 obtained from the spectrum analysis of the speaker's speech (the spectrum distance is maximum) is selected from the spectrum envelopes registered in the spectrum envelope database 15; The selected spectrum envelope 16 replaces the spectrum envelope 13 obtained from the speech of the speaker.

ここで、話者の会話音声のスペクトル分析から得られたスペクトル包絡13と最も類似していないスペクトル包絡を選択する理由は、話者の音声の音韻とかけ離れた音韻を表すスペクトル包絡を基にして防聴音を生成することにより話者の発言内容を聞き取りにくくするためである。   Here, the reason why the spectrum envelope most similar to the spectrum envelope 13 obtained from the spectrum analysis of the speaker's speech is selected is based on the spectrum envelope representing the phoneme far from the phoneme of the speaker's speech. This is to make it difficult to hear the content of the speaker's speech by generating a hearing-proof sound.

続いて、話者の会話音声から得られたスペクトル包絡13を置換したスペクトル包絡16とスペクトル微細構造14とが合成され、防聴音のスペクトル17が生成される。そして、この防聴音のスペクトル17から防聴音が生成され、スピーカからその防聴音が出力される。   Subsequently, the spectrum envelope 16 obtained by replacing the spectrum envelope 13 obtained from the conversational voice of the speaker and the spectrum fine structure 14 are synthesized, and a spectrum 17 of the hearing loss sound is generated. And the hearing-aid sound is produced | generated from the spectrum 17 of this hearing-aid sound, and the hearing-aid sound is output from a speaker.

このように、この音声処理では、話者の音源情報を保持したスペクトル微細構造14と、人の代表的な音声信号のスペクトル包絡とを利用して防聴音のスペクトルを生成するので、防聴音は話者の音源情報を保持しているため、防聴音を話者の会話音声と融合させることができ、話者の発言内容を聞き取りにくくすることができる。   In this way, in this audio processing, the spectrum of the hearing loss sound is generated using the spectrum fine structure 14 holding the sound source information of the speaker and the spectrum envelope of the representative voice signal of the person. Since the sound source information of the speaker is held, the hearing-proof sound can be fused with the conversation voice of the speaker, and the content of the speaker's speech can be made difficult to hear.

また、話者の音声スペクトルにおける山および谷の位置を反転・シフトして防聴音を生成するのではなく、人の代表的な音声信号のスペクトル包絡をそのまま用いて防聴音を生成するため、防聴音が不自然に甲高い音になって防聴音を聞く人に不快感を与えてしまうことを防止することができる。   In addition, hearing loss is not generated by inverting and shifting the positions of peaks and valleys in the speaker's speech spectrum, but rather by using the spectral envelope of a typical human speech signal as it is. It is possible to prevent the hearing sound from becoming unnaturally high-pitched sound and causing discomfort to the person who hears the hearing-proof sound.

図2は、実施例1における防聴音のスペクトログラムと従来の防聴音のスペクトログラムとの比較を示す図である。図2には、話者が発声した原音声のスペクトログラム20と、従来の防聴音のスペクトログラム21と、本実施例の防聴音のスペクトログラム22とが示されている。図2の各スペクトログラムにおいては色の濃い領域が強度の大きい領域に対応している。   FIG. 2 is a diagram showing a comparison between the spectrogram of the hearing protection sound in the first embodiment and the spectrogram of the conventional hearing protection sound. FIG. 2 shows a spectrogram 20 of the original voice uttered by the speaker, a spectrogram 21 of the conventional hearing aid sound, and a spectrogram 22 of the hearing aid sound of the present embodiment. In each spectrogram of FIG. 2, dark regions correspond to regions with high intensity.

ここで、従来の防聴音のスペクトログラム21とは、話者の会話音声のスペクトル包絡13における山および谷の位置を反転・シフトして、スペクトル微細構造14と合成することにより生成された防聴音のスペクトログラムである。また、本実施例の防聴音のスペクトログラム22とは、図1で説明したようにして生成された防聴音のスペクトログラムである。   Here, the spectrogram 21 of the conventional hearing protection sound is obtained by inverting and shifting the positions of peaks and valleys in the spectrum envelope 13 of the speaker's conversational speech and synthesizing with the spectrum fine structure 14. Spectrogram. Further, the hearing-aid spectrogram 22 of this embodiment is a spectrogram of the hearing-aid generated as described with reference to FIG.

図2に示すように、従来の防聴音のスペクトログラム21では、中域(1kHz〜4kHz)の周波数領域における強度が原音声のスペクトログラム20に比べて増大している。そして、この中域の周波数範囲における強度の増大が甲高い音の原因となっている。   As shown in FIG. 2, in the conventional deafening sound spectrogram 21, the intensity in the frequency range of the middle range (1 kHz to 4 kHz) is increased compared to the spectrogram 20 of the original speech. And the increase in the intensity in the mid frequency range causes a high-pitched sound.

それに対して、本実施例の防聴音のスペクトログラム22では、中域の周波数範囲における強度の増大が抑制されていることがわかる。このように、中域の周波数範囲における強度の増大を抑制することにより、防聴音が甲高い音になることを効果的に防止することができる。   On the other hand, in the spectrogram 22 of the hearing-aid sound of the present embodiment, it can be seen that an increase in intensity in the mid-frequency range is suppressed. In this way, by suppressing an increase in intensity in the mid-frequency range, it is possible to effectively prevent the hearing loss from becoming a high-pitched sound.

なお、本実施例のように、人の代表的な音声信号のスペクトル包絡を利用して防聴音のスペクトルを生成する場合には、図2に示したような原音声のスペクトログラム20の時間変化に応じて防聴音の生成に用いられるスペクトル包絡が再選択される。   Note that when the spectrum of the hearing loss sound is generated using the spectrum envelope of a typical human voice signal as in the present embodiment, the time change of the spectrogram 20 of the original voice as shown in FIG. In response, the spectral envelope used to generate the hearing loss is reselected.

具体的には、図2に示したように、原音声の時間変化が所定値以上になった場合には、話者の音声信号から抽出されたスペクトル包絡と最も類似していないスペクトル包絡がスペクトル包絡データベース14に登録されたスペクトル包絡の中から新たに選択され、選択されたスペクトル包絡を用いて防聴音のスペクトルが生成される。これにより、話者の発言内容を聞き取りにくくするのに適したスペクトル包絡を原音声の変化に追従して適切に選択することができる。   Specifically, as shown in FIG. 2, when the time change of the original speech exceeds a predetermined value, the spectrum envelope most similar to the spectrum envelope extracted from the speaker's speech signal is the spectrum. A new spectrum is selected from the spectrum envelopes registered in the envelope database 14, and the spectrum of the hearing loss sound is generated using the selected spectrum envelope. As a result, it is possible to appropriately select a spectrum envelope suitable for making it difficult to hear the content of the speaker's speech following the change in the original speech.

つぎに、実施例1に係る音声処理装置の機能構成について説明する。図3は、実施例1に係る音声処理装置30の機能構成を示す図である。図3に示すように、この音声処理装置30は、入力部31、表示部32、音声入力受付部33、スペクトル包絡データベース34、音声生成部35、音声出力部36、制御部37を有する。   Next, a functional configuration of the speech processing apparatus according to the first embodiment will be described. FIG. 3 is a diagram illustrating a functional configuration of the voice processing device 30 according to the first embodiment. As illustrated in FIG. 3, the speech processing device 30 includes an input unit 31, a display unit 32, a speech input reception unit 33, a spectrum envelope database 34, a speech generation unit 35, a speech output unit 36, and a control unit 37.

入力部31は、各種情報の入力に用いられるキーボードやマウスなどの入力デバイスである。表示部32は、各種情報を出力するディスプレイなどの表示デバイスである。音声入力受付部33は、マイクロフォンなどから話者の音声信号を受け付け、A/D変換および増幅処理をおこなって制御部37に出力する受付部である。   The input unit 31 is an input device such as a keyboard and a mouse used for inputting various types of information. The display unit 32 is a display device such as a display that outputs various types of information. The voice input receiving unit 33 is a receiving unit that receives a speaker's voice signal from a microphone or the like, performs A / D conversion and amplification processing, and outputs the result to the control unit 37.

スペクトル包絡データベース34は、図1で説明したようにして防聴音のスペクトルを生成する場合に、話者の音声信号から抽出されたスペクトル包絡を置き換える候補となるスペクトル包絡のデータを記憶したデータベースである。   The spectrum envelope database 34 is a database that stores spectrum envelope data that are candidates for replacing the spectrum envelope extracted from the speech signal of the speaker when the spectrum of the hearing loss sound is generated as described in FIG. .

音声生成部35は、後に説明する制御部37により生成された防聴音のスペクトルから防聴音の音声信号を生成する生成部である。音声出力部36は、音声生成部35により生成された音声信号のD/A変換および増幅処理をおこなってスピーカに出力する出力部である。   The sound generation unit 35 is a generation unit that generates a sound signal of the hearing-aid sound from the spectrum of the hearing-aid sound generated by the control unit 37 described later. The audio output unit 36 is an output unit that performs D / A conversion and amplification processing on the audio signal generated by the audio generation unit 35 and outputs the result to a speaker.

制御部37は、OS(Operating System)などの制御プログラム、各種処理の処理手順を規定したプログラム、および、各種データを格納するためのメモリを有し、種々の処理を実行する制御部である。   The control unit 37 includes a control program such as an OS (Operating System), a program that defines processing procedures for various processes, and a memory for storing various data, and is a control unit that executes various processes.

この制御部37は、スペクトル分析部37a、スペクトル微細構造抽出部37b、スペクトル包絡抽出部37c、スペクトル包絡選択部37d、スペクトル生成部37eを有する。   The control unit 37 includes a spectrum analysis unit 37a, a spectrum fine structure extraction unit 37b, a spectrum envelope extraction unit 37c, a spectrum envelope selection unit 37d, and a spectrum generation unit 37e.

スペクトル分析部37aは、音声入力受付部33からデジタル化された音声信号を受け付けてケプストラム分析をおこない、その結果得られるケプストラム係数のうち、高ケフレンシ部と低ケフレンシ部とをスペクトル微細構造抽出部37b、スペクトル包絡抽出部37cにそれぞれ出力する分析部である。   The spectrum analysis unit 37a receives a digitized audio signal from the audio input reception unit 33 and performs cepstrum analysis. Among the cepstrum coefficients obtained as a result, the spectrum analysis unit 37a converts the high and low quefrency portions into a spectrum fine structure extraction unit 37b. And an analysis unit that outputs the spectrum envelope extraction unit 37c.

具体的には、スペクトル分析部37aは、音声信号に対してハニング窓やハミング窓などの所定の窓関数を適用し、高速フーリエ変換(FFT, Fast Fourier Transform)を用いた短時間スペクトル分析を実行する。   Specifically, the spectrum analysis unit 37a applies a predetermined window function such as a Hanning window or a Hamming window to the audio signal, and performs short-time spectrum analysis using Fast Fourier Transform (FFT). To do.

続いて、スペクトル分析部37aは、高速フーリエ変換の結果得られた値の絶対値を求め、さらにその絶対値の対数を算出する。そして、スペクトル分析部37aは、算出された対数の値に逆高速フーリエ変換(IFFT, Inverse Fast Fourier Transform)を適用し、ケプストラム係数を算出する。   Subsequently, the spectrum analysis unit 37a calculates an absolute value of a value obtained as a result of the fast Fourier transform, and further calculates a logarithm of the absolute value. Then, the spectrum analyzing unit 37a applies an inverse fast Fourier transform (IFFT) to the calculated logarithmic value to calculate a cepstrum coefficient.

その後、スペクトル分析部37aは、算出されたケプストラム係数に対してケプストラム窓を用いてリフタリングをおこなうことにより高ケフレンシ部と低ケフレンシ部とを抽出する。   Thereafter, the spectrum analyzing unit 37a extracts a high quefrency portion and a low quefrency portion by performing liftering on the calculated cepstrum coefficient using a cepstrum window.

また、このスペクトル分析部37aは、過去に音声入力受付部33から受け付けた音声信号のスペクトルを記憶しておく。そして、スペクトル分析部37aは、新たに受け付けた音声信号のスペクトルと、過去に受け付けた音声信号のスペクトルとの間のスペクトル距離を算出し、そのスペクトル距離が所定値以上になった場合にスペクトル包絡選択部37dに対して新たなスペクトル包絡を選択するよう指示する処理をおこなう。   The spectrum analyzing unit 37a stores the spectrum of the audio signal received from the audio input receiving unit 33 in the past. Then, the spectrum analysis unit 37a calculates a spectrum distance between the spectrum of the newly received sound signal and the spectrum of the sound signal received in the past, and the spectrum envelope when the spectrum distance becomes a predetermined value or more. Processing for instructing the selection unit 37d to select a new spectrum envelope is performed.

スペクトル微細構造抽出部37bは、スペクトル分析部37aから高ケフレンシ部を受け付け、高速フーリエ変換を適用することによりスペクトル微細構造を抽出する抽出部である。スペクトル包絡抽出部37cは、スペクトル分析部37aから低ケフレンシ部を受け付け、高速フーリエ変換を適用することによりスペクトル包絡を抽出する抽出部である。   The spectrum fine structure extraction unit 37b is an extraction unit that receives a high quefrency part from the spectrum analysis unit 37a and extracts a spectral fine structure by applying a fast Fourier transform. The spectrum envelope extraction unit 37c is an extraction unit that receives a low quefrency unit from the spectrum analysis unit 37a and extracts a spectrum envelope by applying a fast Fourier transform.

スペクトル包絡選択部37dは、スペクトル包絡抽出部37cにより抽出されたスペクトル包絡と、スペクトル包絡データベース34に登録されたスペクトル包絡との間のスペクトル距離を算出し、スペクトル包絡データベース34に登録されたスペクトル包絡のうちスペクトル距離が最大であるスペクトル包絡を、スペクトル包絡抽出部37cにより抽出されたスペクトル包絡を置換するものとして選択する選択部である。   The spectrum envelope selection unit 37d calculates a spectral distance between the spectrum envelope extracted by the spectrum envelope extraction unit 37c and the spectrum envelope registered in the spectrum envelope database 34, and the spectrum envelope registered in the spectrum envelope database 34 Is a selection unit that selects the spectrum envelope having the maximum spectrum distance as a replacement for the spectrum envelope extracted by the spectrum envelope extraction unit 37c.

ここで、スペクトル距離としては、低ケフレンシ部の成分からなるベクトルのユークリッド距離が用いられる。なお、ここで用いられるスペクトル距離はこれに限定されず、FFTによるスペクトル距離や、線形予測(LPC, Linear Predictive Coding)分析により得られたスペクトル包絡に基づくスペクトル距離など、従来提案されているさまざまなスペクトル距離を用いてもよい。   Here, as the spectral distance, a Euclidean distance of a vector composed of the components of the low kerfrenality part is used. Note that the spectral distance used here is not limited to this, and various conventionally proposed spectral distances such as a spectral distance based on FFT and a spectral distance based on a spectral envelope obtained by linear predictive (LPC) analysis. Spectral distance may be used.

スペクトル生成部37eは、スペクトル微細構造抽出部37bにより抽出されたスペクトル微細構造と、スペクトル包絡選択部37dにより選択されたスペクトル包絡とを合成して防聴音のスペクトルを生成する生成部である。   The spectrum generation unit 37e is a generation unit that synthesizes the spectrum fine structure extracted by the spectrum fine structure extraction unit 37b and the spectrum envelope selected by the spectrum envelope selection unit 37d to generate a spectrum of hearing loss.

つぎに、実施例1に係る音声処理の処理手順について説明する。図4は、実施例1に係る音声処理の処理手順を示すフローチャートである。図4に示すように、まず、音声処理装置30の音声入力受付部33は、マイクロフォンから音声信号の入力を受け付ける(ステップS101)。   Next, a processing procedure of audio processing according to the first embodiment will be described. FIG. 4 is a flowchart of the sound processing procedure according to the first embodiment. As shown in FIG. 4, first, the voice input receiving unit 33 of the voice processing device 30 receives an input of a voice signal from the microphone (step S101).

そして、スペクトル分析部37aは、入力された音声信号の音声波形のスペクトル分析を実行し、ケプストラム係数における高ケフレンシ部および低ケフレンシ部を算出する(ステップS102)。   Then, the spectrum analysis unit 37a performs spectrum analysis of the speech waveform of the input speech signal, and calculates a high quefrency portion and a low quefrency portion in the cepstrum coefficient (step S102).

続いて、スペクトル微細構造抽出部37bは、スペクトル分析部37aから高ケフレンシ部を取得して、スペクトル微細構造を抽出する(ステップS103)。そして、スペクトル包絡抽出部37cは、スペクトル分析部37aから低ケフレンシ部を取得して、スペクトル包絡を抽出する(ステップS104)。   Subsequently, the spectral fine structure extraction unit 37b acquires a high quefrency part from the spectral analysis unit 37a and extracts the spectral fine structure (step S103). And the spectrum envelope extraction part 37c acquires a low quefrency part from the spectrum analysis part 37a, and extracts a spectrum envelope (step S104).

その後、スペクトル分析部37aは、入力された音声信号のスペクトルと、過去に入力された音声信号のスペクトルとを比較して、スペクトルの時間変動が所定値以上となったか否かを調べる(ステップS105)。   After that, the spectrum analysis unit 37a compares the spectrum of the input voice signal with the spectrum of the voice signal input in the past, and checks whether or not the time variation of the spectrum has become a predetermined value or more (step S105). ).

スペクトルの時間変動が所定値以上でない場合には(ステップS105,No)、スペクトル包絡選択部37dは、スペクトル包絡が選択済みか否かを調べる(ステップS106)。   When the time variation of the spectrum is not equal to or greater than the predetermined value (No at Step S105), the spectrum envelope selection unit 37d checks whether or not the spectrum envelope has been selected (Step S106).

そして、スペクトル包絡が選択済みでない場合には(ステップS106,No)、スペクトル包絡選択部37dは、スペクトル包絡データベース34に登録されたスペクトル包絡のデータを読み込む(ステップS107)。   If the spectrum envelope has not been selected (No at Step S106), the spectrum envelope selection unit 37d reads the spectrum envelope data registered in the spectrum envelope database 34 (Step S107).

続いて、スペクトル包絡選択部37dは、スペクトル包絡抽出部37cにより抽出されたスペクトル包絡とスペクトル距離が最も大きいスペクトル包絡をスペクトル包絡データベース34に登録されたスペクトル包絡の中から選択する(ステップS108)。   Subsequently, the spectrum envelope selecting unit 37d selects the spectrum envelope having the largest spectrum distance and the spectrum envelope extracted by the spectrum envelope extracting unit 37c from the spectrum envelopes registered in the spectrum envelope database 34 (step S108).

その後、スペクトル生成部37eは、選択されたスペクトル包絡と、スペクトル微細構造抽出部37bにより抽出されたスペクトル微細構造とを合成した防聴音のスペクトルを生成する(ステップS109)。   Thereafter, the spectrum generation unit 37e generates a spectrum of the hearing loss sound obtained by synthesizing the selected spectrum envelope and the spectrum fine structure extracted by the spectrum fine structure extraction unit 37b (step S109).

ステップS105において、スペクトルの時間変動が所定値以上である場合には(ステップS105,Yes)、ステップS107に移行して、それ以後の処理を継続する。また、ステップS106において、スペクトル包絡が選択済みである場合には(ステップS106,Yes)、ステップS109に移行して、それ以後の処理を継続する。   In step S105, when the time variation of the spectrum is equal to or greater than the predetermined value (step S105, Yes), the process proceeds to step S107, and the subsequent processing is continued. In step S106, when the spectrum envelope has been selected (step S106, Yes), the process proceeds to step S109, and the subsequent processing is continued.

ステップS109の後、音声生成部35は、スペクトル生成部37eにより生成された防聴音のスペクトルから防聴音の音声信号を生成する(ステップS110)。そして、音声出力部36は、音声生成部35により生成された防聴音の音声信号をスピーカに出力する(ステップS111)。   After step S109, the sound generation unit 35 generates a hearing-aid sound signal from the hearing-aid spectrum generated by the spectrum generation unit 37e (step S110). Then, the audio output unit 36 outputs the hearing-aid audio signal generated by the audio generation unit 35 to the speaker (step S111).

その後、制御部37は、防聴音の出力処理の終了指示がなされたか否かを調べ(ステップS112)、終了指示がなされた場合には(ステップS112,Yes)、この処理を終了する。終了指示がなされていない場合には(ステップS112,No)、ステップS101に移行して、それ以後の処理を繰り返す。   Thereafter, the control unit 37 checks whether or not an instruction to end the hearing-proof sound output process has been issued (step S112). If an instruction to end is given (Yes in step S112), the process ends. If the end instruction has not been given (No at Step S112), the process proceeds to Step S101, and the subsequent processing is repeated.

ステップS105において、スペクトルの時間変動が所定値以上となった場合には(ステップS105,Yes)、スペクトル生成部37eは、設定済みのスペクトル包絡を棄却し、ステップS107に移行して、スペクトル包絡を新たに設定する処理をおこなう。   In step S105, when the time variation of the spectrum becomes equal to or greater than the predetermined value (step S105, Yes), the spectrum generation unit 37e rejects the set spectrum envelope, proceeds to step S107, and changes the spectrum envelope. Perform a new setting process.

なお、上記実施例では、スペクトル包絡データベース34に登録されたスペクトル包絡の中からスペクトル包絡をスペクトル距離に基づいて選択することとしたが、スペクトル包絡データベース34に登録されたスペクトル包絡の中からスペクトル包絡をランダムに選択してもよく、あるいは、その他の方法で選択してもよい。   In the above embodiment, the spectrum envelope is selected from the spectrum envelopes registered in the spectrum envelope database 34 based on the spectrum distance. However, the spectrum envelope is selected from the spectrum envelopes registered in the spectrum envelope database 34. May be selected randomly, or may be selected by other methods.

上述してきたように、実施例1によれば、異なる複数のスペクトル包絡に係るデータをスペクトル包絡データベース34が記憶し、スペクトル微細構造抽出部37bが、話者の音声信号からスペクトル微細構造を抽出し、スペクトル包絡選択部37dが、スペクトル包絡データベース34に記憶されたスペクトル包絡に係るデータの中からスペクトル包絡に係るデータを選択し、スペクトル生成部37eが、選択されたスペクトル包絡とスペクトル微細構造とを合成することにより話者の音声に被せて出力される防聴音のスペクトルを生成することとしたので、話者の音源情報を保持したスペクトル微細構造とスペクトル包絡とを利用して防聴音のスペクトルを生成するので、防聴音は話者の音源情報を保持しているため、話者の会話音声と融合し、話者の発言内容を聞き取りにくくすることができるとともに、話者の音声スペクトルを変形して防聴音を生成するのではなく、スペクトル包絡データベース34にあらかじめ登録されたスペクトル包絡を用いて防聴音を生成するので、防聴音が甲高い音になって、人に不快感を与えてしまうことを効果的に防止することができる。   As described above, according to the first embodiment, the spectral envelope database 34 stores data related to a plurality of different spectral envelopes, and the spectral fine structure extraction unit 37b extracts the spectral fine structure from the speech signal of the speaker. The spectrum envelope selection unit 37d selects the data related to the spectrum envelope from the data related to the spectrum envelope stored in the spectrum envelope database 34, and the spectrum generation unit 37e displays the selected spectrum envelope and the spectrum fine structure. Since it was decided to generate a spectrum of the hearing loss sound that is output over the speaker's voice by combining it, the spectrum of the hearing loss sound is obtained by using the spectral fine structure and the spectrum envelope that hold the speaker's sound source information. Because the sound-proofing sound holds the sound source information of the speaker, In addition, it is possible to make it difficult to hear the content of the speaker's speech, and to prevent the use of a spectrum envelope registered in the spectrum envelope database 34 in advance, instead of generating a hearing-proof sound by modifying the speaker's speech spectrum. Since the hearing sound is generated, it is possible to effectively prevent the hearing-proof sound from becoming a high-pitched sound and causing discomfort to the person.

また、実施例1によれば、スペクトル包絡選択部37dが、話者の音声の時間変化量が所定値以上である場合にスペクトル包絡データベース34からスペクトル包絡に係るデータを新たに選択し、スペクトル生成部37eが、新たに選択されたスペクトル包絡とスペクトル微細構造とを合成することにより話者の音声に被せて出力される音声の音声スペクトルを新たに生成することとしたので、話者の発言内容を聞き取りにくくするのに適したスペクトル包絡を話者の音声の変化に追従して選択することができる。   Further, according to the first embodiment, the spectrum envelope selection unit 37d newly selects data related to the spectrum envelope from the spectrum envelope database 34 when the temporal change amount of the speaker's voice is equal to or greater than a predetermined value, and generates a spectrum. Since the unit 37e newly generates the speech spectrum of the speech that is output over the speech of the speaker by synthesizing the newly selected spectral envelope and the spectral fine structure, the content of the speech of the speaker Thus, it is possible to select a spectral envelope suitable for making it difficult to hear the voice following the change of the speaker's voice.

また、実施例1によれば、スペクトル包絡選択部37dが、スペクトル包絡データベース34に記憶されたスペクトル包絡に係るデータの中からスペクトル包絡に係るデータをランダムに選択することとしたので、人に不快感を与えることのない防聴音の生成に用いられるスペクトル包絡を効率的に選択することができる。   Further, according to the first embodiment, the spectrum envelope selection unit 37d randomly selects the data related to the spectrum envelope from the data related to the spectrum envelope stored in the spectrum envelope database 34. It is possible to efficiently select a spectrum envelope used for generating a hearing-proof sound that does not give a pleasant feeling.

また、実施例1によれば、スペクトル包絡抽出部37cが、話者の音声信号からスペクトル包絡を抽出し、スペクトル包絡選択部37dが、抽出されたスペクトル包絡と、スペクトル包絡データベース34にデータが記憶されたスペクトル包絡との間のスペクトル距離に基づいて、スペクトル包絡データベース34に記憶されたスペクトル包絡に係るデータの中からスペクトル包絡に係るデータを選択することとしたので、話者の音韻とかけ離れた音韻を表すスペクトル包絡を効果的に選択することができ、話者の発言内容を聞き取りにくくする防聴音を生成することができる。   Further, according to the first embodiment, the spectrum envelope extraction unit 37c extracts the spectrum envelope from the speech signal of the speaker, and the spectrum envelope selection unit 37d stores the extracted spectrum envelope and the data in the spectrum envelope database 34. Since the spectrum envelope data is selected from the spectrum envelope data stored in the spectrum envelope database 34 based on the spectrum distance between the measured spectrum envelope and the spectrum envelope database 34, it is far from the phoneme of the speaker. A spectrum envelope representing a phoneme can be effectively selected, and a hearing-proof sound that makes it difficult to hear the content of a speaker's speech can be generated.

ところで、実施例1では、人の代表的な音声信号のスペクトル包絡を利用して、甲高さが抑制された防聴音のスペクトルを生成することとしたが、生成された防聴音のスペクトルにおいて甲高さの原因となる周波数領域のスペクトル強度を抑制することにより、防聴音が甲高い音になるのを防止することとしてもよい。そこで、本実施例2では、防聴音のスペクトルにおいて甲高さの原因となる周波数領域のスペクトル強度を抑制する場合について説明する。   By the way, in Example 1, the spectrum envelope of the representative hearing sound signal is used to generate the spectrum of the hearing-aid sound in which the instep height is suppressed. By suppressing the spectral intensity in the frequency region that causes the height, the hearing-proof sound may be prevented from becoming a high-pitched sound. Therefore, in the second embodiment, a case will be described in which the spectrum intensity in the frequency domain that causes the upper height in the spectrum of the hearing-proof sound is suppressed.

まず、本実施例2に係る音声処理の概念について説明する。図5は、実施例2に係る音声処理を説明する図である。   First, the concept of audio processing according to the second embodiment will be described. FIG. 5 is a diagram illustrating audio processing according to the second embodiment.

この音声処理では、防聴音のスペクトルにおいて甲高さの原因となる周波数領域のスペクトル強度補正量40をあらかじめ算出しておく。図5の例では、1kHz〜2kHzの周波数領域が甲高さの大きな原因となっており、特に補正量が大きくなっている。   In this sound processing, a spectrum intensity correction amount 40 in the frequency domain that causes the height of the hearing-proof sound spectrum is calculated in advance. In the example of FIG. 5, the frequency range of 1 kHz to 2 kHz is a major cause of the instep height, and the correction amount is particularly large.

図5に示したようなスペクトル強度補正量40は、さまざまな話者の音声信号のスペクトルの特徴と、それらの話者の音声信号に基づいて生成された防聴音のスペクトルとを比較することにより算出される。   The spectral intensity correction amount 40 as shown in FIG. 5 is obtained by comparing the characteristics of the spectrum of the voice signals of various speakers with the spectrum of the hearing loss generated based on the voice signals of the speakers. Calculated.

図6は、スペクトル強度補正量40の算出方法について説明する図である。図6に示すように、スペクトル強度補正量40を算出する場合には、さまざまな話者の音声信号のスペクトルを収集し、収集したスペクトルの平均値(原音のスペクトル平均)を算出する。一方で、さまざまな話者の音声信号から生成された防聴音の音声信号のスペクトルを収集し、収集したスペクトルの平均値(防聴音のスペクトル平均)を算出する。   FIG. 6 is a diagram for explaining a method for calculating the spectrum intensity correction amount 40. As shown in FIG. 6, when calculating the spectrum intensity correction amount 40, the spectrums of the speech signals of various speakers are collected, and the average value of the collected spectra (the spectrum average of the original sound) is calculated. On the other hand, the spectrum of the hearing signal sound signal generated from the speech signals of various speakers is collected, and the average value of the collected spectrum (spectrum average of the hearing sound) is calculated.

そして、防聴音のスペクトル平均から原音のスペクトル平均を差し引いたスペクトルの増加分(防聴音のスペクトル増加分)を算出する。そして、防聴音のスペクトル増加分が正の値である周波数帯域を検出し、その周波数帯域における防聴音のスペクトル増加分を防聴音のスペクトルのスペクトル強度から減ずるスペクトル強度補正量40として設定する。   Then, an increase in the spectrum obtained by subtracting the spectrum average of the original sound from the spectrum average of the hearing loss (a spectrum increase of the hearing loss) is calculated. Then, a frequency band in which the spectrum increase of the hearing loss sound is a positive value is detected, and the spectrum increase amount of the hearing loss sound in that frequency band is set as a spectrum intensity correction amount 40 that is subtracted from the spectrum intensity of the spectrum of the hearing protection sound.

このようにして、甲高さの原因となる周波数領域のスペクトル強度を抑制することにより、防聴音が甲高い音になることを効果的に防止することができる。   In this way, by suppressing the spectral intensity in the frequency region that causes the height of the instep, it is possible to effectively prevent the hearing-proof sound from becoming a high-intensity sound.

つぎに、実施例2に係る音声処理装置の機能構成について説明する。図7は、実施例2に係る音声処理装置50の機能構成を示す図である。なお、ここでは、音声処理装置50は、防聴音のスペクトルを話者の音声信号から抽出したスペクトル包絡を変化させることにより生成することとする。しかしながら、防聴音のスペクトルの生成方法はこれに限定されず、実施例1で説明したような方法など、その他の方法で生成することとしてもよい。   Next, a functional configuration of the sound processing apparatus according to the second embodiment will be described. FIG. 7 is a diagram illustrating a functional configuration of the speech processing apparatus 50 according to the second embodiment. Here, it is assumed that the speech processing device 50 generates the spectrum of the hearing-proof sound by changing the spectrum envelope extracted from the speech signal of the speaker. However, the generation method of the hearing-proof sound spectrum is not limited to this, and may be generated by other methods such as the method described in the first embodiment.

図7に示すように、この音声処理装置50は、入力部51、表示部52、音声入力受付部53、音声生成部54、音声出力部55、制御部56を有する。   As illustrated in FIG. 7, the voice processing device 50 includes an input unit 51, a display unit 52, a voice input reception unit 53, a voice generation unit 54, a voice output unit 55, and a control unit 56.

入力部51は、各種情報の入力に用いられるキーボードやマウスなどの入力デバイスである。表示部52は、各種情報を出力するディスプレイなどの表示デバイスである。音声入力受付部53は、マイクロフォンなどから話者の音声信号を受け付け、A/D変換および増幅処理をおこなって制御部56に出力する受付部である。   The input unit 51 is an input device such as a keyboard and a mouse used for inputting various information. The display unit 52 is a display device such as a display that outputs various types of information. The voice input reception unit 53 is a reception unit that receives a speaker's voice signal from a microphone or the like, performs A / D conversion and amplification processing, and outputs the result to the control unit 56.

音声生成部54は、後に説明する制御部56により生成された防聴音のスペクトルから防聴音の音声信号を生成する生成部である。音声出力部55は、音声生成部54により生成された音声信号のD/A変換および増幅処理をおこなってスピーカに出力する出力部である。   The sound generation unit 54 is a generation unit that generates a hearing-aid sound signal from the hearing-aid spectrum generated by the control unit 56 described later. The audio output unit 55 is an output unit that performs D / A conversion and amplification processing on the audio signal generated by the audio generation unit 54 and outputs the result to a speaker.

制御部56は、OSなどの制御プログラム、各種処理の処理手順を規定したプログラム、および、各種データを格納するためのメモリを有し、種々の処理を実行する制御部である。   The control unit 56 includes a control program such as an OS, a program that defines processing procedures for various processes, and a memory for storing various data, and is a control unit that executes various processes.

この制御部56は、スペクトル分析部56a、スペクトル微細構造抽出部56b、スペクトル包絡抽出部56c、スペクトル包絡変形部56d、スペクトル生成部56e、周波数強度補正量算出部56f、周波数強度補正部56gを有する。   The control unit 56 includes a spectrum analysis unit 56a, a spectrum fine structure extraction unit 56b, a spectrum envelope extraction unit 56c, a spectrum envelope deformation unit 56d, a spectrum generation unit 56e, a frequency intensity correction amount calculation unit 56f, and a frequency intensity correction unit 56g. .

スペクトル分析部56aは、実施例1で説明したスペクトル分析部56aと同様にして、音声入力受付部53からデジタル化された音声信号を受け付けてケプストラム分析をおこない、その結果得られるケプストラム係数のうち、高ケフレンシ部と低ケフレンシ部とをスペクトル微細構造抽出部56b、スペクトル包絡抽出部56cにそれぞれ出力する分析部である。   Similarly to the spectrum analysis unit 56a described in the first embodiment, the spectrum analysis unit 56a receives a digitized voice signal from the voice input reception unit 53, performs cepstrum analysis, and among the cepstrum coefficients obtained as a result, It is an analysis part which outputs a high quefrency part and a low quefrency part to the spectrum fine structure extraction part 56b and the spectrum envelope extraction part 56c, respectively.

スペクトル微細構造抽出部56bは、スペクトル分析部56aから高ケフレンシ部を受け付け、高速フーリエ変換を適用することによりスペクトル微細構造を抽出する抽出部である。スペクトル包絡抽出部56cは、スペクトル分析部56aから低ケフレンシ部を受け付け、高速フーリエ変換を適用することによりスペクトル包絡を抽出する抽出部である。   The spectral fine structure extraction unit 56b is an extraction unit that receives a high quefrency part from the spectral analysis unit 56a and extracts a spectral fine structure by applying a fast Fourier transform. The spectrum envelope extraction unit 56c is an extraction unit that receives a low quefrency unit from the spectrum analysis unit 56a and extracts a spectrum envelope by applying a fast Fourier transform.

スペクトル包絡変形部56dは、抽出されたスペクトル包絡の山や谷の位置を変化させることによりスペクトル包絡の形状を変形させる変形部である。具体的には、スペクトル包絡変形部56dは、スペクトル包絡に対して所定の反転軸を設定して、その反転軸を中心として山や谷の位置を反転させる。   The spectrum envelope deformation unit 56d is a deformation unit that deforms the shape of the spectrum envelope by changing the positions of the peaks and valleys of the extracted spectrum envelope. Specifically, the spectrum envelope deforming unit 56d sets a predetermined inversion axis with respect to the spectrum envelope, and inverts the positions of peaks and valleys around the inversion axis.

スペクトル生成部56eは、スペクトル微細構造抽出部56bにより抽出されたスペクトル微細構造と、スペクトル包絡変形部56dにより変形されたスペクトル包絡とを合成して防聴音のスペクトルを生成する生成部である。   The spectrum generation unit 56e is a generation unit that generates a spectrum of hearing loss by synthesizing the spectrum fine structure extracted by the spectrum fine structure extraction unit 56b and the spectrum envelope deformed by the spectrum envelope deformation unit 56d.

周波数強度補正量算出部56fは、スペクトル生成部56eにより生成された防聴音のスペクトルにおけるスペクトル強度の補正量を算出する算出部である。具体的には、周波数強度補正量算出部56fは、スペクトル分析部56aから、さまざまな話者の音声信号のスペクトルの情報を受信し、受信したスペクトルの平均値(原音のスペクトル平均)を算出する。   The frequency intensity correction amount calculation unit 56f is a calculation unit that calculates the correction amount of the spectrum intensity in the spectrum of the hearing aid sound generated by the spectrum generation unit 56e. Specifically, the frequency intensity correction amount calculation unit 56f receives the spectrum information of the speech signals of various speakers from the spectrum analysis unit 56a, and calculates the average value of the received spectrum (the spectrum average of the original sound). .

また、周波数強度補正量算出部56fは、スペクトル生成部56eからさまざまな話者の音声信号に基づいて生成された防聴音のスペクトルの情報を受信し、受信したスペクトルの平均値(防聴音のスペクトル平均)を算出する。   Further, the frequency intensity correction amount calculation unit 56f receives information on the spectrum of the hearing loss generated based on the voice signals of various speakers from the spectrum generation unit 56e, and receives the average value of the received spectrum (the spectrum of the hearing loss) Average).

その後、周波数強度補正量算出部56fは、防聴音のスペクトル平均から原音のスペクトル平均を差し引いたスペクトルの増加分(防聴音のスペクトル増加分)を算出する。そして、周波数強度補正量算出部56fは、防聴音のスペクトル増加分が正の値である周波数帯域を検出し、その周波数帯域における防聴音のスペクトル増加分をスペクトル強度の補正量として設定する。   Thereafter, the frequency intensity correction amount calculation unit 56f calculates an increase in spectrum (a spectrum increase in the hearing-aid sound) by subtracting the spectrum average in the original sound from the spectrum average in the hearing-aid sound. Then, the frequency intensity correction amount calculation unit 56f detects a frequency band in which the increase in the spectrum of the hearing loss is a positive value, and sets the increase in the spectrum of the hearing loss in that frequency band as the correction amount of the spectrum intensity.

周波数強度補正部56gは、スペクトル生成部56eにより生成された防聴音のスペクトルの所定の周波数領域におけるスペクトル強度を補正し、スペクトル強度が補正された防聴音のスペクトルを音声生成部54に出力する補正部である。具体的には、周波数強度補正部56gは、周波数強度補正量算出部56fにより算出された補正量の情報に基づいて、防聴音のスペクトルのスペクトル強度を補正する。   The frequency intensity correction unit 56g corrects the spectrum intensity in a predetermined frequency region of the spectrum of the hearing loss generated by the spectrum generation unit 56e, and outputs the spectrum of the hearing loss whose spectrum intensity is corrected to the sound generation unit 54. Part. Specifically, the frequency intensity correction unit 56g corrects the spectrum intensity of the hearing-aid sound spectrum based on the correction amount information calculated by the frequency intensity correction amount calculation unit 56f.

つぎに、実施例2に係る音声処理の処理手順について説明する。図8は、実施例2に係る音声処理の処理手順を示すフローチャートである。図8に示すように、まず、音声処理装置50の音声入力受付部53は、マイクロフォンから音声信号の入力を受け付ける(ステップS201)。   Next, a processing procedure of audio processing according to the second embodiment will be described. FIG. 8 is a flowchart of the sound processing procedure according to the second embodiment. As shown in FIG. 8, first, the voice input receiving unit 53 of the voice processing device 50 receives an input of a voice signal from the microphone (step S201).

そして、スペクトル分析部56aは、入力された音声信号の音声波形のスペクトル分析を実行し、ケプストラム係数における高ケフレンシ部および低ケフレンシ部を算出する(ステップS202)。   Then, the spectrum analysis unit 56a performs spectrum analysis of the speech waveform of the input speech signal, and calculates a high quefrency portion and a low quefrency portion in the cepstrum coefficient (step S202).

続いて、スペクトル微細構造抽出部56bは、スペクトル分析部56aから高ケフレンシ部を取得して、スペクトル微細構造を抽出する(ステップS203)。そして、スペクトル包絡抽出部56cは、スペクトル分析部56aから低ケフレンシ部を取得して、スペクトル包絡を抽出する(ステップS204)。   Subsequently, the spectral fine structure extraction unit 56b acquires a high quefrency part from the spectral analysis unit 56a and extracts the spectral fine structure (step S203). And the spectrum envelope extraction part 56c acquires a low quefrency part from the spectrum analysis part 56a, and extracts a spectrum envelope (step S204).

その後、スペクトル包絡変形部56dは、スペクトル包絡抽出部56cにより抽出されたスペクトル包絡の山と谷の位置を変化させることによりスペクトル包絡を変形する(ステップS205)。   Thereafter, the spectrum envelope deforming unit 56d deforms the spectrum envelope by changing the positions of the peaks and valleys of the spectrum envelope extracted by the spectrum envelope extracting unit 56c (step S205).

そして、スペクトル生成部56eは、スペクトル包絡変形部56dにより変形されたスペクトル包絡と、スペクトル微細構造抽出部56bにより抽出されたスペクトル微細構造とを合成した防聴音のスペクトルを生成する(ステップS206)。   Then, the spectrum generation unit 56e generates a spectrum of hearing loss that combines the spectrum envelope deformed by the spectrum envelope deformation unit 56d and the spectrum fine structure extracted by the spectrum fine structure extraction unit 56b (step S206).

続いて、周波数強度補正部56gは、スペクトル生成部56eにより生成された防聴音のスペクトルのあらかじめ設定された周波数領域におけるスペクトル強度を補正する(ステップS207)。このスペクトル強度の補正量の設定手順は、後に詳しく説明する。   Subsequently, the frequency intensity correction unit 56g corrects the spectrum intensity in the preset frequency region of the spectrum of the hearing aid sound generated by the spectrum generation unit 56e (step S207). The procedure for setting the correction amount of the spectral intensity will be described in detail later.

そして、音声生成部54は、周波数強度補正部56gによりスペクトル強度が補正された防聴音のスペクトルから防聴音の音声信号を生成する(ステップS208)。そして、音声出力部55は、音声生成部54により生成された防聴音の音声信号をスピーカに出力する(ステップS209)。   Then, the sound generation unit 54 generates a hearing-aid sound signal from the hearing-aid spectrum whose spectrum intensity is corrected by the frequency intensity correction unit 56g (step S208). Then, the audio output unit 55 outputs the audio signal of the hearing-proof sound generated by the audio generation unit 54 to the speaker (step S209).

その後、制御部56は、防聴音の出力処理の終了指示がなされたか否かを調べ(ステップS210)、終了指示がなされた場合には(ステップS210,Yes)、この処理を終了する。終了指示がなされていない場合には(ステップS210,No)、ステップS201に移行して、それ以後の処理を繰り返す。   Thereafter, the control unit 56 checks whether or not an instruction to end the hearing-proof sound output process has been issued (step S210), and if an instruction to end is given (step S210, Yes), the process ends. If no termination instruction has been given (No at step S210), the process proceeds to step S201, and the subsequent processing is repeated.

つぎに、スペクトル強度補正量の設定処理の処理手順について説明する。図9は、スペクトル強度補正量の設定処理の処理手順を示すフローチャートである。図9に示すように、まず、音声処理装置50の周波数強度補正量算出部56fは、スペクトル分析部56aから入力音声のスペクトルの情報を受信して、その情報を蓄積する(ステップS301)。   Next, a processing procedure for setting the spectral intensity correction amount will be described. FIG. 9 is a flowchart showing a processing procedure for setting the spectral intensity correction amount. As shown in FIG. 9, first, the frequency intensity correction amount calculation unit 56f of the speech processing device 50 receives the spectrum information of the input speech from the spectrum analysis unit 56a and accumulates the information (step S301).

また、周波数強度補正量算出部56fは、周波数強度補正量算出部56fは、スペクトル生成部56eから入力音声に基づいて生成された防聴音のスペクトルの情報を取得して、その情報を蓄積する(ステップS302)。   Further, the frequency intensity correction amount calculation unit 56f acquires the information of the spectrum of the hearing-aid sound generated based on the input sound from the spectrum generation unit 56e, and accumulates the information ( Step S302).

その後、周波数強度補正量算出部56fは、入力音声のスペクトルの平均(原音のスペクトル平均)を算出する(ステップS303)。また、周波数強度補正量算出部56fは、防聴音のスペクトルの平均(防聴音のスペクトル平均)を算出する(ステップS304)。   Thereafter, the frequency intensity correction amount calculating unit 56f calculates the average of the spectrum of the input sound (the average of the spectrum of the original sound) (step S303). Further, the frequency intensity correction amount calculation unit 56f calculates the average of the spectrum of the hearing loss (the spectrum average of the hearing loss) (step S304).

そして、周波数強度補正量算出部56fは、防聴音のスペクトル平均から入力音声信号のスペクトル平均を差し引いたスペクトルの増加分(防聴音のスペクトル増加分)を算出する(ステップS305)。   Then, the frequency intensity correction amount calculation unit 56f calculates an increase in spectrum (a decrease in the spectrum of the hearing loss) obtained by subtracting the spectrum average of the input sound signal from the spectrum average of the hearing loss (step S305).

その後、周波数強度補正量算出部56fは、防聴音のスペクトル増加分が正の値である周波数帯域を検出し(ステップS306)、その周波数帯域における防聴音のスペクトル増加分をスペクトル強度の補正量として設定する(ステップS307)。   Thereafter, the frequency intensity correction amount calculation unit 56f detects a frequency band in which the increase in the spectrum of the hearing loss is a positive value (step S306), and uses the increase in the spectrum of the hearing loss in that frequency band as the correction amount of the spectrum intensity. Setting is performed (step S307).

なお、上記実施例2では、周波数強度補正部56gが、防聴音のスペクトルのスペクトル強度をあらかじめ設定された補正量だけ自動的に補正することとしたが、周波数強度補正部56gが、入力部51を介してユーザにより入力された補正量を受け付け、その補正量分だけ防聴音のスペクトルのスペクトル強度を補正することとしてもよい。   In the second embodiment, the frequency intensity correction unit 56g automatically corrects the spectrum intensity of the spectrum of the hearing-aid sound by a preset correction amount. However, the frequency intensity correction unit 56g has the input unit 51. It is also possible to accept the correction amount input by the user via the, and to correct the spectrum intensity of the hearing-aid sound spectrum by the correction amount.

この場合、周波数強度補正部56gは、図6に示したような防聴音のスペクトル増加分の情報を表示部52に出力するとともに、周波数領域ごとにスペクトル強度の補正量の指定をユーザから受け付けるスペクトル強度補正受付画面を表示部52に出力する。   In this case, the frequency intensity correction unit 56g outputs the information on the increase in the spectrum of the hearing loss sound as shown in FIG. 6 to the display unit 52, and also accepts the specification of the correction amount of the spectrum intensity for each frequency region from the user. The intensity correction acceptance screen is output to the display unit 52.

図10は、表示部52に出力されるスペクトル強度補正受付画面60の一例を示す図である。ユーザは、防聴音が甲高い音になることを防止するため、防聴音のスペクトル増加分の情報を参照し、周波数帯域ごとにマウス等を操作してスペクトル強度の増減を調節するスライダを動かし、スペクトル強度の補正量を決定する。   FIG. 10 is a diagram illustrating an example of the spectrum intensity correction reception screen 60 output to the display unit 52. In order to prevent the hearing loss from becoming a high pitched sound, the user refers to the information on the increase in the spectrum of the hearing loss, operates the mouse for each frequency band to move the slider that adjusts the increase / decrease of the spectrum intensity, Determine the amount of intensity correction.

そして、周波数強度補正部56gは、このスペクトル強度の補正量の情報を受け付け、受け付けた補正量の情報に基づいて防聴音のスペクトルのスペクトル強度の補正をおこなう。   Then, the frequency intensity correction unit 56g receives the information on the correction amount of the spectrum intensity, and corrects the spectrum intensity of the spectrum of the hearing loss based on the received information on the correction amount.

上述してきたように、実施例2によれば、スペクトル微細構造抽出部56bが、話者の音声信号からスペクトル微細構造を抽出し、スペクトル生成部56eが、抽出されたスペクトル微細構造と所定のスペクトル包絡とを合成することにより話者の音声に被せて出力される防聴音のスペクトルを生成し、周波数強度補正部56gが、生成されたスペクトルの所定の周波数領域におけるスペクトル強度を抑制することにより当該スペクトルを補正することとしたので、防聴音が甲高い音になる原因となる周波数領域のスペクトル強度を抑制することにより、人に不快感を与えてしまうことを効果的に防止することができる。   As described above, according to the second embodiment, the spectral fine structure extracting unit 56b extracts the spectral fine structure from the speech signal of the speaker, and the spectrum generating unit 56e uses the extracted spectral fine structure and the predetermined spectrum. By synthesizing the envelope, the spectrum of the hearing loss sound that is output over the speaker's voice is generated, and the frequency intensity correction unit 56g suppresses the spectrum intensity in a predetermined frequency region of the generated spectrum. Since the spectrum is corrected, it is possible to effectively prevent the person from feeling uncomfortable by suppressing the spectrum intensity in the frequency region that causes the hearing-proof sound to become a high-pitched sound.

また、実施例2によれば、周波数強度補正量算出部56fが、話者の音声信号から抽出されたスペクトル微細構造および所定のスペクトル包絡を合成することにより生成された防聴音のスペクトルと、話者の音声信号から得られるスペクトルとの差に基づいてスペクトル強度の補正量を設定することとしたので、防聴音が甲高い音になる原因となる周波数領域のスペクトル強度の補正量を適切に設定することができる。   In addition, according to the second embodiment, the frequency intensity correction amount calculation unit 56f combines the spectrum fine structure extracted from the speech signal of the speaker and the predetermined spectrum envelope, and the spectrum of the hearing loss sound, Since the spectrum intensity correction amount is set based on the difference from the spectrum obtained from the person's voice signal, the spectrum intensity correction amount in the frequency domain that causes the hearing-proof sound to become a high-pitched sound is set appropriately. be able to.

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施例にて実施されてもよいものである。   Although the embodiments of the present invention have been described so far, the present invention can be implemented in various different embodiments within the scope of the technical idea described in the claims other than the embodiments described above. Is also good.

また、上記実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。   In addition, among the processes described in the above embodiment, all or part of the processes described as being automatically performed can be manually performed, or the processes described as being manually performed can be performed. All or a part can be automatically performed by a known method. In addition, the processing procedure, control procedure, specific name, and information including various data and parameters shown in the above-described document and drawings can be arbitrarily changed unless otherwise specified.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。   Each component of each illustrated device is functionally conceptual and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured. Further, all or any part of each processing function performed in each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by wired logic.

なお、上記実施例で説明した音声処理方法は、あらかじめ用意されたプログラムをパーソナル・コンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。   The voice processing method described in the above embodiment can be realized by executing a program prepared in advance on a computer such as a personal computer or a workstation. This program can be distributed via a network such as the Internet. The program can also be executed by being recorded on a computer-readable recording medium such as a hard disk, a flexible disk (FD), a CD-ROM, an MO, and a DVD, and being read from the recording medium by the computer.

以上のように、本発明にかかる音声処理装置および音声処理方法は、話者の音声に被せて出力される音声が甲高い音になってしまうのを効果的に防止し、人に不快感を与えることなく話者のプライバシーを保護することが必要な音声処理システムに対して有用である。   As described above, the sound processing device and the sound processing method according to the present invention effectively prevent the sound output over the speaker's voice from becoming a high-pitched sound, and make the person uncomfortable. This is useful for speech processing systems that need to protect the privacy of the speaker without the need.

実施例1に係る音声処理の概念を説明する図である。It is a figure explaining the concept of the audio | voice process which concerns on Example 1. FIG. 実施例1における防聴音のスペクトログラムと従来の防聴音のスペクトログラムとの比較を示す図である。It is a figure which shows the comparison with the spectrogram of the hearing-aid sound in Example 1, and the spectrogram of the conventional hearing-aid sound. 実施例1に係る音声処理装置30の機能構成を示す図である。1 is a diagram illustrating a functional configuration of a voice processing device 30 according to a first embodiment. 実施例1に係る音声処理の処理手順を示すフローチャートである。3 is a flowchart illustrating a processing procedure of audio processing according to the first embodiment. 実施例2に係る音声処理を説明する図である。It is a figure explaining the audio | voice process which concerns on Example 2. FIG. スペクトル強度補正量40の算出方法について説明する図である。It is a figure explaining the calculation method of the spectrum intensity correction amount. 実施例2に係る音声処理装置50の機能構成を示す図である。It is a figure which shows the function structure of the audio | voice processing apparatus 50 which concerns on Example 2. FIG. 実施例2に係る音声処理の処理手順を示すフローチャートである。10 is a flowchart illustrating a processing procedure of audio processing according to the second embodiment. スペクトル強度補正量の設定処理の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the setting process of a spectrum intensity correction amount. 表示部52に出力されるスペクトル強度変更受付画面60の一例を示す図である。It is a figure which shows an example of the spectrum intensity change reception screen 60 output to the display part 52. FIG.

符号の説明Explanation of symbols

10 音声波形
11 スペクトログラム
12 短時間スペクトル
13 スペクトル包絡
14 スペクトル微細構造
15 スペクトル包絡データベース
16 置換したスペクトル包絡
17 防聴音のスペクトル
20 原音声のスペクトログラム
21 従来の防聴音のスペクトログラム
22 本実施例の防聴音のスペクトログラム
30 音声処理装置
31 入力部
32 表示部
33 音声入力受付部
34 スペクトル包絡データベース
35 音声生成部
36 音声出力部
37 制御部
37a スペクトル分析部
37b スペクトル微細構造抽出部
37c スペクトル包絡抽出部
37d スペクトル包絡選択部
37e スペクトル生成部
40 スペクトル強度補正量
50 音声処理装置
51 入力部
52 表示部
53 音声入力受付部
54 音声生成部
55 音声出力部
56 制御部
56a スペクトル分析部
56b スペクトル微細構造抽出部
56c スペクトル包絡抽出部
56d スペクトル包絡変形部
56e スペクトル生成部
56f 周波数強度補正量算出部
56g 周波数強度補正部
60 スペクトル強度補正受付画面
DESCRIPTION OF SYMBOLS 10 Speech waveform 11 Spectrogram 12 Short-time spectrum 13 Spectrum envelope 14 Spectrum fine structure 15 Spectrum envelope database 16 Replaced spectrum envelope 17 Spectrum of hearing loss 20 Spectrogram of original speech 21 Spectrogram of conventional hearing loss 21 Spectrogram of conventional hearing loss 22 Spectrogram 30 speech processing device 31 input unit 32 display unit 33 speech input reception unit 34 spectrum envelope database 35 speech generation unit 36 speech output unit 37 control unit 37a spectrum analysis unit 37b spectrum fine structure extraction unit 37c spectrum envelope extraction unit 37d spectrum envelope selection Unit 37e spectrum generation unit 40 spectrum intensity correction amount 50 audio processing device 51 input unit 52 display unit 53 audio input reception unit 54 audio generation unit 55 audio output unit 6 control unit 56a spectral analyzer 56b spectrum fine structure extracting unit 56c spectrum envelope extracting unit 56d spectrum envelope deforming unit 56e spectrum generating unit 56f frequency intensity correction amount calculation unit 56g frequency intensity corrector 60 spectral intensity correction acceptance screen

Claims (8)

話者の音声に被せて出力される音声の音声スペクトルを生成する音声処理装置であって、
異なる複数のスペクトル包絡に係るデータを記憶するスペクトル包絡データベースと、
話者の音声信号からスペクトル微細構造を抽出するスペクトル微細構造抽出手段と、
前記スペクトル包絡データベースに記憶されたスペクトル包絡に係るデータの中からスペクトル包絡に係るデータを選択するスペクトル包絡選択手段と、
前記スペクトル包絡選択手段により選択されたスペクトル包絡とスペクトル微細構造とを合成することにより話者の音声に被せて出力される音声の音声スペクトルを生成する音声スペクトル生成手段と
を備えたことを特徴とする音声処理装置。
A speech processing device that generates a speech spectrum of speech output over a speaker's speech,
A spectral envelope database for storing data relating to a plurality of different spectral envelopes;
Spectral fine structure extraction means for extracting the spectral fine structure from the speech signal of the speaker;
Spectrum envelope selection means for selecting data related to a spectrum envelope from data related to a spectrum envelope stored in the spectrum envelope database;
Voice spectrum generation means for generating a voice spectrum of a voice to be output over a speaker's voice by synthesizing the spectrum envelope selected by the spectrum envelope selection means and the spectrum fine structure. Voice processing device.
前記スペクトル包絡選択手段は、話者の音声の時間変化量が所定値以上である場合に前記スペクトル包絡データベースからスペクトル包絡に係るデータを新たに選択し、前記音声スペクトル生成手段は、前記スペクトル包絡選択手段により新たに選択されたスペクトル包絡とスペクトル微細構造とを合成することにより話者の音声に被せて出力される音声の音声スペクトルを新たに生成することを特徴とする請求項1に記載の音声処理装置。   The spectrum envelope selection means newly selects data related to a spectrum envelope from the spectrum envelope database when a temporal change amount of a speaker's voice is a predetermined value or more, and the voice spectrum generation means selects the spectrum envelope selection. The speech spectrum of claim 1, wherein a speech spectrum of the speech output over the speech of the speaker is newly generated by synthesizing the spectrum envelope newly selected by the means and the spectrum fine structure. Processing equipment. 前記スペクトル包絡選択手段は、前記スペクトル包絡データベースに記憶されたスペクトル包絡に係るデータの中からスペクトル包絡に係るデータをランダムに選択することを特徴とする請求項1または2に記載の音声処理装置。   The speech processing apparatus according to claim 1 or 2, wherein the spectrum envelope selection unit randomly selects data related to a spectrum envelope from data related to a spectrum envelope stored in the spectrum envelope database. 話者の音声信号からスペクトル包絡を抽出するスペクトル包絡抽出手段をさらに備え、前記スペクトル包絡選択手段は、前記スペクトル包絡抽出手段により抽出されたスペクトル包絡と、前記スペクトル包絡データベースにデータが記憶されたスペクトル包絡との間の類似度に基づいて、前記スペクトル包絡データベースに記憶されたスペクトル包絡に係るデータの中からスペクトル包絡に係るデータを選択することを特徴とする請求項1または2に記載の音声処理装置。   The apparatus further comprises spectrum envelope extraction means for extracting a spectrum envelope from the speech signal of the speaker, wherein the spectrum envelope selection means includes the spectrum envelope extracted by the spectrum envelope extraction means and a spectrum in which data is stored in the spectrum envelope database. The speech processing according to claim 1 or 2, wherein data related to a spectrum envelope is selected from data related to a spectrum envelope stored in the spectrum envelope database based on a similarity between the envelope and the envelope. apparatus. 話者の音声に被せて出力される音声の音声スペクトルを生成する音声処理装置であって、
話者の音声信号からスペクトル微細構造を抽出するスペクトル微細構造抽出手段と、
前記スペクトル微細構造抽出手段により抽出されたスペクトル微細構造と所定のスペクトル包絡とを合成することにより話者の音声に被せて出力される音声の音声スペクトルを生成する音声スペクトル生成手段と、
前記音声スペクトル生成手段により生成された音声スペクトルの所定の周波数領域におけるスペクトル強度を抑制することにより当該音声スペクトルを補正する周波数強度補正手段と
を備えたことを特徴とする音声処理装置。
A speech processing device that generates a speech spectrum of speech output over a speaker's speech,
Spectral fine structure extraction means for extracting the spectral fine structure from the speech signal of the speaker;
A voice spectrum generating means for generating a voice spectrum of a voice to be output over a speaker's voice by synthesizing the spectral fine structure extracted by the spectral fine structure extracting means and a predetermined spectral envelope;
An audio processing apparatus comprising: frequency intensity correcting means for correcting the audio spectrum by suppressing the spectrum intensity in a predetermined frequency region of the audio spectrum generated by the audio spectrum generating means.
前記周波数強度補正手段は、話者の音声信号から得られる音声スペクトルと、前記音声スペクトル生成手段により生成された音声スペクトルとの差に基づいてスペクトル強度の補正量を設定することを特徴とする請求項5に記載の音声処理装置。   The frequency intensity correction means sets a spectrum intensity correction amount based on a difference between a voice spectrum obtained from a voice signal of a speaker and a voice spectrum generated by the voice spectrum generation means. Item 6. The voice processing device according to Item 5. 話者の音声に被せて出力される音声の音声スペクトルを生成する音声処理方法であって、
話者の音声信号からスペクトル微細構造を抽出するスペクトル抽出工程と、
前記スペクトル微細構造抽出工程によりスペクトル微細構造が抽出された場合に、あらかじめスペクトル包絡データベースに記憶された異なる複数のスペクトル包絡に係るデータの中からスペクトル包絡に係るデータを選択するスペクトル包絡選択工程と、
前記スペクトル包絡選択工程により選択されたスペクトル包絡とスペクトル微細構造とを合成することにより話者の音声に被せて出力される音声の音声スペクトルを生成する音声スペクトル生成工程と
を含んだことを特徴とする音声処理方法。
A speech processing method for generating a speech spectrum of speech output over a speaker's speech,
A spectral extraction process for extracting the spectral fine structure from the speech signal of the speaker;
When a spectral fine structure is extracted by the spectral fine structure extraction step, a spectral envelope selection step of selecting data related to a spectral envelope from among a plurality of different spectral envelope data stored in advance in a spectral envelope database;
A speech spectrum generation step of generating a speech spectrum of speech output over a speaker's speech by synthesizing the spectrum envelope selected by the spectrum envelope selection step and the spectrum fine structure. Voice processing method.
話者の音声に被せて出力される音声の音声スペクトルを生成する音声処理方法であって、
話者の音声信号からスペクトル微細構造を抽出するスペクトル微細構造抽出工程と、
前記スペクトル微細構造抽出手段により抽出されたスペクトル微細構造と所定のスペクトル包絡とを合成することにより話者の音声に被せて出力される音声の音声スペクトルを生成する音声スペクトル生成工程と、
前記音声スペクトル生成工程により生成された音声スペクトルの所定の周波数領域におけるスペクトル強度を抑制することにより当該音声スペクトルを補正する周波数強度補正工程と
を含んだことを特徴とする音声処理方法。
A speech processing method for generating a speech spectrum of speech output over a speaker's speech,
A spectral fine structure extraction step for extracting the spectral fine structure from the speech signal of the speaker;
A speech spectrum generation step of generating a speech spectrum of a speech output over a speaker's speech by synthesizing the spectrum microstructure extracted by the spectrum microstructure extraction means and a predetermined spectrum envelope;
And a frequency intensity correction step of correcting the audio spectrum by suppressing a spectrum intensity in a predetermined frequency region of the audio spectrum generated by the audio spectrum generation step.
JP2006058095A 2006-03-03 2006-03-03 Audio processing apparatus and audio processing method Expired - Fee Related JP4785563B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006058095A JP4785563B2 (en) 2006-03-03 2006-03-03 Audio processing apparatus and audio processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006058095A JP4785563B2 (en) 2006-03-03 2006-03-03 Audio processing apparatus and audio processing method

Publications (2)

Publication Number Publication Date
JP2007233284A true JP2007233284A (en) 2007-09-13
JP4785563B2 JP4785563B2 (en) 2011-10-05

Family

ID=38553903

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006058095A Expired - Fee Related JP4785563B2 (en) 2006-03-03 2006-03-03 Audio processing apparatus and audio processing method

Country Status (1)

Country Link
JP (1) JP4785563B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009294642A (en) * 2008-06-06 2009-12-17 Fuji Xerox Co Ltd Method, system and program for synthesizing speech signal
JP2011123141A (en) * 2009-12-09 2011-06-23 Nippon Sheet Glass Environment Amenity Co Ltd Device and method for changing voice and voice information privacy system
JP2012037577A (en) * 2010-08-03 2012-02-23 Dainippon Printing Co Ltd Method and apparatus for modifying noise source to comfortable sound
WO2017068798A1 (en) * 2015-10-23 2017-04-27 武藤工業株式会社 Image-production adjustment method and apparatus based on color measurement

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03276998A (en) * 1990-03-27 1991-12-09 Matsushita Electric Works Ltd Environmental sound controller
JPH04282697A (en) * 1991-03-12 1992-10-07 Mazda Motor Corp Noise controller
JP2005084645A (en) * 2003-09-11 2005-03-31 Glory Ltd Masking device
JP2005534061A (en) * 2002-07-24 2005-11-10 アプライド マインズ インク Method and system for masking languages

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03276998A (en) * 1990-03-27 1991-12-09 Matsushita Electric Works Ltd Environmental sound controller
JPH04282697A (en) * 1991-03-12 1992-10-07 Mazda Motor Corp Noise controller
JP2005534061A (en) * 2002-07-24 2005-11-10 アプライド マインズ インク Method and system for masking languages
JP2005084645A (en) * 2003-09-11 2005-03-31 Glory Ltd Masking device

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009294642A (en) * 2008-06-06 2009-12-17 Fuji Xerox Co Ltd Method, system and program for synthesizing speech signal
JP2011123141A (en) * 2009-12-09 2011-06-23 Nippon Sheet Glass Environment Amenity Co Ltd Device and method for changing voice and voice information privacy system
JP2012037577A (en) * 2010-08-03 2012-02-23 Dainippon Printing Co Ltd Method and apparatus for modifying noise source to comfortable sound
WO2017068798A1 (en) * 2015-10-23 2017-04-27 武藤工業株式会社 Image-production adjustment method and apparatus based on color measurement
JP2017080913A (en) * 2015-10-23 2017-05-18 武藤工業株式会社 Drawing adjustment method and device with colorimetry

Also Published As

Publication number Publication date
JP4785563B2 (en) 2011-10-05

Similar Documents

Publication Publication Date Title
JP4761506B2 (en) Audio processing method and apparatus, program, and audio system
Lai et al. A deep denoising autoencoder approach to improving the intelligibility of vocoded speech in cochlear implant simulation
KR100643310B1 (en) Method and apparatus for disturbing voice data using disturbing signal which has similar formant with the voice signal
JP2009294642A (en) Method, system and program for synthesizing speech signal
JP2002014689A (en) Method and device for improving understandability of digitally compressed speech
KR20070066882A (en) Bandwidth extension of narrowband speech
JP2008233672A (en) Masking sound generation apparatus, masking sound generation method, program, and recording medium
Maruri et al. V-speech: Noise-robust speech capturing glasses using vibration sensors
Hummersone A psychoacoustic engineering approach to machine sound source separation in reverberant environments
Nathwani et al. Speech intelligibility improvement in car noise environment by voice transformation
WO2015129465A1 (en) Voice clarification device and computer program therefor
JPWO2010035438A1 (en) Speech analysis apparatus and speech analysis method
Kates Modeling the effects of single-microphone noise-suppression
JP4785563B2 (en) Audio processing apparatus and audio processing method
JP4680099B2 (en) Audio processing apparatus and audio processing method
JP2014130251A (en) Conversation protection system and conversation protection method
JP6349112B2 (en) Sound masking apparatus, method and program
EP2151820A1 (en) Method for bias compensation for cepstro-temporal smoothing of spectral filter gains
Zorilă et al. Near and far field speech-in-noise intelligibility improvements based on a time–frequency energy reallocation approach
JP6197367B2 (en) Communication device and masking sound generation program
Hussain et al. A speech intelligibility enhancement model based on canonical correlation and deep learning for hearing-assistive technologies
JP2011170113A (en) Conversation protection degree evaluation system and conversation protection degree evaluation method
Hussain et al. A Novel Speech Intelligibility Enhancement Model based on Canonical Correlation and Deep Learning
Kociński et al. Time-compressed speech intelligibility in different reverberant conditions
Pourmand et al. Computational auditory models in predicting noise reduction performance for wideband telephony applications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110712

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110712

R150 Certificate of patent or registration of utility model

Ref document number: 4785563

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140722

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees