JP2019086801A - Audio processing method and audio processing apparatus - Google Patents

Audio processing method and audio processing apparatus Download PDF

Info

Publication number
JP2019086801A
JP2019086801A JP2019046089A JP2019046089A JP2019086801A JP 2019086801 A JP2019086801 A JP 2019086801A JP 2019046089 A JP2019046089 A JP 2019046089A JP 2019046089 A JP2019046089 A JP 2019046089A JP 2019086801 A JP2019086801 A JP 2019086801A
Authority
JP
Japan
Prior art keywords
section
voice
pitch
unit
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019046089A
Other languages
Japanese (ja)
Other versions
JP6741105B2 (en
Inventor
嘉山 啓
Hiroshi Kayama
啓 嘉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Publication of JP2019086801A publication Critical patent/JP2019086801A/en
Application granted granted Critical
Publication of JP6741105B2 publication Critical patent/JP6741105B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Telephone Function (AREA)

Abstract

To facilitate setting of variables for controlling the quality of voices.SOLUTION: A feature quantity identifying unit 22 identifies feature quantities of object voices by analyzing a voice signal X. A section setting unit 24 sets a processable section Q correspondingly to the result of comparison of the feature quantities identified by the feature quantity identifying unit 22 and a threshold. A variables control unit 26 sets a control variable C for controlling voice quality regarding the processable section Q. A voice processing unit 28 generates a voice signal Y of a voice, resulting from control of voice quality in the processable section Q out of the object voices, corresponding to the control variable C.SELECTED DRAWING: Figure 2

Description

本発明は、音声の声質を制御する技術に関する。   The present invention relates to technology for controlling voice quality of speech.

音声の声質を制御する技術が従来から提案されている。例えば特許文献1には、合成音声の声質を制御するための声質変換パラメータを利用者からの指示に応じて経時的に変化させる構成が開示されている。   Techniques for controlling voice quality of speech have been conventionally proposed. For example, Patent Document 1 discloses a configuration in which voice conversion parameters for controlling voice quality of synthetic speech are temporally changed according to an instruction from a user.

特開2004−038071号公報Japanese Patent Application Publication No. 2004-038071

しかし、聴感的に自然な所望の声質の音声が再現されるように利用者が声質変換パラメータを適切に調整することは実際には困難である。音声や声質に関する専門的な知見が充分でない利用者にとって問題は特に深刻化する。以上の事情を考慮して、本発明は、音声の声質を制御するための変数の設定を容易化することを目的とする。   However, it is practically difficult for the user to properly adjust the voice conversion parameters so that the speech of the desired voice quality that is aurally natural is reproduced. The problem is particularly acute for users who do not have sufficient expertise in speech and voice quality. In view of the above circumstances, the present invention aims to facilitate setting of variables for controlling voice quality of speech.

以上の課題を解決するために、本発明の音声処理装置は、対象音声の特徴量を特定する特徴量特定手段と、特徴量と閾値との比較結果に応じて処理区間を設定する区間設定手段と、声質を制御するための制御変数を処理区間について設定する変数制御手段と、対象音声のうち処理区間の声質を制御変数に応じて制御した音声の音声信号を生成する音声処理手段とを具備する。以上の構成では、対象音声の特徴量に応じて設定された処理区間の声質が制御される。したがって、声質に関する専門的な知見(例えば対象音声のうち特定の声質に変換すべき区間の知識)を利用者が持たない場合でも、聴感的に自然な声質を再現することが可能である。   In order to solve the above problems, the speech processing apparatus according to the present invention comprises: feature quantity specifying means for specifying a feature quantity of the target speech; and section setting means for setting a processing section according to the comparison result of the feature quantity and the threshold value. And variable control means for setting a control variable for controlling voice quality for the processing section, and voice processing means for generating a voice signal of a voice in which voice quality of the processing section of the target voice is controlled according to the control variable. Do. In the above configuration, the voice quality of the processing section set according to the feature amount of the target voice is controlled. Therefore, even when the user does not have specialized knowledge on voice quality (for example, knowledge of the section of the target voice to be converted to a specific voice quality), it is possible to reproduce natural voice quality audibly.

本発明の好適な態様において、特徴量特定手段は、対象音声のうち特定の区間内での始点からの経過時間を特徴量として特定する。例えば、区間設定手段は、第1声質については経過時間が閾値を上回る区間を処理区間として設定し、第1声質とは別種の第2声質については経過時間が閾値を下回る区間を処理区間として設定する。以上の態様では、経過時間が閾値を上回る区間(例えば有声区間の末尾側の区間)と経過時間が閾値を下回る区間(例えば有声区間の先頭側の区間)とが声質の種類に応じて処理区間として設定される。したがって、聴感的に自然な複数種の声質を再現できるという利点がある。   In a preferred aspect of the present invention, the feature amount specifying means specifies an elapsed time from a start point in a specific section of the target speech as a feature amount. For example, the section setting means sets a section where the elapsed time exceeds the threshold for the first voice quality as a processing section, and sets a section where the elapsed time falls below the threshold for the second voice quality different from the first voice quality. Do. In the above aspect, a section where the elapsed time exceeds the threshold (for example, a section on the end side of the voiced section) and a section where the elapsed time is less than the threshold (for example, the section on the head of the voiced section) Set as Therefore, there is an advantage that it is possible to reproduce a plurality of voice qualities naturally audible.

対象音声の特定の区間の経過時間を特徴量として特定する構成では、特徴量特定手段は、例えば、対象音声の音高または音量を特徴量として特定し、区間設定手段は、対象音声の音高または音量と第1閾値との比較結果と、経過時間と第2閾値との比較結果とに応じて、処理区間を設定する。以上の態様では、経過時間に加えて対象音声の音高または音量が処理区間の設定に適用されるから、聴感的に自然な声質の音声を生成できるという前述の効果は格別に顕著である。また、対象音声の音高または音量が変動する時点を境界として特徴量特定手段が特定の区間を区分する構成によれば、例えば音符毎の発音の経過時間に応じて処理区間を設定できる(例えば各音符の末尾側または先頭側の区間を処理区間として設定できる)という利点がある。   In the configuration in which the elapsed time of the specific section of the target voice is specified as the feature quantity, the feature quantity specifying unit specifies, for example, the pitch or volume of the target voice as the feature quantity, and the section setting unit determines the pitch of the target voice Alternatively, the processing section is set according to the comparison result of the volume and the first threshold and the comparison result of the elapsed time and the second threshold. In the above aspect, since the pitch or volume of the target voice is applied to the setting of the processing section in addition to the elapsed time, the above-described effect of being able to generate a voice with natural voice quality audibly is particularly remarkable. Further, according to the configuration in which the feature amount specifying unit divides a specific section with the point at which the target voice changes in pitch or volume as a boundary, for example, the processing section can be set according to the elapsed time of sound generation for each note (for example, A section on the end side or the top side of each note can be set as a processing section).

本発明の好適な態様において、区間設定手段は、自動設定モードでは対象音声の特徴量に応じて処理区間を設定し、手動設定モードでは利用者からの指示に応じて処理区間を設定する。以上の態様では、自動設定モードと手動設定モードとが用意されるから、例えば声質に関する充分な知識がある利用者は手動設定モードで自身の所望の声質を再現し、声質に関する知識が不充分である利用者は自動設定モードで聴感的に自然な声質を再現できるという利点がある。   In a preferred aspect of the present invention, the section setting means sets a processing section in accordance with the feature amount of the target voice in the automatic setting mode, and sets a processing section in accordance with an instruction from the user in the manual setting mode. In the above aspect, since the automatic setting mode and the manual setting mode are prepared, for example, a user who has sufficient knowledge of voice quality can reproduce his / her desired voice quality in the manual setting mode, and the knowledge about voice quality is insufficient. Some users have the advantage of being able to audibly reproduce natural voice quality in the automatic setting mode.

本発明の好適な態様において、区間設定手段は、複数種の特徴量のうち利用者からの指示に応じた特徴量と閾値との比較結果に応じて処理区間を設定する。以上の態様では、複数の特徴量のうち利用者からの指示に応じた特徴量が処理区間の設定に適用されるから、利用者の意図や嗜好に適合した声質を再現できるという利点がある。   In a preferable aspect of the present invention, the section setting means sets a processing section according to a comparison result of a feature amount according to an instruction from a user among a plurality of types of feature amounts and a threshold. In the above aspect, the feature quantity according to the instruction from the user among the plurality of feature quantities is applied to setting of the processing section, so that there is an advantage that voice quality adapted to the user's intention and preference can be reproduced.

本発明の好適な態様において、区間設定手段は、利用者からの指示に応じて閾値を可変に設定する。以上の態様では、処理区間の設定のために特徴量と比較される閾値が利用者からの指示に応じて可変に設定されるから、閾値が所定値に固定された構成と比較して利用者の意図や嗜好を反映した処理区間の声質が制御された音声を再現できるという利点がある。   In a preferred aspect of the present invention, the section setting means variably sets the threshold according to an instruction from the user. In the above aspect, since the threshold value to be compared with the feature value is variably set according to the instruction from the user for setting the processing section, the user is compared with the configuration in which the threshold value is fixed to a predetermined value. There is an advantage that it is possible to reproduce a voice in which the voice quality of the processing section reflecting the intention and preference of the voice is controlled.

特徴量特定部が特徴量を特定するための構成は任意である。例えば、対象音声の音声信号の解析で特徴量を特定する構成や、対象音声に対応する楽曲の各音符を指定する楽曲データから特徴量を特定する構成が採用される。音声信号を解析する構成によれば、対象音声の特徴量を正確に特定できるという利点があり、楽曲データを利用する構成によれば、対象音声の特徴量を簡便に特定できるという利点がある。なお、また、特徴量特定手段が、第1解析モードでは、対象音声の音声信号の解析で特徴量を特定し、第2解析モードでは、対象音声に対応する楽曲の各音符を指定する楽曲データから特徴量を特定する構成も好適である。   The configuration for the feature amount specifying unit to specify the feature amount is arbitrary. For example, a configuration for specifying a feature amount by analysis of an audio signal of a target sound, or a configuration for specifying a feature amount from music data specifying each note of a music corresponding to the target sound is adopted. According to the configuration for analyzing the audio signal, there is an advantage that the feature amount of the target voice can be specified accurately, and according to the configuration using the music data, there is an advantage that the feature amount of the target voice can be specified easily. Note that, in the first analysis mode, the feature amount specifying unit specifies the feature amount by analysis of the audio signal of the target sound, and in the second analysis mode, music data specifying each note of the music corresponding to the target sound. A configuration for specifying feature quantities from the above is also suitable.

本発明の好適な態様において、特徴量特定手段は、対象音声の合成を指示する合成データから特徴量を特定し、音声処理手段は、合成データを適用した音声合成処理で、処理区間の声質が制御変数に応じて制御された音声の音声信号を生成する。以上の態様では、対象音声の音声信号を必要とせずに、処理区間の声質を制御した音声の音声信号を生成できるという利点がある。   In a preferred aspect of the present invention, the feature amount specifying unit specifies a feature amount from synthesis data instructing synthesis of a target voice, and the speech processing unit is a speech synthesis process to which the synthesis data is applied. An audio signal of an audio controlled according to the control variable is generated. The above aspect has an advantage that it is possible to generate a voice signal of voice in which the voice quality of the processing section is controlled without requiring the voice signal of the target voice.

以上の各態様に係る音声処理装置は、音声処理に専用されるDSP(Digital Signal Processor)等のハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る音声処理装置の動作方法(音声処理方法)としても特定される。   The voice processing device according to each of the above aspects is realized by hardware (electronic circuit) such as DSP (Digital Signal Processor) dedicated to voice processing, and is a general-purpose arithmetic processing device such as CPU (Central Processing Unit) It is also realized by the collaboration of the program and the program. The program of the present invention may be provided in the form of being stored in a computer readable recording medium and installed on the computer. The recording medium is, for example, a non-transitory recording medium, and is preferably an optical recording medium (optical disc) such as a CD-ROM, but any known medium such as a semiconductor recording medium or a magnetic recording medium may be used. Recording media of the form Also, for example, the program of the present invention may be provided in the form of distribution via a communication network and installed on a computer. The present invention is also specified as an operation method (voice processing method) of the voice processing device according to each aspect described above.

本発明の第1実施形態に係る音声処理装置の構成図である。It is a block diagram of the speech processing unit concerning a 1st embodiment of the present invention. 音声処理装置の機能的な構成図である。It is a functional block diagram of a speech processing unit. 特徴量特定部が実行する音声解析処理のフローチャートである。It is a flowchart of the voice analysis process which a feature-value identification part performs. 音声処理装置の動作の説明図である。It is explanatory drawing of operation | movement of a speech processing apparatus. 音声処理装置の動作のフローチャートである。It is a flowchart of operation | movement of an audio processing apparatus. 閾値設定画面の模式図である。It is a schematic diagram of a threshold value setting screen. 第2実施形態における動作モード選択画面の模式図である。It is a schematic diagram of the operation mode selection screen in 2nd Embodiment. 第2実施形態における処理区間(ボーカルフライ)の設定の説明図である。It is explanatory drawing of the setting of the process area (vocal fly) in 2nd Embodiment. 第3実施形態における特徴量選択画面の模式図である。It is a schematic diagram of the feature-value selection screen in 3rd Embodiment. 第3実施形態における閾値設定画面の模式図である。It is a schematic diagram of the threshold value setting screen in 3rd Embodiment. 第4実施形態における音声処理装置の機能的な構成図である。It is a functional block diagram of the speech processing unit in a 4th embodiment. 第5実施形態における音声処理装置の機能的な構成図である。It is a functional block diagram of the speech processing unit in a 5th embodiment. 第5実施形態における動作モード選択画面の模式図である。It is a schematic diagram of the operation mode selection screen in 5th Embodiment. 第5実施形態における特徴量選択画面の模式図である。It is a schematic diagram of the feature-value selection screen in 5th Embodiment. 第5実施形態における閾値設定画面の模式図である。It is a schematic diagram of the threshold value setting screen in 5th Embodiment. 第6実施形態における音声処理装置の機能的な構成図である。It is a functional block diagram of the speech processing unit in a 6th embodiment. 第7実施形態における音声処理装置の機能的な構成図である。It is a functional block diagram of the speech processing unit in a 7th embodiment. 第7実施形態における音声処理装置の動作の説明図である。It is explanatory drawing of operation | movement of the speech processing unit in 7th Embodiment. 第7実施形態の動作のフローチャートである。It is a flowchart of operation | movement of 7th Embodiment. 第8実施形態における音声処理装置の動作の説明図である。It is explanatory drawing of operation | movement of the speech processing unit in 8th Embodiment. 第8実施形態の動作のフローチャートである。It is a flowchart of operation | movement of 8th Embodiment. 第8実施形態の動作のフローチャートである。It is a flowchart of operation | movement of 8th Embodiment.

<第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置100の構成図である。図1に例示される通り、音声処理装置100には信号供給装置200が接続される。信号供給装置200は、音声処理装置100による処理対象の音声(以下「対象音声」という)の波形を表す音声信号Xを音声処理装置100に供給する。第1実施形態の対象音声は、特定の楽曲(以下「対象楽曲」という)を歌唱した歌唱音声である。周囲の音声を収音して音声信号Xを生成する収音装置や、可搬型または内蔵型の記録媒体から音声信号Xを取得して音声処理装置100に供給する再生装置や、通信網から音声信号Xを受信して音声処理装置100に供給する通信装置が、信号供給装置200として好適に採用され得る。なお、信号供給装置200を音声処理装置100と一体に構成することも可能である。
First Embodiment
FIG. 1 is a block diagram of an audio processing apparatus 100 according to the first embodiment of the present invention. As illustrated in FIG. 1, a signal supply device 200 is connected to the audio processing device 100. The signal supply device 200 supplies the audio processing device 100 with an audio signal X representing a waveform of audio to be processed by the audio processing device 100 (hereinafter referred to as “target audio”). The target voice of the first embodiment is a singing voice that sings a specific music (hereinafter, referred to as “target music”). A sound pickup device that picks up surrounding sound to generate a sound signal X, a reproduction device that obtains the sound signal X from a portable or built-in recording medium and supplies it to the sound processing device 100, sound from a communication network A communication device that receives the signal X and supplies it to the speech processing device 100 may be suitably adopted as the signal supply device 200. It is also possible to configure the signal supply device 200 integrally with the voice processing device 100.

音声処理装置100は、信号供給装置200から供給される音声信号Xが表す対象音声の声質を調整することで音声信号Yを生成する信号処理装置である。第1実施形態では、音声信号Xの対象音声を気息音(breathy)に変換する場合を例示する。気息音は、気息性が豊富な音声(囁き声)であり、声帯の振動に起因した調波成分(基音成分および複数の倍音成分)に対して非調波成分(周波数軸上で各調波成分の間隙内に存在する音響成分)が相対的に優勢な音声を意味する。   The voice processing device 100 is a signal processing device that generates the voice signal Y by adjusting the voice quality of the target voice represented by the voice signal X supplied from the signal supply device 200. In the first embodiment, the case of converting the target voice of the voice signal X into breathy sound (breathy) is illustrated. The breath sound is a voice with abundant breathiness (spear voice), and each harmonic on the frequency axis with respect to the harmonic component (basic sound component and multiple harmonic components) caused by vibration of vocal cords The sound component present in the gap of the component means a relatively dominant voice.

図1に例示される通り、音声処理装置100は、演算処理装置10と記憶装置12と表示装置14と操作機器16と放音装置18とを具備するコンピュータシステムで実現される。演算処理装置10は、記憶装置12に記憶されたプログラムを実行することで各種の制御処理および演算処理を実行する。記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。   As illustrated in FIG. 1, the audio processing device 100 is realized by a computer system including an arithmetic processing unit 10, a storage device 12, a display device 14, an operation device 16, and a sound emitting device 18. Arithmetic processing unit 10 executes various control processing and arithmetic processing by executing a program stored in storage device 12. The storage unit 12 stores programs executed by the arithmetic processing unit 10 and various data used by the arithmetic processing unit 10. A well-known recording medium such as a semiconductor recording medium or a magnetic recording medium, or a combination of a plurality of types of recording medium is arbitrarily adopted as the storage device 12.

表示装置14(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。操作機器16は、音声処理装置100に対する各種の指示のために利用者が操作する入力装置である。利用者が押下する複数の操作子のほか、表示装置14と一体に構成されたタッチパネルを操作機器16として採用することも可能である。放音装置18(例えばスピーカやヘッドホン)は、演算処理装置10が生成した音声信号Yに応じた音声(すなわち対象音声の声質を変換した音声)を再生する。なお、音声信号Yをデジタルからアナログに変換するD/A変換器や音声信号Yを増幅する増幅器の図示は便宜的に省略した。   The display device 14 (for example, a liquid crystal display panel) displays an image instructed from the arithmetic processing unit 10. The operation device 16 is an input device operated by the user for various instructions to the voice processing device 100. In addition to a plurality of operators pressed by the user, a touch panel integrally formed with the display device 14 can be adopted as the operation device 16. The sound emitting device 18 (for example, a speaker or a headphone) reproduces a voice corresponding to the voice signal Y generated by the arithmetic processing unit 10 (that is, a voice obtained by converting the voice quality of the target voice). The illustration of a D / A converter for converting the audio signal Y from digital to analog and an amplifier for amplifying the audio signal Y are omitted for convenience.

図2は、第1実施形態の音声処理装置100の機能的な構成図である。図2に例示される通り、演算処理装置10は、記憶装置12に記憶されたプログラムを実行することで、音声信号Xから音声信号Yを生成するための複数の機能(特徴量特定部22,区間設定部24,変数制御部26,音声処理部28)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置10の一部の機能を実現する構成も採用され得る。   FIG. 2 is a functional block diagram of the speech processing apparatus 100 according to the first embodiment. As exemplified in FIG. 2, the arithmetic processing unit 10 executes a program stored in the storage unit 12 to generate a plurality of functions (a feature amount specifying unit 22 for generating an audio signal Y from the audio signal X). The section setting unit 24, the variable control unit 26, and the voice processing unit 28) are realized. A configuration in which each function of the arithmetic processing unit 10 is distributed to a plurality of units or a configuration in which a dedicated electronic circuit (for example, a DSP) realizes a part of the functions of the arithmetic processing unit 10 may be adopted.

特徴量特定部22は、対象音声の特徴量を順次に特定する。第1実施形態の特徴量特定部22は、信号供給装置200から供給される音声信号Xを解析することで対象音声の音高(ピッチ)Pと経過時間Eとを順次に抽出する。音高Pは、離散的な複数の音高(例えば音階を構成する複数の音高)の何れかに設定される。経過時間Eは、対象音声のうち有声音が存在する区間(以下「有声区間」という)内での始点からの経過時間を意味する。したがって、有声区間の継続長が長いほど経過時間Eは有声区間の始点から終点にかけて大きい数値まで増加する。有声区間は、各調波成分が周波数軸上で略等間隔に配列する有声音の調波構造が観測される区間(明確な調波構造が観測されない無声区間と音声が存在しない無音区間とを除外した区間)である。   The feature amount specifying unit 22 sequentially specifies the feature amounts of the target sound. The feature quantity specifying unit 22 of the first embodiment analyzes the audio signal X supplied from the signal supply device 200 to extract the pitch (pitch) P and the elapsed time E of the target audio sequentially. The pitch P is set to any one of a plurality of discrete pitches (for example, a plurality of pitches constituting a scale). The elapsed time E means an elapsed time from the start point in a section (hereinafter referred to as a "voiced section") in which a voiced sound is present in the target voice. Therefore, as the duration of the voiced section is longer, the elapsed time E increases to a larger value from the start to the end of the voiced section. The voiced section is a section in which the harmonic structure of the voiced sound in which each harmonic component is arranged at substantially equal intervals on the frequency axis (a silent section in which a clear harmonic structure is not observed and a silent section in which no voice exists). Section excluded).

図3は、第1実施形態の特徴量特定部22が特徴量(音高P,経過時間E)を特定する動作(以下「音声解析処理」という)のフローチャートであり、図4は、音声解析装置の動作の説明図である。図3の音声解析処理は、音声信号Xを時間軸上で区分した単位区間(フレーム)毎に順次に実行される。図4では、「さいた(咲いた)」と発音した対象音声の音声信号Xの概略的な波形が例示されている。   FIG. 3 is a flowchart of an operation (hereinafter referred to as “voice analysis process”) in which the feature amount specifying unit 22 of the first embodiment specifies a feature amount (pitch P, elapsed time E), and FIG. It is explanatory drawing of operation | movement of an apparatus. The speech analysis process of FIG. 3 is sequentially performed for each unit section (frame) in which the speech signal X is divided on the time axis. FIG. 4 exemplarily shows a schematic waveform of the audio signal X of the target voice pronounced “Saita”.

音声解析処理を開始すると、特徴量特定部22は、音声信号Xの単位区間内の音高p0を抽出する(SA1)。音高p0は、音声信号Xの基本周波数(ピッチ)である。音高p0の時間変化が図4では音声信号Xの波形に併記されている。音声信号Xの音高p0の抽出には公知の技術(ピッチ抽出技術)が任意に採用される。   When the voice analysis process is started, the feature amount specifying unit 22 extracts the pitch p0 in the unit section of the voice signal X (SA1). The pitch p0 is the fundamental frequency (pitch) of the audio signal X. The time change of the pitch p0 is also shown in the waveform of the audio signal X in FIG. A known technique (pitch extraction technique) is arbitrarily adopted to extract the pitch p0 of the audio signal X.

特徴量特定部22は、単位区間が有声区間に該当するか否かを判定する(SA2)。図4に例示される通り、明確な調波構造が観測される有声区間v0では有意な音高p0が抽出されるのに対し、有声区間v0以外の区間(無声区間や無音区間)では有意な音高p0は抽出されないという傾向がある。以上の傾向を考慮して、第1実施形態の特徴量特定部22は、有意な音高p0がステップSA1で抽出されたか否かに応じて、単位区間が有声区間v0に包含されるか否かを判定する。   The feature amount identifying unit 22 determines whether the unit section corresponds to a voiced section (SA2). As illustrated in FIG. 4, significant pitch p0 is extracted in the voiced section v0 in which a clear harmonic structure is observed, whereas it is significant in sections other than the voiced section v0 (silence section and silent section). There is a tendency that the pitch p0 is not extracted. In consideration of the above tendency, the feature amount specifying unit 22 of the first embodiment determines whether the unit section is included in the voiced section v0 according to whether or not the significant pitch p0 is extracted in step SA1. Determine if

単位区間が有声区間v0に該当する場合(SA2:YES)、特徴量特定部22は、経過時間e0に所定値(例えば1)を加算する(SA3)。他方、単位区間が有声区間v0に該当しない場合(SA2:NO)、特徴量特定部22は、経過時間e0をゼロに初期化する(SA4)。したがって、経過時間e0は、図4から理解される通り、有声区間v0の始点にてゼロに設定されて有声区間v0内で時間の経過とともに増加し、有声区間v0の終点(SA2:NO)にてゼロに初期化される。   When the unit section corresponds to the voiced section v0 (SA2: YES), the feature amount identifying unit 22 adds a predetermined value (for example, 1) to the elapsed time e0 (SA3). On the other hand, when the unit section does not correspond to the voiced section v0 (SA2: NO), the feature amount identifying unit 22 initializes the elapsed time e0 to zero (SA4). Therefore, as understood from FIG. 4, the elapsed time e0 is set to zero at the start of the voiced section v0 and increases with the passage of time in the voiced section v0, and becomes the end point (SA2: NO) of the voiced section v0. Is initialized to zero.

特徴量特定部22は、音声信号Xの音高p0を正規化することで音高Pを決定する(SA5)。具体的には、図4に例示される通り、離散的に設定された複数の音高のうち音高p0に最も近い音高が正規化後の音高Pとして特定される。以上の説明から理解される通り、音高Pは、対象楽曲の1個の音符内で一定の数値に維持されるとともに音符毎に離散的に変動し得る。したがって、時間軸上で音高Pが変動する時点は、対象楽曲内で相前後する各音符の境界に該当する可能性が高い。   The feature amount specifying unit 22 determines the pitch P by normalizing the pitch p0 of the audio signal X (SA5). Specifically, as illustrated in FIG. 4, the pitch closest to the pitch p0 among the plurality of pitches set discretely is specified as the pitch P after normalization. As understood from the above description, the pitch P is maintained at a constant value in one note of the target music and can be discretely fluctuated for each note. Therefore, the point in time when the pitch P changes on the time axis is likely to correspond to the boundary between adjacent notes in the target music.

特徴量特定部22は、各有声区間v0の経過時間e0を、対象楽曲の各音符に対応する有声区間Vの経過時間Eに正規化する(SA6)。具体的には、特徴量特定部22は、図4から理解される通り、音声信号Xの音高Pが変動する時点(すなわち相前後する各音符の境界)を境界として有声区間v0を対象楽曲の音符毎の有声区間Vに区分し、有声区間Vの始点にてゼロとなるように経過時間e0を設定(補正)することで、各有声区間Vの始点からの経過時間Eを算定する。したがって、経過時間Eは、対象楽曲の音符毎の有声区間Vの始点にてゼロに設定されて有声区間V内で経時的に増加し、有声区間Vの終点が到来するとゼロに初期化される。経過時間Eは、対象楽曲の1個の音符が継続する時間長(継続長)とも換言され得る。第1実施形態の特徴量特定部22は、以上に例示した音声解析処理を反復することで音声信号Xの特徴量(音高P,経過時間E)を単位区間毎に順次に特定する。   The feature amount specifying unit 22 normalizes the elapsed time e0 of each voiced section v0 to the elapsed time E of the voiced section V corresponding to each note of the target music (SA6). Specifically, as understood from FIG. 4, the feature quantity specifying unit 22 sets the voiced section v0 as the target music with the point at which the pitch P of the audio signal X changes (that is, the boundary of each successive note). The elapsed time e from the start point of each voiced section V is calculated by dividing the voiced section V into the voiced section V for each note and setting (correcting) the elapsed time e0 to be zero at the start point of the voiced section V. Therefore, the elapsed time E is set to zero at the start point of the voiced segment V for each note of the target music and increases with time in the voiced segment V, and is initialized to zero when the end point of the voiced segment V arrives. . The elapsed time E can also be expressed as a length of time (duration) in which one note of the target music continues. The feature amount specifying unit 22 of the first embodiment sequentially specifies the feature amounts (pitch P and elapsed time E) of the audio signal X for each unit section by repeating the voice analysis process exemplified above.

図2の区間設定部24は、特徴量特定部22が特定した特徴量(音高P,経過時間E)に応じて処理区間Qを設定する。処理区間Qは、音声信号Xの対象音声のうち声質を変化させるべき区間(対象音声のうち気息音に変換すべき区間)である。第1実施形態の区間設定部24は、特徴量特定部22が特定した特徴量(音高P,経過時間E)と閾値との比較結果に応じて処理区間Qを設定する。具体的には、区間設定部24は、図4に例示される通り、音高Pおよび閾値PTHの比較結果と、経過時間Eおよび閾値ETHの比較結果とに応じて処理区間Qを設定する。実際の歌唱では、歌唱音声の音高が高く継続長が長いほど、歌唱音声の気息性が増加し易いという概略的な傾向が観察される。以上の傾向を再現する観点から、第1実施形態の区間設定部24は、図4に例示される通り、音高Pが閾値PTHを上回り、かつ、経過時間Eが閾値ETHを上回る区間を処理区間Qとして設定する。経過時間Eは有声区間V内で経時的に単調増加するから、継続長が閾値ETHを上回る有声区間Vのうち末尾側の区間が処理区間Qとして画定される。なお、閾値PTHおよび閾値ETHは、操作機器16に対する利用者からの指示に応じて可変に設定される。   The section setting unit 24 in FIG. 2 sets a processing section Q in accordance with the feature amount (pitch P, elapsed time E) specified by the feature amount specifying unit 22. The processing section Q is a section in which the voice quality of the target voice of the voice signal X should be changed (a section of the target voice to be converted to the breath sound). The section setting unit 24 of the first embodiment sets a processing section Q according to the comparison result of the feature amount (pitch P, elapsed time E) specified by the feature amount specifying unit 22 and the threshold value. Specifically, as illustrated in FIG. 4, the section setting unit 24 sets the processing section Q according to the comparison result of the pitch P and the threshold value PTH and the comparison result of the elapsed time E and the threshold value ETH. In actual singing, a general tendency is observed that as the pitch of the singing voice is higher and the duration is longer, the spitness of the singing voice is likely to increase. From the viewpoint of reproducing the above tendency, the section setting unit 24 of the first embodiment processes the section in which the pitch P exceeds the threshold PTH and the elapsed time E exceeds the threshold ETH, as illustrated in FIG. 4. Set as section Q. Since the elapsed time E monotonously increases with time in the voiced section V, a section on the end side of the voiced sections V whose duration exceeds the threshold ETH is defined as the processing section Q. The threshold value PTH and the threshold value ETH are variably set in accordance with an instruction from the user to the operation device 16.

図2の変数制御部26は、区間設定部24が設定した処理区間Qについて制御変数Cを設定する。制御変数Cは、声質を制御するための変数である。第1実施形態の制御変数Cは、気息音の度合を指示する変数である。図4に例示される通り、変数制御部26は、区間設定部24が設定した処理区間Qの始点から終点にかけてゼロから所定の増加率で増加するように制御変数Cを設定する。すなわち、処理区間Qの終点に近付く(1個の音符の音声が長引く)ほど気息音の度合が増加するように、変数制御部26は制御変数Cを経時的に変化させる。   The variable control unit 26 in FIG. 2 sets a control variable C for the processing section Q set by the section setting unit 24. The control variable C is a variable for controlling voice quality. The control variable C in the first embodiment is a variable that indicates the degree of inspiratory sound. As illustrated in FIG. 4, the variable control unit 26 sets the control variable C so as to increase at a predetermined increase rate from zero from the start point to the end point of the processing section Q set by the section setting unit 24. That is, the variable control unit 26 temporally changes the control variable C so that the degree of the breath sound increases as the end point of the processing section Q is approached (the sound of one note is prolonged).

図2の音声処理部28は、変数制御部26が設定した制御変数Cを適用した声質変換処理を音声信号Xに対して実行することで音声信号Yを生成する。声質変換処理は、制御変数Cに応じて対象音声の声質を変化させる音声処理である。第1実施形態の音声処理部28は、処理区間Q内の音声信号Xを制御変数Cに応じた度合の気息音に変換する声質変換処理(制御変数Cに応じた度合の気息性を付与する処理)で音声信号Yを生成する。気息性の付与には公知の技術が任意に採用される。例えば、音声処理部28は、音声信号Xを調波成分と非調波成分(気息成分)とに分離し、調波成分に対する非調波成分の強度(すなわち気息性)を制御変数Cに応じて制御することで、処理区間Qが制御変数Cに応じた気息音に変換された音声の音声信号Yを生成する。   The voice processing unit 28 in FIG. 2 generates a voice signal Y by executing voice quality conversion processing to which the control variable C set by the variable control unit 26 is applied to the voice signal X. Voice quality conversion processing is voice processing that changes the voice quality of the target voice according to the control variable C. The voice processing unit 28 according to the first embodiment converts the voice signal X in the processing section Q into a breath sound of a degree according to the control variable C (provides a breath characteristic of a degree according to the control variable C) In the processing), an audio signal Y is generated. A well-known technique is arbitrarily employ | adopted for giving breathability. For example, the voice processing unit 28 separates the voice signal X into a harmonic component and an inharmonic component (breath component), and the intensity of the inharmonic component with respect to the harmonic component (that is, breath characteristic) according to the control variable C. As a result, the voice signal Y of the voice in which the processing section Q is converted into the breath sound according to the control variable C is generated.

図5は、演算処理装置10が音声信号Xから音声信号Yを生成する処理のフローチャートである。例えば操作機器16に対する利用者からの指示を契機として図5の処理が開始されて音声信号Xの全区間にわたり単位区間毎に反復される。   FIG. 5 is a flowchart of processing in which the arithmetic processing unit 10 generates an audio signal Y from the audio signal X. For example, in response to an instruction from the user to the operation device 16, the process of FIG. 5 is started, and is repeated for each unit section over the entire section of the audio signal X.

信号供給装置200から1個の単位区間の音声信号Xが取込まれると(SB1)、区間設定部24は、操作機器16に対する利用者からの指示に応じて閾値PTHおよび閾値ETHを可変に設定する(SB2)。具体的には、演算処理装置10は、図6の設定画面(以下「閾値設定画面」という)を表示装置14に表示させる。閾値設定画面は、音高P(Pitch)の閾値PTHと経過時間E(Duration)の閾値ETHとを利用者が指示するための画像である。利用者は、閾値設定画面を視認しながら操作機器16を適宜に操作することで閾値PTHと閾値ETHとを任意に調整することが可能である。   When the audio signal X of one unit section is taken in from the signal supply device 200 (SB1), the section setting unit 24 variably sets the threshold value PTH and the threshold value ETH according to an instruction from the user to the operation device 16 To do (SB2). Specifically, the arithmetic processing unit 10 causes the display unit 14 to display the setting screen of FIG. 6 (hereinafter referred to as the “threshold setting screen”). The threshold setting screen is an image for the user to designate the threshold PTH of the pitch P (Pitch) and the threshold ETH of the elapsed time E (Duration). The user can arbitrarily adjust the threshold PTH and the threshold ETH by appropriately operating the operation device 16 while visually recognizing the threshold setting screen.

特徴量特定部22は、図3を参照して説明した音声解析処理を実行することで単位区間の音高Pと経過時間Eとを特定する(SB3)。そして、区間設定部24は、単位区間の音高Pが閾値PTHを上回るか否かを判定する(SB4)とともに、単位区間の経過時間Eが閾値ETHを上回るか否かを判定する(SB5)。ステップSB4およびステップSB5の双方の結果が肯定である場合(P>PTH,E>ETH)、変数制御部26は、単位区間について制御変数Cを設定し(SB6)、音声処理部28は、変数制御部26が設定した制御変数Cを適用した声質変換処理で音声信号Xから音声信号Yを生成する(SB7)。他方、ステップSB4およびステップSB5の一方または双方の結果が否定である場合、制御変数Cの設定(SB6)と音声信号Xに対する声質変換処理(SB7)とは実行されない。すなわち、信号供給装置200から供給される音声信号Xが音声信号Yとして出力される。以上の説明から理解される通り、図5のステップSB4およびステップSB5の判定は、区間設定部24が処理区間Qを設定する処理に相当する。図5の処理が音声信号Xの単位区間毎に実行されることで、対象音声の処理区間Qを気息音に変換した音声の音声信号Yが生成される。   The feature amount specifying unit 22 specifies the pitch P of the unit section and the elapsed time E by executing the speech analysis process described with reference to FIG. 3 (SB3). Then, the section setting unit 24 determines whether the pitch P of the unit section exceeds the threshold PTH (SB4) and determines whether the elapsed time E of the unit section exceeds the threshold ETH (SB5) . When the result of both step SB4 and step SB5 is affirmative (P> PTH, E> ETH), the variable control unit 26 sets the control variable C for the unit section (SB6), and the voice processing unit 28 determines the variable A voice signal Y is generated from the voice signal X by voice quality conversion processing to which the control variable C set by the control unit 26 is applied (SB7). On the other hand, when the result of one or both of step SB4 and step SB5 is negative, the setting of control variable C (SB6) and the voice quality conversion process (SB7) for voice signal X are not executed. That is, the audio signal X supplied from the signal supply device 200 is output as the audio signal Y. As understood from the above description, the determination in step SB4 and step SB5 in FIG. 5 corresponds to the process in which the section setting unit 24 sets the processing section Q. By executing the process of FIG. 5 for each unit section of the audio signal X, an audio signal Y of an audio in which the processing section Q of the target audio is converted into an exhalation sound is generated.

以上に説明した第1実施形態では、対象音声の特徴量(音高P,経過時間E)に応じて設定された処理区間Qの声質が制御される。したがって、声質に関する専門的な知見(対象音声のうち気息性を付与すべき区間の知識)を利用者が持たない場合でも、聴感的に自然な声質(気息音)を再現することが可能である。すなわち、制御変数Cの設定が容易化される(例えば利用者による処理区間Qの指定や制御変数Cの時間変化の設定が不要である)という利点がある。   In the first embodiment described above, the voice quality of the processing section Q set according to the feature amount (pitch P, elapsed time E) of the target voice is controlled. Therefore, even when the user does not have specialized knowledge on voice quality (knowledge of the section to which breathiness is given in the target voice), it is possible to reproduce natural voice quality (breathing sound) audibly. . That is, there is an advantage that setting of the control variable C is facilitated (for example, designation of the processing section Q by the user and setting of time change of the control variable C are unnecessary).

<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
Second Embodiment
The second embodiment of the present invention will be described below. In addition, about the element in which an effect | action and a function are the same as 1st Embodiment in each form illustrated below, the code | symbol referred by description of 1st Embodiment is diverted and detailed description of each is abbreviate | omitted suitably.

第2実施形態の演算処理装置10は、図7の設定画面(以下「動作モード選択画面」という)を表示装置14に表示させる。動作モード選択画面は、手動設定モード(manual)と自動設定モード(auto)との何れかを利用者が選択するための画像である。自動設定モードは、処理区間Qと制御変数Cとを自動的(操作機器16に対する利用者からの指示を必要とせず)に設定する動作モードである。すなわち、自動設定モードでは、第1実施形態と同様に、対象音声の特徴量(音高P,経過時間E)に応じて処理区間Qと処理区間Q内の制御変数Cとが自動的に設定される。他方、手動設定モードは、操作機器16に対する利用者からの指示に応じて処理区間Qと制御変数Cとを設定する動作モードである。すなわち、手動設定モードでは、操作機器16に対する操作で利用者が指示した区間を区間設定部24が処理区間Qとして設定し、操作機器16に対する利用者からの指示に応じて変数制御部26が処理区間Q内の制御変数Cの時間変化を設定する。   The processing unit 10 according to the second embodiment causes the display unit 14 to display the setting screen (hereinafter referred to as the “operation mode selection screen”) shown in FIG. 7. The operation mode selection screen is an image for the user to select one of the manual setting mode (manual) and the automatic setting mode (auto). The automatic setting mode is an operation mode in which the processing section Q and the control variable C are set automatically (without requiring an instruction from the user to the operation device 16). That is, in the automatic setting mode, as in the first embodiment, the processing section Q and the control variable C in the processing section Q are automatically set according to the feature amount (pitch P, elapsed time E) of the target voice. Be done. On the other hand, the manual setting mode is an operation mode in which the processing zone Q and the control variable C are set in accordance with an instruction from the user to the operation device 16. That is, in the manual setting mode, the section setting unit 24 sets the section instructed by the user by the operation on the operation device 16 as the processing section Q, and the variable control unit 26 processes in accordance with the instruction from the user for the operation apparatus 16 The time change of the control variable C in the section Q is set.

図7に例示される通り、利用者は、複数種の声質(気息音,ボーカルフライ,……)の各々について手動設定モードと自動設定モードとの何れかを選択することが可能である。すなわち、手動設定モードおよび自動設定モードの何れかの動作モードのもとで、処理区間Qと制御変数Cとが複数種の声質の各々について個別に設定される。図7のボーカルフライは、低音域の歌唱時に声帯の閉塞と解放とを反復することで発音される音声(エッジボイス)であり、典型的には発声開始の直後に発音される。   As illustrated in FIG. 7, the user can select one of the manual setting mode and the automatic setting mode for each of a plurality of types of voice quality (breath sound, vocal fly,...). That is, under any operation mode of the manual setting mode and the automatic setting mode, the processing section Q and the control variable C are individually set for each of a plurality of voice qualities. The vocal fly in FIG. 7 is a voice (edge voice) which is pronounced by repeating the closing and releasing of the vocal cords when singing in the low frequency range, and is typically pronounced immediately after the start of the utterance.

図8は、ボーカルフライについて自動設定モードが設定された場合の区間設定部24の動作の説明図である。図8に例示される通り、対象音声の音高p0に応じた有声区間v0が有声区間Vとして設定され、有声区間v0を音符毎に区分する処理(経過時間e0の正規化)は省略される。すなわち、ボーカルフライについては第1実施形態の経過時間e0が経過時間Eに相当する。   FIG. 8 is an explanatory diagram of the operation of the section setting unit 24 when the automatic setting mode is set for the vocal fly. As exemplified in FIG. 8, the voiced section v0 corresponding to the pitch p0 of the target voice is set as the voiced section V, and the process of dividing the voiced section v0 into notes (normalization of the elapsed time e0) is omitted. . That is, for the vocal fly, the elapsed time e0 in the first embodiment corresponds to the elapsed time E.

低音域の発声開始の直後にボーカルフライが発生し易いという前述の傾向を再現する観点から、第2実施形態の区間設定部24は、図8に例示される通り、音高Pが閾値PTHを下回り、かつ、経過時間E(e0)が閾値ETHを下回る区間を、対象音声がボーカルフライに変換される処理区間Qとして設定する。経過時間Eは経時的に単調に増加するから、図8から理解される通り、有声区間Vのうち先頭側の区間(発音の開始の直後の区間)が処理区間Qとして画定される。閾値PTHおよび閾値ETHは、操作機器16に対する利用者からの指示に応じて声質の種類毎に(気息音およびボーカルフライの各々について)個別に設定される。   From the viewpoint of reproducing the above-mentioned tendency that vocal fly is likely to occur immediately after the start of vocalization in the low tone range, the section setting unit 24 of the second embodiment has the pitch P equal to the threshold PTH as illustrated in FIG. A section below which the elapsed time E (e0) falls below the threshold value ETH is set as a processing section Q in which the target voice is converted into a vocal fly. Since the elapsed time E monotonously increases with time, as understood from FIG. 8, a section on the head side of the voiced section V (section immediately after the start of sound generation) is defined as the processing section Q. The threshold value PTH and the threshold value ETH are individually set for each type of voice quality (for each of the breath sound and the vocal fly) in accordance with an instruction from the user to the operation device 16.

以上の説明から理解される通り、処理区間Qは声質の種類に応じて相違する。具体的には、発声の最後に発生し易い気息音等の声質については、経過時間Eが閾値ETHを上回る区間(すなわち有声区間Vの末尾側の区間)が処理区間Qとして設定され、発音の開始の直後に発生し易いボーカルフライ等の声質については、経過時間Eが閾値ETHを下回る区間(すなわち有声区間Vの先頭側の区間)が処理区間Qとして設定される。   As understood from the above description, the processing section Q differs depending on the type of voice quality. Specifically, for voice quality such as breath sounds that are likely to occur at the end of the utterance, a section where the elapsed time E exceeds the threshold ETH (that is, the section at the end of the voiced section V) is set as the processing section Q. As voice quality such as vocal fly which tends to occur immediately after the start, a section where the elapsed time E falls below the threshold ETH (that is, a section on the head side of the voiced section V) is set as the processing section Q.

変数制御部26は、図8に例示される通り、処理区間Qの内側ではボーカルフライの制御変数Cを有効値(例えば1)に設定し、処理区間Qの外側では制御変数Cを無効値(例えば0)に設定する。音声処理部28は、制御変数Cを適用した処理区間Qの声質変換処理を複数種の声質の各々について相互に独立に実行する。対象音声をボーカルフライに変換する具体的な処理は任意であるが、例えば、音声信号Xのリサンプリングによりサンプリング周波数を低下させる方法が好適に採用される。   The variable control unit 26 sets the control variable C of the vocal fly to an effective value (for example, 1) inside the processing section Q, as illustrated in FIG. For example, it is set to 0). The voice processing unit 28 performs voice quality conversion processing of the processing section Q to which the control variable C is applied independently of each other for each of a plurality of types of voice quality. Although the specific process of converting the target voice into the vocal fly is optional, for example, a method of reducing the sampling frequency by resampling the audio signal X is preferably employed.

第2実施形態においても第1実施形態と同様の効果が実現される。第2実施形態では、経過時間Eが閾値ETHを上回る区間(有声区間Vの末尾側の区間)と経過時間Eが閾値ETHを下回る区間(有声区間Vの先頭側の区間)とが、対象音声に付与される声質の種類に応じて設定される。したがって、聴感的に自然な複数種の声質を再現できるという利点がある。また、第2実施形態では、自動設定モードと手動設定モードとが用意されるから、声質に関する充分な知識がある利用者は、手動設定モードにて自身の所望の声質を再現し、声質に関する知識が不充分である利用者は、自動設定モードにて聴感的に自然な声質を再現できるという利点がある。   Also in the second embodiment, the same effect as that of the first embodiment is realized. In the second embodiment, a section in which the elapsed time E exceeds the threshold ETH (a section at the end of the voiced section V) and a section in which the elapsed time E is below the threshold ETH (a section at the beginning of the voiced section V) It is set according to the kind of voice quality given to. Therefore, there is an advantage that it is possible to reproduce a plurality of voice qualities naturally audible. Further, in the second embodiment, since the automatic setting mode and the manual setting mode are prepared, a user who has sufficient knowledge about voice quality reproduces his / her desired voice quality in the manual setting mode and knowledge about voice quality. Users who do not have sufficient voice quality have the advantage of being able to audibly reproduce natural voice quality in the automatic setting mode.

<第3実施形態>
第1実施形態では、対象音声の音高Pと経過時間Eとに応じて処理区間Qを設定したが、処理区間Qの設定に適用される特徴量は以上の例示に限定されない。例えば、音高Pと経過時間Eとに加えて音量(ダイナミクス)Dを処理区間Qの設定に適用することも可能である。例えば実際の歌唱では、音量Dが小さいほど歌唱音声の気息性が増加し易いという傾向がある。以上の傾向を再現する観点から、区間設定部24は、音高Pおよび経過時間Eに関する条件(P>PTH,E>ETH)に加えて、音量Dが閾値DTHを下回るという条件が成立する区間を処理区間Qとして設定する。また、実際の歌唱では、音量Dが小さいほどボーカルフライが発生し易いという傾向がある。以上の傾向を再現する観点から、区間設定部24は、音高Pおよび経過時間Eに関する条件(P<PTH,E<ETH)に加えて、音量Dが閾値DTHを下回るという条件が成立する区間を処理区間Qとして設定する。
Third Embodiment
In the first embodiment, the processing section Q is set according to the pitch P of the target voice and the elapsed time E, but the feature quantity applied to the setting of the processing section Q is not limited to the above example. For example, in addition to the pitch P and the elapsed time E, the volume (dynamics) D can be applied to the setting of the processing section Q. For example, in actual singing, there is a tendency that the lower the volume D, the easier it is to increase the breathiness of the singing voice. From the viewpoint of reproducing the above tendency, in addition to the conditions (P> PTH, E> ETH) regarding the pitch P and the elapsed time E, the section setting unit 24 is a section in which the condition that the volume D falls below the threshold DTH Is set as the processing section Q. Also, in actual singing, there is a tendency that as the volume D is smaller, vocal fly is more likely to occur. From the viewpoint of reproducing the above tendency, in addition to the conditions (P <PTH, E <ETH) regarding the pitch P and the elapsed time E, the section setting unit 24 is a section in which the condition that the volume D falls below the threshold DTH Is set as the processing section Q.

図9は、第3実施形態にて表示装置14に表示される設定画面(以下「特徴量選択画面」という)の模式図である。特徴量選択画面は、処理区間Qの設定に適用される特徴量を利用者が選択するための画像である。具体的には、複数種の特徴量(音高P,経過時間E,音量D)の各々について、操作機器16に対する利用者からの指示に応じて有効状態(チェックが付加された状態)と無効状態とが選択される。区間設定部24は、複数種の特徴量のうち特徴量選択画面にて利用者が有効状態に指定した1以上の特徴量と当該特徴量に対応する閾値(PTH,ETH,DTH)との比較結果に応じて処理区間Qを設定する。他方、特徴量選択画面にて無効状態に設定された特徴量は処理区間Qの設定に加味されない。第2実施形態のように対象音声に複数種の声質が付与される構成では、自動設定モードに設定された声質毎に別個の特徴量選択画面が表示され、処理区間Qの設定に適用される特徴量の組合せが声質毎に個別に選択される。   FIG. 9 is a schematic view of a setting screen (hereinafter, referred to as a “feature amount selection screen”) displayed on the display device 14 in the third embodiment. The feature amount selection screen is an image for the user to select the feature amount applied to the setting of the processing section Q. Specifically, for each of a plurality of types of feature quantities (pitch P, elapsed time E, volume D), an enabled state (a state in which a check is added) and an invalid state are made according to an instruction from the user to the operation device 16 A state is selected. The section setting unit 24 compares one or more feature amounts designated by the user in the feature amount selection screen among the plurality of types of feature amounts with the threshold value (PTH, ETH, DTH) corresponding to the feature amounts. A processing zone Q is set according to the result. On the other hand, the feature amount set in the invalid state on the feature amount selection screen is not added to the setting of the processing section Q. As in the second embodiment, in the configuration in which multiple types of voice quality are added to the target voice, a separate feature value selection screen is displayed for each voice quality set in the automatic setting mode, and applied to the setting of the processing section Q. Combinations of feature quantities are individually selected for each voice quality.

図10は、第3実施形態における閾値設定画面の模式図である。図10の閾値設定画面は、複数種の特徴量の各々について利用者が閾値(PTH,ETH,DTH)を設定するための画像である。図9の特徴量選択画面で有効状態に設定された特徴量については、図6の閾値設定画面と同様に、操作機器16に対する利用者からの指示に応じて閾値が設定される。他方、特徴量選択画面で無効状態に設定された特徴量について、閾値設定画面では閾値の変更が禁止される。例えば無効状態の特徴量については閾値設定画面での表示がグレーアウト(操作対象から除外されていることを表象する態様)で表示される。   FIG. 10 is a schematic view of a threshold setting screen in the third embodiment. The threshold setting screen in FIG. 10 is an image for the user to set the threshold (PTH, ETH, DTH) for each of a plurality of types of feature quantities. As for the feature amounts set in the valid state on the feature amount selection screen of FIG. 9, a threshold value is set according to an instruction from the user to the operation device 16 as in the threshold value setting screen of FIG. On the other hand, with respect to the feature amount set in the invalid state on the feature amount selection screen, the change of the threshold value is prohibited on the threshold value setting screen. For example, with regard to the feature amount in the invalid state, the display on the threshold setting screen is displayed in gray (an aspect representing that it is excluded from the operation target).

第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、複数の特徴量の各々が処理区間Qの設定に選択的に適用されるから、処理区間Qの設定に適用される特徴量の種類が固定された構成と比較して、多様な声質を再現できるという利点がある。第3実施形態では特に、複数の特徴量のうち利用者からの指示に応じた特徴量が処理区間Qの設定に適用されるから、利用者の意図や嗜好に適合した声質を再現できるという格別の効果が実現される。なお、第2実施形態の構成は第3実施形態にも同様に適用される。   Also in the third embodiment, the same effect as that of the first embodiment is realized. Further, in the third embodiment, since each of the plurality of feature quantities is selectively applied to the setting of the processing section Q, the type of the feature quantity applied to the setting of the processing section Q is compared with a fixed configuration. There is an advantage of being able to reproduce various voice quality. In the third embodiment, in particular, since the feature quantity according to the instruction from the user among the plurality of feature quantities is applied to the setting of the processing section Q, it is possible to reproduce voice quality adapted to the user's intention and preference. Effect is realized. The configuration of the second embodiment is similarly applied to the third embodiment.

<第4実施形態>
図11は、第4実施形態における音声処理装置100の演算処理装置10の機能的な構成図である。図11に例示される通り、第4実施形態では、音声信号Xと楽曲データZとが信号供給装置200から音声処理装置100に並列に供給される。楽曲データZは、楽曲を構成する音符毎に音高(ノートナンバ)と強度(ベロシティ)と発音期間(始点および終点)とを指定する時系列データである。例えばMIDI(Musical Instrument Digital Interface)規格に準拠した時系列データが楽曲データZとして好適に利用される。
Fourth Embodiment
FIG. 11 is a functional block diagram of the arithmetic processing unit 10 of the speech processing apparatus 100 according to the fourth embodiment. As illustrated in FIG. 11, in the fourth embodiment, the audio signal X and the music data Z are supplied in parallel from the signal supply device 200 to the audio processing device 100. The music data Z is time series data for specifying a pitch (note number), an intensity (velocity), and a sound generation period (a start point and an end point) for each note constituting the music. For example, time series data conforming to the MIDI (Musical Instrument Digital Interface) standard is suitably used as the music data Z.

楽曲データZは、音声信号Xが表す対象音声で歌唱される対象楽曲の各音符を時系列に指定する。したがって、音声信号Xの対象音声の各音符と楽曲データZで指定される各音符とは相互に対応する。以上の関係を考慮して、第4実施形態の特徴量特定部22は、対象音声の特徴量(音量P,経過時間E,音量D)を楽曲データZから特定する。具体的には、特徴量特定部22は、楽曲データZが指定する各音符の音高(ノートナンバ)を対象音声の音高Pとして特定する。また、特徴量特定部22は、楽曲データZが指定する各音符の強度(ベロシティ)を音量Dとして特定し、各音符の発音期間から経過時間Eを特定する。特徴量特定部22が特定した特徴量を適用して区間設定部24が処理区間Qを設定する動作や、処理区間Qの制御変数Cを変数制御部26が設定する動作は第1実施形態と同様である。音声処理部28は、第1実施形態と同様に、制御変数Cを適用した声質変換処理で音声信号Xから音声信号Yを生成する。   The music data Z designates each note of the target music to be sung in the target sound represented by the audio signal X in time series. Therefore, each note of the target voice of the audio signal X and each note designated by the music data Z correspond to each other. In consideration of the above relationship, the feature amount specifying unit 22 of the fourth embodiment specifies the feature amounts (volume P, elapsed time E, volume D) of the target sound from the music data Z. Specifically, the feature amount specifying unit 22 specifies the pitch (note number) of each note designated by the music data Z as the pitch P of the target sound. Also, the feature amount specifying unit 22 specifies the intensity (velocity) of each note designated by the music data Z as the volume D, and specifies the elapsed time E from the sound generation period of each note. An operation in which the section setting unit 24 sets the processing section Q by applying the feature amount specified by the feature quantity specifying unit 22 and an operation in which the variable control unit 26 sets the control variable C in the processing section Q are the first embodiment It is similar. The voice processing unit 28 generates a voice signal Y from the voice signal X by voice quality conversion processing to which the control variable C is applied, as in the first embodiment.

第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態では、楽曲データZを参照することで対象音声の特徴量が特定されるから、音声信号Xの解析で特徴量を特定する第1実施形態の構成と比較して特徴量の特定に必要な処理負荷が軽減されるという利点がある。他方、音声信号Xの解析で特徴量を特定する第1実施形態によれば、楽曲データZから特徴量を推定する第4実施形態と比較して、対象音声の特徴量を正確に特定できるという利点がある。なお、第2実施形態や第3実施形態の構成は第4実施形態にも適用される。   Also in the fourth embodiment, the same effect as that of the first embodiment is realized. Further, in the fourth embodiment, since the feature amount of the target voice is specified by referring to the music data Z, the feature amount is compared with the configuration of the first embodiment in which the feature amount is specified by analysis of the audio signal X. There is an advantage that the processing load required to identify the is reduced. On the other hand, according to the first embodiment in which the feature amount is specified by analysis of the audio signal X, the feature amount of the target voice can be identified more accurately than in the fourth embodiment in which the feature amount is estimated from the music data Z There is an advantage. The configurations of the second and third embodiments are also applied to the fourth embodiment.

<第5実施形態>
図12は、第5実施形態における音声処理装置100の演算処理装置10の機能的な構成図である。図12から理解される通り、第5実施形態では、第4実施形態と同様に、音声信号Xと楽曲データZとが信号供給装置200から音声処理装置100に並列に供給される。第5実施形態の特徴量特定部22は、音声信号Xおよび楽曲データZの一方または双方を利用して対象音声の特徴量(音量P,経過時間E,音量D)を特定する。具体的には、手動設定モードおよび自動設定モードの何れかの動作モードが第2実施形態と同様に利用者により選択され、自動設定モードが選択された場合には、第1解析モードと第2解析モードとの何れかが利用者により選択される。第1解析モードは、第1実施形態と同様に音声信号Xの解析で対象音声の特徴量(音高P,経過時間E,音量D)を特定する動作モードであり、第2解析モードは、第4実施形態と同様に楽曲データZから対象音声の特徴量を特定する動作モードである。
Fifth Embodiment
FIG. 12 is a functional block diagram of the arithmetic processing unit 10 of the speech processing apparatus 100 according to the fifth embodiment. As understood from FIG. 12, in the fifth embodiment, the audio signal X and the music data Z are supplied in parallel from the signal supply device 200 to the audio processing device 100 as in the fourth embodiment. The feature amount identifying unit 22 of the fifth embodiment identifies the feature amounts (volume P, elapsed time E, volume D) of the target audio using one or both of the audio signal X and the music data Z. Specifically, when the operation mode of either the manual setting mode or the automatic setting mode is selected by the user as in the second embodiment and the automatic setting mode is selected, the first analysis mode and the second analysis mode are selected. Either of the analysis mode is selected by the user. The first analysis mode is an operation mode for specifying the feature quantities (pitch P, elapsed time E, volume D) of the target voice by analysis of the audio signal X as in the first embodiment, and the second analysis mode is As in the fourth embodiment, this is an operation mode for specifying the feature amount of the target sound from the music data Z.

第5実施形態の演算処理装置10は、図13の動作モード選択画面を表示装置14に表示させる。第5実施形態の動作モード選択画面は、手動設定モード(manual)と自動設定モード(auto)との選択を第2実施形態(図7)と同様に利用者から受付けるほか、自動設定モードが選択された声質について第1解析モードと第2解析モードとの選択を利用者から受付ける画像である。図13に例示される通り、利用者は、複数種の声質(気息性,ボーカルフライ)の各々について動作モード(手動設定モード/自動設定モード,第1解析モード/第2解析モード)を選択することが可能である。   The processing unit 10 according to the fifth embodiment causes the display unit 14 to display the operation mode selection screen of FIG. 13. The operation mode selection screen of the fifth embodiment accepts selection of the manual setting mode (manual) and the automatic setting mode (auto) from the user as in the second embodiment (FIG. 7), and also selects the automatic setting mode. It is an image which accepts the selection of the 1st analysis mode and the 2nd analysis mode from the user about the voice quality which was carried out. As illustrated in FIG. 13, the user selects an operation mode (manual setting mode / automatic setting mode, first analysis mode / second analysis mode) for each of a plurality of types of voice quality (breathiness, vocal fly). It is possible.

具体的には、利用者が自動設定モードを選択した声質については、第1解析モードと第2解析モードとの選択を受付ける操作画像(チェックボックス)42が、利用者からの指示を受付け可能な有効状態に設定される。利用者は、操作画像42にチェックを付加することで第2解析モード(MIDI)を選択し、操作画像42のチェックを解除することで第1解析モードを選択することが可能である。他方、利用者が手動設定モードを選択した声質に対応する操作画像42は、利用者からの操作を受付けない無効状態(例えばグレーアウト)に設定される。   Specifically, for voice quality for which the user has selected the automatic setting mode, an operation image (check box) 42 for accepting selection between the first analysis mode and the second analysis mode can receive an instruction from the user. It is set to the enabled state. The user can select the second analysis mode (MIDI) by adding a check to the operation image 42, and can select the first analysis mode by canceling the check of the operation image 42. On the other hand, the operation image 42 corresponding to the voice quality for which the user has selected the manual setting mode is set to an invalid state (for example, gray out) in which the user's operation is not accepted.

また、自動設定モードに設定された声質について、演算処理装置10は、図14の特徴量選択画面と図15の閾値設定画面とを表示装置14に表示させる。図14および図15の“audio“は、第1解析モードで特徴量の特定に利用される音声信号Xを表象し、“MIDI”は、第2解析モードで特徴量の特定に利用される楽曲データZを表象する。また、第1解析モードで音声信号Xから特定される音高P(Pitch)と第2解析モードで楽曲データZから特定される音高P(Note Number)とは、両者の意義の相違を反映して表記が相違する。音量D(第1解析モード:Dynamics,第2解析モード:Velocity)についても同様である。   Further, for the voice quality set in the automatic setting mode, the arithmetic processing unit 10 causes the display device 14 to display the feature amount selection screen of FIG. 14 and the threshold setting screen of FIG. In FIG. 14 and FIG. 15, "audio" represents the audio signal X used to specify a feature in the first analysis mode, and "MIDI" represents music used to specify a feature in the second analysis mode. Data Z is represented. In addition, the pitch P (Pitch) specified from the audio signal X in the first analysis mode and the pitch P (Note Number) specified from the music data Z in the second analysis mode reflect the difference in significance between the two. And the notation is different. The same applies to the volume D (first analysis mode: Dynamics, second analysis mode: Velocity).

図14の特徴量選択画面は、第1解析モード(音声信号X)に対応する第1領域51と、第2解析モード(楽曲データZ)に対応する第2領域52とを含んで構成される。第1領域51および第2領域52の各々は、図9の例示と同様に、処理区間Qの設定に適用される特徴量を利用者が選択するための画像である。具体的には、第1領域51は、第1解析モードで処理区間Qの設定に適用される特徴量(すなわち音声信号Xから特定される特徴量)の選択に利用され、第2領域52は、第2解析モードで処理区間Qの設定に適用される特徴量(すなわち楽曲データZから特定される特徴量)の選択に利用される。図13の動作モード選択画面で第1解析モードが選択された状態では、第1領域51が有効状態(利用者からの指示を受付ける状態)に設定されるとともに第2領域52は無効状態(利用者からの指示を受付けない状態)に設定される。他方、図13の動作モード選択画面で第2解析モードが選択された状態では、図14の例示のように、第2領域52が有効状態に設定されるとともに第1領域51は無効状態に設定される。   The feature amount selection screen of FIG. 14 is configured to include a first area 51 corresponding to the first analysis mode (audio signal X) and a second area 52 corresponding to the second analysis mode (music data Z). . Each of the first area 51 and the second area 52 is an image for the user to select a feature to be applied to setting of the processing section Q, as in the example of FIG. 9. Specifically, the first area 51 is used to select the feature quantity (that is, the feature quantity specified from the audio signal X) to be applied to the setting of the processing section Q in the first analysis mode, and the second area 52 is The second analysis mode is used to select the feature amount (that is, the feature amount specified from the music data Z) to be applied to the setting of the processing section Q. In the state where the first analysis mode is selected on the operation mode selection screen of FIG. 13, the first area 51 is set to the valid state (the state for receiving an instruction from the user) and the second area 52 is disabled (use Set to not receive instructions from the On the other hand, in a state where the second analysis mode is selected on the operation mode selection screen of FIG. 13, as shown in FIG. 14, the second area 52 is set to the valid state and the first area 51 is set to the invalid state. Be done.

図15の閾値設定画面は、第1解析モードに対応する第1領域61と第2解析モードに対応する第2領域62とを含んで構成される。第1領域61および第2領域62の各々は、図10の例示と同様に、処理区間Qの設定に適用される閾値(PTH,ETH,DTH)を利用者が設定するための画像である。具体的には、第1領域61は、第1解析モードで適用される閾値の指示を受付け、第2領域62は、第2解析モードで適用される閾値の指示を受付ける。第1解析モードが選択された状態では、第1領域61が有効状態に設定され、第2解析モードが選択された状態では、図15の例示のように第2領域62が有効状態に設定される。図14の特徴量選択画面で無効状態に設定された特徴量(図15の第2領域62における「音量(Velocity)」)について閾値設定画面での表示が無効状態(グレーアウト)とされる点は図10の例示と同様である。   The threshold setting screen of FIG. 15 is configured to include a first area 61 corresponding to the first analysis mode and a second area 62 corresponding to the second analysis mode. Each of the first area 61 and the second area 62 is an image for the user to set the threshold (PTH, ETH, DTH) applied to the setting of the processing section Q, as in the example of FIG. Specifically, the first area 61 receives the indication of the threshold applied in the first analysis mode, and the second area 62 receives the indication of the threshold applied in the second analysis mode. When the first analysis mode is selected, the first area 61 is set to the valid state, and when the second analysis mode is selected, the second area 62 is set to the valid state as illustrated in FIG. Ru. Regarding the feature amount ("Velocity" in the second area 62 in FIG. 15) set to the invalid state in the feature amount selection screen in FIG. It is similar to the example of FIG.

第5実施形態においても第1実施形態と同様の効果が実現される。また、第5実施形態では、音声信号Xから対象音声の特徴量を特定する第1解析モードと、楽曲データZから対象音声の特徴量を特定する第2解析モードとが用意されるから、利用者の意図や嗜好に適合した多様な声質を再現できるという利点がある。なお、第2実施形態から第4実施形態の構成は第5実施形態にも同様に適用される。   Also in the fifth embodiment, the same effect as that of the first embodiment is realized. Further, in the fifth embodiment, the first analysis mode for specifying the feature amount of the target sound from the audio signal X and the second analysis mode for specifying the feature amount of the target sound from the music data Z are prepared. It has the advantage of being able to reproduce a variety of voice quality adapted to the intentions and preferences of the person. The configurations of the second to fourth embodiments are similarly applied to the fifth embodiment.

<第6実施形態>
図16は、第6実施形態における音声処理装置100の演算処理装置10の機能的な構成図である。図16に例示される通り、第6実施形態の演算処理装置10は、対象音声の合成を指示する合成データSを利用して音声信号Yを生成する。合成データSは、例えば楽曲を構成する音符毎に音高と発音期間と発音内容(歌詞)とを指定する時系列データ(例えばVSQ形式のファイル)である。合成データSは、操作機器16に対する利用者からの指示に応じて生成されて記憶装置12に格納される。なお、合成データSを音声処理装置100の外部から供給することも可能である。
Sixth Embodiment
FIG. 16 is a functional block diagram of the arithmetic processing unit 10 of the speech processing apparatus 100 according to the sixth embodiment. As illustrated in FIG. 16, the arithmetic processing unit 10 of the sixth embodiment generates a speech signal Y using synthesis data S instructing synthesis of target speech. The synthetic data S is, for example, time-series data (for example, a file in VSQ format) for specifying a pitch, a sound generation period, and a sound generation content (lyric) for each note constituting a music. The composite data S is generated in response to an instruction from the user to the operation device 16 and stored in the storage device 12. It is also possible to supply the synthetic data S from the outside of the speech processing device 100.

第6実施形態の特徴量特定部22は、合成データSから対象音声の特徴量(音量Pや経過時間E)を特定する。具体的には、特徴量特定部22は、合成データSが指定する各音符の音高に応じて対象音声の音高Pを特定するとともに、各音符の発音期間から経過時間Eを特定する。区間設定部24は、特徴量特定部22が特定した特徴量に応じて処理区間Qを設定し、変数制御部26は、区間設定部24が設定した処理区間Qについて制御変数Cを設定する。   The feature amount specifying unit 22 of the sixth embodiment specifies the feature amount (volume P and elapsed time E) of the target voice from the synthetic data S. Specifically, the feature amount specifying unit 22 specifies the pitch P of the target voice according to the pitch of each note designated by the synthetic data S, and specifies the elapsed time E from the sound generation period of each note. The section setting unit 24 sets a processing section Q in accordance with the feature amount specified by the feature quantity specifying unit 22, and the variable control unit 26 sets a control variable C for the processing section Q set by the section setting unit 24.

第6実施形態の音声処理部28は、合成データSを適用した音声合成処理で音声信号Yを生成する。音声合成処理には公知の技術が任意に採用される。例えば、合成データSが指定する発音内容に応じた各音声素片の音高および発音期間を調整して相互に連結する素片接続型の音声合成処理や、HMM(Hidden Markov Model)で推定された音高に対して発音文字(音素)に応じたフィルタ処理を実行する統計モデル型の音声合成処理が好適に採用される。変数制御部26が設定した制御変数Cを音声処理部28が音声合成処理に適用することで、処理区間Qの声質が制御変数Cに応じて制御された音声の音声信号Yが生成される。   The speech processing unit 28 of the sixth embodiment generates a speech signal Y by speech synthesis processing to which the synthetic data S is applied. A known technique is arbitrarily adopted for the speech synthesis process. For example, it is estimated by an HMM (Hidden Markov Model) or an HMM (Hidden Markov Model) that is connected by adjusting the pitch and the sound generation period of each speech segment according to the pronunciation content specified by the synthetic data S and connecting them together. A statistical model-type speech synthesis process is preferably employed, which performs a filtering process according to the phonetic characters (phonemes) for the pitch. The voice processing unit 28 applies the control variable C set by the variable control unit 26 to the voice synthesis process, whereby the voice signal Y of the voice in which the voice quality of the processing section Q is controlled according to the control variable C is generated.

第6実施形態においても第1実施形態と同様の効果が実現される。また、第6実施形態では、対象音声の特徴量が合成データSを参照して特定されるから、対象音声の音声信号Xが不要であるという利点がある。なお、第2実施形態から第5実施形態の構成は第6実施形態にも同様に適用され得る。   Also in the sixth embodiment, the same effect as that of the first embodiment is realized. Further, in the sixth embodiment, since the feature amount of the target voice is specified with reference to the synthetic data S, there is an advantage that the voice signal X of the target voice is unnecessary. The configurations of the second to fifth embodiments can be applied to the sixth embodiment as well.

<第7実施形態>
図17は、第7実施形態における音声処理装置100の演算処理装置10の機能的な構成図であり、図18は、第7実施形態における演算処理装置10の動作の説明図である。図17に例示される通り、第7実施形態の演算処理装置10は、特徴量特定部22と区間設定部24と変数制御部26と音声処理部28と参照音解析部72とを実現する。特徴量特定部22は、音声信号Xの音高p0を対象音声の特徴量として単位区間毎に順次に抽出する。
Seventh Embodiment
FIG. 17 is a functional block diagram of the arithmetic processing unit 10 of the speech processing apparatus 100 in the seventh embodiment, and FIG. 18 is an explanatory diagram of the operation of the arithmetic processing unit 10 in the seventh embodiment. As illustrated in FIG. 17, the arithmetic processing unit 10 of the seventh embodiment implements a feature amount specifying unit 22, a section setting unit 24, a variable control unit 26, an audio processing unit 28, and a reference sound analysis unit 72. The feature amount specifying unit 22 sequentially extracts the pitch p0 of the audio signal X as a feature amount of the target audio for each unit section.

参照音解析部72は、対象楽曲について事前に収録された模範的または標準的な歌唱音声(以下「参照音声」という)の音声信号XREFを解析する。具体的には、参照音解析部72は、音声信号XREFを解析することで参照音声の音高pREFを単位区間毎に抽出するとともに、閾値RHおよび閾値RLを参照音声の音高pREFに応じて単位区間毎に可変に設定する。図18から理解される通り、閾値RHは音高pREFを上回る数値に設定され、閾値RLは音高pREFを下回る数値に設定される。例えば、参照音解析部72は、音高pREFに所定値(正数)を加算することで閾値RHを算定し、音高pREFから所定値を減算することで閾値RLを算定する。なお、対象楽曲(歌唱曲)の歌唱パートの音符を時系列に指定する楽曲データから参照音解析部72が参照音声の音高pREFを順次に特定して音高pREFに応じた閾値RHおよび閾値RLを設定することも可能である。   The reference sound analysis unit 72 analyzes the audio signal XREF of an exemplary or standard singing voice (hereinafter referred to as “reference voice”) recorded in advance for the target music. Specifically, the reference sound analysis unit 72 analyzes the speech signal XREF to extract the pitch pREF of the reference speech for each unit section, and the threshold value RH and the threshold value RL according to the pitch pREF of the reference speech. It is set variably for each unit section. As understood from FIG. 18, the threshold RH is set to a value above the pitch pREF, and the threshold RL is set to a number below the pitch pREF. For example, the reference sound analysis unit 72 calculates the threshold RH by adding a predetermined value (a positive number) to the pitch pREF, and calculates the threshold RL by subtracting a predetermined value from the pitch pREF. The reference sound analysis unit 72 sequentially specifies the pitch pREF of the reference sound from the music data designating the notes of the singing part of the target music (song music) in time series, and the threshold RH and threshold corresponding to the pitch pREF It is also possible to set RL.

図17の区間設定部24は、図18に例示される通り、対象音声の音高p0が閾値RHを上回る区間と音高p0が閾値RLを下回る区間とを処理区間Qとして設定する。すなわち、第7実施形態の処理区間Qは、対象音声の音高p0が参照音声の音高pREFから乖離した区間である。変数制御部26は、区間設定部24が設定した各処理区間Qについて制御変数Cを設定する。第7実施形態の制御変数Cは、処理区間Q内の対象音声の音高p0を参照音声の音高pREFに近付けるための補正値である。具体的には、変数制御部26は、対象音声の音高p0と閾値RHまたは閾値RLとの差分値を制御変数Cとして処理区間Q内の単位区間毎に算定する。   The section setting unit 24 in FIG. 17 sets, as a processing section Q, a section in which the pitch p0 of the target voice exceeds the threshold RH and a section in which the pitch p0 is below the threshold RL, as illustrated in FIG. That is, the processing section Q of the seventh embodiment is a section in which the pitch p0 of the target speech deviates from the pitch pREF of the reference speech. The variable control unit 26 sets a control variable C for each processing section Q set by the section setting unit 24. The control variable C in the seventh embodiment is a correction value for bringing the pitch p0 of the target speech in the processing section Q closer to the pitch pREF of the reference speech. Specifically, the variable control unit 26 calculates a difference value between the pitch p0 of the target voice and the threshold value RH or the threshold value RL as the control variable C for each unit section in the processing section Q.

音声処理部28は、変数制御部26が設定した制御変数Cを適用した声質変換処理(音声処理)を音声信号Xに対して実行することで音声信号Yを生成する。第7実施形態の音声処理部28は、処理区間Q内の音声信号Xの音高p0を制御変数Cだけ変動させる処理(音高変換処理)で音声信号Yを生成する。したがって、図18に破線で例示される通り、音声信号Xのうち処理区間Q内の音高p0が閾値RHに補正され、かつ、処理区間Q外では対象音声の音高p0に維持された音声信号Yが生成される。すなわち、音声信号Xのうち音高p0が参照音声の音高pREFに近似する区間(処理区間Q外)では音声信号Xの音高p0が維持され、音高p0が参照音声の音高pREFから乖離する区間(処理区間Q内)では音高p0が参照音声の音高pREFに近付けられる。   The voice processing unit 28 generates a voice signal Y by executing voice quality conversion processing (voice processing) to which the control variable C set by the variable control unit 26 is applied to the voice signal X. The voice processing unit 28 of the seventh embodiment generates a voice signal Y by processing of changing the pitch p0 of the voice signal X in the processing section Q by the control variable C (pitch conversion processing). Therefore, as exemplified by the broken line in FIG. 18, the voice p0 in the processing section Q of the voice signal X is corrected to the threshold value RH, and the voice maintained in the pitch p0 of the target voice outside the processing section Q A signal Y is generated. That is, the pitch p0 of the audio signal X is maintained in the section (outside of the processing section Q) where the pitch p0 of the audio signal X approximates the pitch pREF of the reference audio, and the pitch p0 is from the pitch pREF of the reference audio. In the diverging interval (in the processing interval Q), the pitch p0 approaches the pitch pREF of the reference speech.

図19は、第7実施形態の演算処理装置10が単位区間毎に実行する処理のフローチャートである。図19の処理が開始すると、特徴量特定部22は、音声信号Xの解析で対象音声の音高p0を特定する(SC1)。また、参照音解析部72は、音声信号XREFの解析で参照音声の音高pREFを特定するとともに(SC2)、音高pREFに応じた閾値RHおよび閾値RLを設定する(SC3)。   FIG. 19 is a flowchart of processing executed by the arithmetic processing unit 10 of the seventh embodiment for each unit section. When the process of FIG. 19 starts, the feature amount specifying unit 22 specifies the pitch p0 of the target sound by analysis of the sound signal X (SC1). Further, the reference sound analysis unit 72 specifies the pitch pREF of the reference sound by analysis of the sound signal XREF (SC2), and sets the threshold RH and the threshold RL according to the pitch pREF (SC3).

区間設定部24は、対象音声の音高p0が閾値RHを上回るか否か(SC4)、および、音高p0が閾値RLを下回るか否か(SC5)を判定する。音高p0が閾値RHを上回る場合(SC4:YES)、変数制御部26は、音高p0と閾値RHとの差分値を制御変数Cとして算定する(SC6)。同様に、音高p0が閾値RLを下回る場合(SC5:YES)、変数制御部26は、音高p0と閾値RLとの差分値を制御変数Cとして算定する(SC7)。音声処理部28は、音声信号Xの音高p0を制御変数Cだけ変動させることで、閾値RHまたは閾値RLを音高とする音声信号Yを生成する(SC8)。他方、音高p0が閾値RHと閾値RLとの間の数値である場合(SC4,SC5:NO)には、制御変数Cの設定(SC6,SC7)や音高p0の補正(SC8)は実行されず、音声信号Xが音高p0を維持したまま音声信号Yとされる。そして、音声処理部28は、音声信号Yを放音装置18に出力する(SC9)。以上の説明から理解される通り、図19のステップSC4およびステップSC5の判定は、区間設定部24が処理区間Qを設定する処理に相当する。   The section setting unit 24 determines whether the pitch p0 of the target voice exceeds the threshold RH (SC4) and whether the pitch p0 is below the threshold RL (SC5). If the pitch p0 exceeds the threshold RH (SC4: YES), the variable control unit 26 calculates the difference between the pitch p0 and the threshold RH as the control variable C (SC6). Similarly, when the pitch p0 falls below the threshold value RL (SC5: YES), the variable control unit 26 calculates the difference between the pitch p0 and the threshold value RL as the control variable C (SC7). The audio processing unit 28 generates the audio signal Y having the threshold RH or the threshold RL as the pitch by changing the pitch p0 of the audio signal X by the control variable C (SC8). On the other hand, when the pitch p0 is a numerical value between the threshold RH and the threshold RL (SC4, SC5: NO), the setting of the control variable C (SC6, SC7) and the correction of the pitch p0 (SC8) are executed. Therefore, the voice signal X is made the voice signal Y while maintaining the pitch p0. Then, the audio processing unit 28 outputs the audio signal Y to the sound emission device 18 (SC9). As understood from the above description, the determination in step SC4 and step SC5 in FIG. 19 corresponds to the process in which the section setting unit 24 sets the processing section Q.

第7実施形態では、音声信号Xのうち音高p0が参照音声の音高pREFから乖離する処理区間Qでは音高pREFに近付くように対象音声の音高p0が補正される一方、音高p0が参照音声の音高pREFに近い区間では音高p0が維持される。したがって、音高p0を補正すべき区間に関する専門的な知見(音高p0を補正すべき区間の知識)を利用者が持たない場合でも、参照音声に音高が近い聴感的に自然な声質の音声を再現することが可能である。他方、参照音声の音高pREFに音高p0が近い区間については対象音声の音高p0が維持されるから、対象音声の特徴(例えば歌唱者に固有の音高p0の変動等)が喪失するような過度な補正を回避できるという利点もある。   In the seventh embodiment, in the processing section Q in which the pitch p0 of the audio signal X deviates from the pitch pREF of the reference speech, the pitch p0 of the target speech is corrected so as to approach the pitch pREF, while the pitch p0 In a section close to the pitch pREF of the reference voice, the pitch p0 is maintained. Therefore, even if the user does not have specialized knowledge on the section to which pitch p0 should be corrected (knowledge of the section to which pitch p0 should be corrected), the audibly natural voice quality of which the pitch is close to the reference speech It is possible to reproduce speech. On the other hand, in the section where the pitch p0 is close to the pitch pREF of the reference speech, the pitch p0 of the target speech is maintained, so the feature of the target speech (for example, variation of the pitch p0 unique to the singer) is lost. There is also an advantage that such an excessive correction can be avoided.

なお、以上の説明では、対象音声の音高p0と閾値RHまたは閾値RLとの差分値を制御変数Cとして算定したが、対象音声の音高p0と参照音声の音高pREFとの差分値を制御変数Cとして算定することとで、処理区間Q内の音高p0を参照音声の音高pREFに補正する構成も採用され得る。   In the above description, although the difference value between the pitch p0 of the target speech and the threshold RH or the threshold RL is calculated as the control variable C, the difference between the pitch p0 of the target speech and the pitch pREF of the reference speech is calculated. A configuration in which the pitch p0 in the processing section Q is corrected to the pitch pREF of the reference voice by calculating as the control variable C may also be adopted.

<第8実施形態>
図20は、第8実施形態における演算処理装置10の動作の説明図である。第8実施形態の演算処理装置10は、第7実施形態と同様の要素(特徴量特定部22,区間設定部24,変数制御部26,音声処理部28,参照音解析部72)として機能する。
Eighth Embodiment
FIG. 20 is an explanatory diagram of an operation of the arithmetic processing unit 10 in the eighth embodiment. The arithmetic processing unit 10 of the eighth embodiment functions as the same elements as the seventh embodiment (a feature amount specifying unit 22, a section setting unit 24, a variable control unit 26, a voice processing unit 28, a reference sound analysis unit 72). .

図20に例示される通り、第8実施形態の参照音解析部72は、第7実施形態と同様に参照音声の音高pREFを特定するほか、音高pREFを上回る閾値RH_Aおよび閾値RH_Bと、音高pREFを下回る閾値RL_Aおよび閾値RH_Bとを音高pREFに応じて可変に設定する。閾値RH_Aは閾値RH_Bを上回り、閾値RL_Aは閾値RL_Bを下回る。図20から理解される通り、第8実施形態の区間設定部24は、対象音声の音高p0が閾値RH_Aを上回る時点T1から音高p0が閾値RH_Bを下回る時点T2までの区間を処理区間Qとして設定する。すなわち、音高p0の増加時に適用される閾値RH_Aと音高p0の減少時に適用される閾値RH_Bとが相違する(ヒステリシス特性)。同様に、区間設定部24は、対象音声の音高p0が閾値RL_Aを下回る時点から音高p0が閾値RL_Bを上回る時点までの区間を処理区間Qとして設定する。   As illustrated in FIG. 20, the reference sound analysis unit 72 of the eighth embodiment specifies the pitch pREF of the reference sound as in the seventh embodiment, and further, a threshold RH_A and a threshold RH_B exceeding the pitch pREF, A threshold value RL_A and a threshold value RH_B below the pitch pREF are variably set according to the pitch pREF. The threshold RH_A exceeds the threshold RH_B, and the threshold RL_A is below the threshold RL_B. As understood from FIG. 20, the section setting unit 24 in the eighth embodiment processes a section from the time point T1 at which the pitch p0 of the target voice exceeds the threshold RH_A to the time T2 at which the pitch p0 falls below the threshold RH_B. Set as. That is, the threshold RH_A applied when the pitch p0 increases and the threshold RH_B applied when the pitch p0 decreases are different (hysteresis characteristics). Similarly, the section setting unit 24 sets, as a processing section Q, a section from the time when the pitch p0 of the target voice falls below the threshold RL_A to the time when the pitch p0 exceeds the threshold RL_B.

図21および図22は、第8実施形態の演算処理装置10が単位区間毎に実行する処理のフローチャートである。なお、以下の説明で例示する制御情報Fは、処理対象の単位区間が処理区間Qに包含されるか否か(変数制御部26による制御変数Cの設定や音声処理部28による音高p0の補正が実行中であるか否か)を識別するための情報(フラグ)であり、第1回目の単位区間の開始時に、単位区間が処理区間Qに包含されないことを意味する数値0に初期化される。   FIG. 21 and FIG. 22 are flowcharts of processing executed by the processing unit 10 of the eighth embodiment for each unit section. The control information F exemplified in the following description is whether or not the unit section to be processed is included in the processing section Q (setting of the control variable C by the variable control unit 26 and pitch p0 by the voice processing unit 28). Information (flag) for identifying whether or not correction is in progress, and is initialized to the numerical value 0 which means that the unit section is not included in the processing section Q at the start of the first unit section Be done.

図21の処理が開始すると、特徴量特定部22による対象音声の音高p0の特定(SD1)と参照音解析部72による参照音声の音高pREFの特定(SD2)とが第7実施形態と同様に実行され、区間設定部24は、制御情報Fが数値0であるか否かを判定する(SD3)。制御情報Fが数値0である場合(SD3:YES)、参照音解析部72は、閾値RH_Aおよび閾値RL_Aを参照音声の音高pREFに応じて可変に設定する(SD4)。例えば、参照音解析部72は、音高pREFに所定値を加算することで閾値RH_Aを算定し、音高pREFから所定値を減算することで閾値RL_Aを算定する。   When the process of FIG. 21 starts, the feature amount specifying unit 22 specifies the pitch p0 of the target sound (SD1) and the reference sound analysis unit 72 specifies the pitch pREF of the reference sound (SD2) according to the seventh embodiment Similarly, the section setting unit 24 determines whether the control information F is the numerical value 0 (SD3). If the control information F is the numerical value 0 (SD3: YES), the reference sound analysis unit 72 variably sets the threshold RH_A and the threshold RL_A according to the pitch pREF of the reference sound (SD4). For example, the reference sound analysis unit 72 calculates the threshold value RH_A by adding a predetermined value to the pitch pREF, and calculates the threshold value RL_A by subtracting a predetermined value from the pitch pREF.

区間設定部24は、対象音声の音高p0が閾値RH_Aを上回るか否か(SD5)、および、音高p0が閾値RL_Aを下回るか否か(SD6)を判定する。音高p0が閾値RH_Aを上回る場合(SD5:YES)、変数制御部26は、音高p0と閾値RH_Aとの差分値を制御変数(補正値)Cとして算定する(SD7)。他方、音高p0が閾値RL_Aを下回る場合(SD6:YES)、変数制御部26は、音高p0と閾値RL_Aとの差分値を制御変数Cとして算定する(SD8)。音声処理部28は、対象音声の音高p0を制御変数Cだけ変動させることで、閾値RH_Aまたは閾値RL_Aを音高とする音声信号Yを生成する(SD9)。また、区間設定部24は、制御情報Fを数値0から数値1に変更する(SD10)。制御情報Fの数値1は、対象音声の音高p0が補正中であることを意味する。他方、音高p0が閾値RH_Aと閾値RL_Aとの間の数値である場合(SD5,SD6:NO)には、制御変数Cの設定(SD7,SD8)や音高p0の補正(SD9)は実行されない。音声処理部28は、以上に例示した処理後の音声信号Yを放音装置18に出力する(SD11)。   The section setting unit 24 determines whether the pitch p0 of the target voice exceeds the threshold RH_A (SD5) and whether the pitch p0 is below the threshold RL_A (SD6). If the pitch p0 exceeds the threshold RH_A (SD5: YES), the variable control unit 26 calculates a difference value between the pitch p0 and the threshold RH_A as a control variable (correction value) C (SD7). On the other hand, when the pitch p0 falls below the threshold value RL_A (SD6: YES), the variable control unit 26 calculates the difference between the pitch p0 and the threshold value RL_A as the control variable C (SD8). The voice processing unit 28 generates the voice signal Y having the threshold RH_A or the threshold RL_A as the pitch by changing the pitch p0 of the target voice by the control variable C (SD9). Further, the section setting unit 24 changes the control information F from numerical value 0 to numerical value 1 (SD10). The numerical value 1 of the control information F means that the pitch p0 of the target voice is being corrected. On the other hand, when the pitch p0 is a numerical value between the threshold RH_A and the threshold RL_A (SD5, SD6: NO), setting of the control variable C (SD7, SD8) and correction of the pitch p0 (SD9) are executed. I will not. The audio processing unit 28 outputs the processed audio signal Y exemplified above to the sound emitting device 18 (SD11).

制御情報Fが数値1に設定されると(SD10)、以降の単位区間の処理ではステップSD3の判定結果が否定となる。制御情報Fが数値1である場合(SD3:NO)、図22に例示される通り、参照音解析部72は、参照音声の音高pREFを上回る閾値RH_Aおよび閾値RH_Bと音高pREFを下回る閾値RL_Aおよび閾値RL_Bとを設定する(SD20)。   When the control information F is set to the numerical value 1 (SD10), the determination result in step SD3 is negative in the subsequent processing of the unit section. When the control information F is the numerical value 1 (SD3: NO), as illustrated in FIG. 22, the reference sound analysis unit 72 determines that the threshold RH_A and threshold RH_B above the pitch pREF of the reference voice and the threshold below the pitch pREF. RL_A and threshold value RL_B are set (SD20).

区間設定部24は、対象音声の音高p0が閾値RH_Bを上回るか否か(SD21)、および音高p0が閾値RL_Bを下回るか否か(SD22)を判定する。音高p0が閾値RH_Bを上回る場合(SD21:YES)および音高p0が閾値RL_Bを下回る場合(SD22:YES)には音高p0の補正が直前の単位区間と同様に継続される。具体的には、変数制御部26は、音高p0が閾値RH_Bを上回る場合には音高p0と閾値RH_Aとの差分値を制御変数Cとして算定し(SD23)、音高p0が閾値RL_Bを下回る場合には音高p0と閾値RL_Aとの差分値を制御変数Cとして算定する(SD24)。そして、音声処理部28は、対象音声の音高p0を制御変数Cだけ変動させることで音声信号Yを生成する(SD25)。   The section setting unit 24 determines whether the pitch p0 of the target voice exceeds the threshold RH_B (SD21) and whether the pitch p0 is below the threshold RL_B (SD22). If the pitch p0 exceeds the threshold RH_B (SD21: YES) and if the pitch p0 falls below the threshold RL_B (SD22: YES), the correction of the pitch p0 is continued similarly to the immediately preceding unit section. Specifically, when the pitch p0 exceeds the threshold RH_B, the variable control unit 26 calculates the difference between the pitch p0 and the threshold RH_A as the control variable C (SD23), and the pitch p0 is the threshold RL_B. If the difference is below the threshold value p0, the difference between the pitch p0 and the threshold value RL_A is calculated as the control variable C (SD24). Then, the voice processing unit 28 generates the voice signal Y by changing the pitch p0 of the target voice by the control variable C (SD25).

他方、音高p0が閾値RH_Bを下回る場合(SD21:NO)および音高p0が閾値RL_Bを上回る場合(SD22:N0)には処理区間Qが終了する。すなわち、制御変数Cの設定(SD23,SD24)や音高p0の補正(SD25)は実行されず、区間設定部24は制御情報Fを数値1から数値0に変更する(SD26)。   On the other hand, if the pitch p0 falls below the threshold RH_B (SD21: NO) and if the pitch p0 exceeds the threshold RL_B (SD22: N0), the processing section Q ends. That is, the setting of the control variable C (SD23, SD24) and the correction of the pitch p0 (SD25) are not performed, and the section setting unit 24 changes the control information F from numerical value 1 to numerical value 0 (SD26).

以上の説明から理解される通り、第8実施形態では、対象音声の音高p0が閾値RH_Aを上回る時点から閾値RH_Bを下回る時点までの区間と、音高p0が閾値RL_Aを下回る時点から閾値RL_Bを上回る時点までの区間とが、音高p0を補正する処理区間Qとして設定される。したがって、音高p0が各閾値(RH_A,RH_B,RL_A,RL_B)の近傍で変動しても音高p0に対する補正の有無は変化しない。すなわち、第8実施形態によれば、第7実施形態と同様の効果が実現されるほか、対象音声の音高p0に対する補正の有無が短時間で頻繁に切替わる可能性を低減できるという利点がある。   As understood from the above description, in the eighth embodiment, a section from the time when the pitch p0 of the target voice exceeds the threshold RH_A to the time when it falls below the threshold RH_B, and the time when the pitch p0 falls below the threshold RL_A, the threshold RL_B The section up to the point in time is set as a processing section Q for correcting the pitch p0. Therefore, even if the pitch p0 fluctuates in the vicinity of each threshold (RH_A, RH_B, RL_A, RL_B), the presence or absence of correction for the pitch p0 does not change. That is, according to the eighth embodiment, the same effects as the seventh embodiment are realized, and the possibility that the presence or absence of correction for the pitch p0 of the target voice can be frequently switched in a short time can be reduced. is there.

なお、以上の説明では、処理区間Q内で対象音声の音高p0を閾値RH_Aまたは閾値RL_Aに補正したが、処理区間Q内で音高p0を閾値RH_Bまたは閾値RL_Bに補正する構成や、処理区間Q内で音高p0を参照音声の音高pREFに補正する構成も採用され得る。また、対象音声の音高p0または参照音声の音高pREFの微細な変動を抑制したうえで処理区間Qや制御変数Cを設定することも可能である。音高p0または音高pREFの微細な変動の抑制には例えばローパスフィルタが好適に利用される。   In the above description, although the pitch p0 of the target voice is corrected to the threshold RH_A or the threshold RL_A in the processing section Q, the configuration for correcting the pitch p0 to the threshold RH_B or the threshold RL_B in the processing section Q, or A configuration may also be employed in which the pitch p0 is corrected to the pitch pREF of the reference voice in the section Q. In addition, it is also possible to set the processing section Q and the control variable C while suppressing minute fluctuations of the pitch p0 of the target voice or the pitch pREF of the reference voice. For example, a low pass filter is preferably used to suppress minute fluctuations in the pitch p0 or the pitch pREF.

<変形例>
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
<Modification>
Each form described above can be variously modified. The aspect of a specific deformation | transformation is illustrated below. It is also possible to appropriately merge two or more aspects arbitrarily selected from the following exemplifications.

(1)処理区間Q内における制御変数Cの変化の態様は任意である。例えば、前述の各形態では、処理区間Qにて制御変数Cが直線的に増加する構成を例示したが、処理区間Q内で制御変数Cを曲線的(例えば非線形)に変化させることも可能である。 (1) The mode of change of the control variable C in the processing zone Q is arbitrary. For example, in each of the above-described embodiments, the configuration in which the control variable C linearly increases in the processing section Q is illustrated, but it is also possible to change the control variable C in a curvilinear manner (for example, non-linearly) in the processing section Q is there.

(2)特徴量特定部22が特定する特徴量の種類は前述の例示(音高P,経過時間E,音量D)に限定されない。例えば、前述の各形態で例示した特徴量の微分値(時間変化率)や2階微分値を特徴量として算定することも可能である。また、前述の各形態では離散的な複数の音高の何れかを音高Pとして特定したが、時間的に連続に変化するように音高P(ピッチカーブ)を特定することも可能である。 (2) The types of feature amounts specified by the feature amount specifying unit 22 are not limited to the above-described examples (pitch P, elapsed time E, volume D). For example, it is also possible to calculate the differential value (time change rate) or the second-order differential value of the feature quantity illustrated in each of the above-described embodiments as the feature quantity. Moreover, although any one of a plurality of discrete pitches is specified as the pitch P in the above-described embodiments, it is also possible to specify the pitch P (pitch curve) so as to change continuously in time. .

(3)前述の各形態では、処理区間Qの設定に適用される閾値(PTH,ETH,DTH)を利用者からの指示に応じて可変に設定したが、閾値の設定の方法は任意である。例えば、特徴量特定部22が特定した特徴量の過去の数値に応じて当該特徴量の閾値を設定する構成や、特徴量特定部22が特定した特徴量に対する統計的処理で算定された数値に応じて閾値を設定する構成、または、他の特徴量の数値に応じて特徴量の閾値を設定する構成も採用され得る。もっとも、閾値が可変値である構成は必須ではなく、閾値を所定値に固定することも可能である。また、処理区間Qに該当すると判断される特徴量の範囲の上限値と下限値とを設定する構成(上限の閾値と下限の閾値とを別個に設定する構成)や、処理区間Qに該当する特徴量の範囲を複数に分割して設定する構成も採用され得る。 (3) In the above embodiments, the threshold (PTH, ETH, DTH) applied to the setting of the processing zone Q is variably set according to the instruction from the user, but the method of setting the threshold is arbitrary. . For example, according to a configuration in which the threshold value of the feature amount is set according to the past value of the feature amount specified by the feature amount specifying unit 22, or a numerical value calculated by statistical processing for the feature amount specified by the feature amount specifying unit 22. A configuration in which the threshold is set accordingly or a configuration in which the threshold of the feature is set according to the value of another feature may be adopted. However, the configuration in which the threshold is a variable value is not essential, and it is also possible to fix the threshold to a predetermined value. In addition, a configuration in which the upper limit value and the lower limit value of the range of feature amounts determined to correspond to the processing section Q are set (configuration in which the upper limit threshold and the lower limit threshold are separately set) or the processing section Q A configuration in which the range of the feature amount is divided into a plurality and set may also be adopted.

(4)複数種の特徴量を処理区間Qの設定に適用する構成では、各特徴量を個別に加重する(優劣を設定する)ことも可能である。例えば、加重値が大きい特徴量が閾値を上回る単位区間については、他の特徴量が閾値を下回る場合でも処理区間Qに該当すると判定するといった具合である。 (4) In the configuration in which a plurality of types of feature quantities are applied to setting of the processing section Q, it is also possible to individually weight each feature quantity (set superiority or inferiority). For example, with respect to a unit section in which a feature amount having a large weight value exceeds a threshold, it is determined that the unit section corresponds to the processing section Q even when another feature amount is below the threshold.

(5)前述の各形態では、経過時間Eを有声区間Vの始点から起算したが、経過時間Eの算定の対象は有声区間Vに限定されない。例えば、有声/無声を区別せずに音声が存在する区間(以下「音声区間」という)の始点から経過時間Eを算定することも可能である。音声区間は、対象音声のうち無音区間以外の区間である。また、例えば、持続的に発音可能な音素が存在する区間(以下「持続音区間」という)の始点から経過時間Eを起算することも可能である。持続音区間に存在する持続可能な音素の典型例は有声音(例えば母音)であるが、発音が時間的に継続され得る子音(例えば摩擦音)も包含する。以上の説明から理解される通り、経過時間Eは、対象音声のうち特定の区間の始点からの経過時間として包括的に表現され、有声区間Vや音声区間や持続音区間は、経過時間Eが算定される特定の区間の例示である。 (5) In each of the above-described embodiments, the elapsed time E is calculated from the start point of the voiced segment V, but the target of calculation of the elapsed time E is not limited to the voiced segment V. For example, it is also possible to calculate the elapsed time E from the start point of the section in which speech is present (hereinafter referred to as "voice section") without distinguishing between voiced and unvoiced. The voice section is a section other than the silent section in the target voice. In addition, for example, it is also possible to calculate the elapsed time E from the start point of a section in which a phoneme that can be pronounced continuously exists (hereinafter referred to as a "continuous sound section"). A typical example of a sustainable phoneme present in a sustained tone interval is a voiced tone (eg, a vowel), but also includes a consonant (eg, a frictional tone) in which the pronunciation can be continued temporally. As understood from the above description, the elapsed time E is comprehensively expressed as an elapsed time from the start point of a specific section in the target voice, and the voiced section V, the voice section and the sustained sound section have the elapsed time E It is an illustration of the specific section calculated.

(6)前述の各形態では、音声信号Xの音高Pが変動する時点を境界として有声区間v0を有声区間Vに区分したが、音声信号Xの音量Dが変動する時点を境界として有声区間v0を対象楽曲の音符毎の有声区間Vに区分することも可能である。 (6) In the above-described embodiments, the voiced section v0 is divided into the voiced section V with the point at which the pitch P of the audio signal X changes as a boundary, but the voiced section with the point at which the volume D of the audio signal X changes It is also possible to divide v0 into a voiced section V for each note of the target music.

(7)音声信号Xに付与される声質の種類は前述の例示(気息音,ボーカルフライ)に限定されない。例えば、音声信号Xの処理区間Qを嗄声(濁声)や喉詰声や唸り声(Growl)に変換する構成や、音声信号Xの処理区間Qを張りのある音声(tense)や張りのない音声(lux)に変換する構成も採用される。嗄声や喉詰声の付加には、例えば特開2010−191042号公報や特開2006−145867号公報の技術が好適に利用される。また、音声信号Xのうち発音開始の直後の区間を強調することで対象音声を張りのある音声に変換し、発音開始の直後の区間を抑制することで対象音声を張りのない音声に変換することが可能である。 (7) The type of voice quality given to the audio signal X is not limited to the above-mentioned examples (breath sound, vocal fly). For example, a configuration for converting the processing section Q of the audio signal X into a hoarse voice (cloudy voice), a throat voice or a growlling voice (Growl), a processing section Q of the audio signal X is a tense voice or no tension. A configuration for converting to voice (lux) is also adopted. For the addition of hoarse voice and throat clog, for example, the techniques of JP-A-2010-191042 and JP-A-2006-145867 are suitably used. In addition, the target voice is converted into a robust voice by emphasizing the section of the audio signal X immediately after the start of pronunciation, and the target voice is converted into a flat voice by suppressing the section immediately after the start of pronunciation. It is possible.

(8)携帯電話機等の端末装置と通信するサーバ装置により音声処理装置100を実現することも可能である。例えば、音声処理装置100は、端末装置から通信網を介して受信した音声信号X(楽曲データZや合成データS)について前述の各形態で例示した処理を実行することで音声信号Yを生成し、端末装置を宛先として音声信号Yを通信網に送信する。 (8) It is also possible to realize the voice processing device 100 by a server device that communicates with a terminal device such as a mobile telephone. For example, the audio processing device 100 generates the audio signal Y by executing the processing exemplified in the above-described embodiments for the audio signal X (music data Z and synthetic data S) received from the terminal device via the communication network. The voice signal Y is transmitted to the communication network with the terminal device as a destination.

100……音声処理装置、200……信号供給装置、10……演算処理装置、12……記憶装置、14……表示装置、16……操作機器、18……放音装置、22……特徴量特定部、24……区間設定部、26……変数制御部、28……音声処理部。 100: voice processing device, 200: signal supply device, 10: arithmetic processing device, 12: storage device, 14: display device, 16: operating device, 18: sound emitting device, 22: feature Amount specifying unit, 24: section setting unit, 26: variable control unit, 28: voice processing unit.

Claims (1)

対象音声の特徴量を特定する特徴量特定手段と、
前記特徴量と閾値との比較結果に応じて処理区間を設定する区間設定手段と、
声質を制御するための制御変数を前記処理区間について設定する変数制御手段と、
前記対象音声のうち前記処理区間の声質を前記制御変数に応じて制御した音声の音声信号を生成する音声処理手段と
を具備する音声処理装置。
Feature amount specifying means for specifying a feature amount of the target voice;
A section setting unit configured to set a processing section according to the comparison result of the feature amount and the threshold value;
Variable control means for setting control variables for controlling voice quality for the processing section;
A voice processing apparatus comprising: voice processing means for generating a voice signal of voice in which voice quality of the processing section of the target voice is controlled according to the control variable.
JP2019046089A 2013-10-17 2019-03-13 Audio processing method and audio processing device Active JP6741105B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013216546 2013-10-17
JP2013216546 2013-10-17

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014210143A Division JP6497025B2 (en) 2013-10-17 2014-10-14 Audio processing device

Publications (2)

Publication Number Publication Date
JP2019086801A true JP2019086801A (en) 2019-06-06
JP6741105B2 JP6741105B2 (en) 2020-08-19

Family

ID=53375976

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2014210143A Active JP6497025B2 (en) 2013-10-17 2014-10-14 Audio processing device
JP2019046089A Active JP6741105B2 (en) 2013-10-17 2019-03-13 Audio processing method and audio processing device

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2014210143A Active JP6497025B2 (en) 2013-10-17 2014-10-14 Audio processing device

Country Status (1)

Country Link
JP (2) JP6497025B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6798253B2 (en) * 2016-11-02 2020-12-09 ヤマハ株式会社 Signal processing method and signal processing device

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04102326U (en) * 1991-02-06 1992-09-03 横河電機株式会社 Waveform shaping circuit
JPH07221613A (en) * 1994-01-13 1995-08-18 Fluke Corp Trigger circuit
JP2007310204A (en) * 2006-05-19 2007-11-29 Yamaha Corp Musical piece practice support device, control method, and program
JP2007316261A (en) * 2006-05-24 2007-12-06 Casio Comput Co Ltd Karaoke machine
WO2008102594A1 (en) * 2007-02-19 2008-08-28 Panasonic Corporation Tenseness converting device, speech converting device, speech synthesizing device, speech converting method, speech synthesizing method, and program
JP2011221064A (en) * 2010-04-05 2011-11-04 Brother Ind Ltd Karaoke system
JP2012063709A (en) * 2010-09-17 2012-03-29 Yamaha Corp Vibrato adding device

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10116088A (en) * 1996-10-14 1998-05-06 Roland Corp Effect giving device
JP2007041012A (en) * 2003-11-21 2007-02-15 Matsushita Electric Ind Co Ltd Voice quality converter and voice synthesizer
JP5125958B2 (en) * 2008-09-30 2013-01-23 ブラザー工業株式会社 Range identification system, program
JP2010191042A (en) * 2009-02-17 2010-09-02 Yamaha Corp Voice processor and program
JP5699496B2 (en) * 2010-09-06 2015-04-08 ヤマハ株式会社 Stochastic model generation device for sound synthesis, feature amount locus generation device, and program
JP2013033103A (en) * 2011-08-01 2013-02-14 Panasonic Corp Voice quality conversion device and voice quality conversion method

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04102326U (en) * 1991-02-06 1992-09-03 横河電機株式会社 Waveform shaping circuit
JPH07221613A (en) * 1994-01-13 1995-08-18 Fluke Corp Trigger circuit
JP2007310204A (en) * 2006-05-19 2007-11-29 Yamaha Corp Musical piece practice support device, control method, and program
JP2007316261A (en) * 2006-05-24 2007-12-06 Casio Comput Co Ltd Karaoke machine
WO2008102594A1 (en) * 2007-02-19 2008-08-28 Panasonic Corporation Tenseness converting device, speech converting device, speech synthesizing device, speech converting method, speech synthesizing method, and program
US20090204395A1 (en) * 2007-02-19 2009-08-13 Yumiko Kato Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
JP2011221064A (en) * 2010-04-05 2011-11-04 Brother Ind Ltd Karaoke system
JP2012063709A (en) * 2010-09-17 2012-03-29 Yamaha Corp Vibrato adding device

Also Published As

Publication number Publication date
JP2015099363A (en) 2015-05-28
JP6497025B2 (en) 2019-04-10
JP6741105B2 (en) 2020-08-19

Similar Documents

Publication Publication Date Title
US8311831B2 (en) Voice emphasizing device and voice emphasizing method
JP4355772B2 (en) Force conversion device, speech conversion device, speech synthesis device, speech conversion method, speech synthesis method, and program
US10217452B2 (en) Speech synthesis device and method
JP2015034920A (en) Voice analysis device
JP4265501B2 (en) Speech synthesis apparatus and program
US10553240B2 (en) Conversation evaluation device and method
JP2014501941A (en) Music content production system using client terminal
JP2020148914A (en) Keyboard musical instrument, method and program
JP7355165B2 (en) Music playback system, control method and program for music playback system
JP6728843B2 (en) Electronic musical instrument, musical tone generating device, musical tone generating method and program
JP5136128B2 (en) Speech synthesizer
JP6741105B2 (en) Audio processing method and audio processing device
WO2014142200A1 (en) Voice processing device
JP2017045073A (en) Voice synthesizing method and voice synthesizing device
JP5360489B2 (en) Phoneme code converter and speech synthesizer
JP2009157220A (en) Voice editing composite system, voice editing composite program, and voice editing composite method
JP6399715B1 (en) Singing support device and karaoke device
JP5034642B2 (en) Karaoke equipment
JP2007225916A (en) Authoring apparatus, authoring method and program
JP5471138B2 (en) Phoneme code converter and speech synthesizer
JP4544258B2 (en) Acoustic conversion device and program
JP6372066B2 (en) Synthesis information management apparatus and speech synthesis apparatus
JP4387822B2 (en) Prosody normalization system
JP6191094B2 (en) Speech segment extractor
JP2022027381A (en) Reproduction control method and reproduction control system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190405

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200623

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200706

R151 Written notification of patent or utility model registration

Ref document number: 6741105

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151