JP2008139568A - 音声処理装置および音声処理方法、並びに、プログラム - Google Patents

音声処理装置および音声処理方法、並びに、プログラム Download PDF

Info

Publication number
JP2008139568A
JP2008139568A JP2006325780A JP2006325780A JP2008139568A JP 2008139568 A JP2008139568 A JP 2008139568A JP 2006325780 A JP2006325780 A JP 2006325780A JP 2006325780 A JP2006325780 A JP 2006325780A JP 2008139568 A JP2008139568 A JP 2008139568A
Authority
JP
Japan
Prior art keywords
unit
relative pitch
speech
frequency
frequency characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006325780A
Other languages
English (en)
Other versions
JP4264841B2 (ja
Inventor
Keiichi Yamada
敬一 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006325780A priority Critical patent/JP4264841B2/ja
Priority to EP07254504A priority patent/EP1927979B1/en
Priority to DE602007012041T priority patent/DE602007012041D1/de
Priority to KR1020070119084A priority patent/KR20080050311A/ko
Priority to US11/945,591 priority patent/US7979270B2/en
Priority to CN200710187573XA priority patent/CN101192405B/zh
Publication of JP2008139568A publication Critical patent/JP2008139568A/ja
Application granted granted Critical
Publication of JP4264841B2 publication Critical patent/JP4264841B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

【課題】無声音や無声部分を含む音声の韻律識別を行う。
【解決手段】相互相関行列計算部は、テンプレート周波数特性を用いて一方の周波数特性を固定して相互相関行列を得る。主対角線シフト量計算部および相対ピッチ差計算部は、主対角線シフト量を計算し、相対ピッチ差を計算する。すなわち、テンプレート周波数特性と、分析フレームの周波数特性とから求められる相互相関行列を用いて、相対ピッチ差が求められる。このようにすることにより、時間的に前後する分析フレーム間での相対ピッチ差は、テンプレート周波数特性のピッチ周波数との相対ピッチ差で表現されることとなり、音声波形の途中に無声音が含まれるような場合においても、その無声音の前後において相対ピッチパターンの連続性が不適切になることを回避することができる。本発明は、音声認識装置に適用できる。
【選択図】図31

Description

本発明は、音声処理装置および音声処理方法、並びに、プログラムに関し、特に、入力音声の韻律的特徴に基づいて識別を行なう場合に用いて好適な、音声処理装置および音声処理方法、並びに、プログラムに関する。
近年、音声認識技術が広く利用されてきている。従来の音声認識技術は、基本的に、音声に含まれる情報のうち、音韻に関する情報(以下「音韻情報」と称する)を認識する技術であり、一般的な音声認識技術では、音声に含まれる音韻以外の情報である韻律に関する情報(以下「韻律情報」称する)については、積極的に利用されているとは言い難い状況である。
しかしながら、韻律情報を利用する従来技術が全くないわけではなく、例えば文節境界位置をより適切に決定するために、韻律情報を利用している技術等が知られている(例えば、特許文献1参照)。
特開平04−66999号公報
しかしながら、上述した特許文献1に記載の従来技術は、音声認識技術の精度向上のために韻律情報を補助的に利用しているものであり、韻律情報が有する、より多様な情報を明に識別するものではない。
ところで、人間の発話音声には、音韻情報のみでは識別が困難な場合がある。例えば、日本語の場合、肯定的な意図を表す発話である「うん」と否定的な意図を表す発話である「ううん」とでは、音韻情報的にはほとんど同じ発話である。このような場合に、音声に含まれる音韻情報のみでは、肯定的な意図と否定的な意図とを識別することは困難であり、いわゆる韻律情報、例えば「イントネーションのパターン」や「音韻継続時間」等の情報に基づいて識別を行う必要がある。
音声信号処理においてイントネーションに関する処理を取り扱う場合には、ピッチ周波数(あるいはピッチ周期)の検出が広く利用されている。しかし、ピッチ周波数の検出では、ノイズ等の影響によりエラーが発生しやすいといった問題がある。また、ささやき声やピッチ性が低い音声においても、ピッチ周波数検出のエラーが発生しやすい。このようなピッチ周波数の検出エラーが発生しやすい状況において、あるいは検出エラーが発生しやすい対象に対しては、韻律情報に基づく識別は困難であると言える。
本発明はこのような状況に鑑みてなされたものであり、ノイズ等の影響が大きい場合や、ささやき声やピッチ性が低い音声においても、ピッチ周波数の検出が有効に行え、入力音声の韻律的特徴に基づいて信頼性の高い音声認識を行うことができるようにするものである。
本発明の一側面の音声処理装置は、入力音声の韻律的特徴に基づいて識別を行う音声処理装置であって、前記入力音声を取得する取得手段と、前記取得手段により取得された前記入力音声のそれぞれの時間における第1の周波数特性と、所定の第2の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求める音響分析手段と、前記音響分析手段により求められた前記相対ピッチ変化量に基づいて識別処理を行う識別手段とを備える。
前記音響分析手段には、前記第1の周波数特性と、前記第2の周波数特性から得られる相互相関行列において、前記第1の周波数特性と前記第2の周波数特性との2つの周波数特性間の対応するピーク同士を結ぶ稜線の、主対角線からのシフト量に基づいて、前記相対ピッチ変化量を求めさせるようにすることができる。
前記第2の周波数特性を記憶する記憶手段を更に備えさせるようにすることができる。
前記記憶手段には、複数の前記第2の周波数特性を記憶させるようにすることができ、前記音響分析手段には、前記取得手段により取得された前記入力音声に応じて、前記記憶手段に記憶されている複数の前記第2の周波数特性のうちの適するものを用いて、前記相対ピッチ変化量を求めさせるようにすることができる。
前記入力手段からの前記入力音声を音響分析して得られる特徴量に基づいて音声認識を行う音声認識手段と、前記音声認識手段による音声認識結果のみでは、正しく認識されない可能性がある特定の単語を記憶する特定単語記憶手段と、前記音声認識手段による音声認識結果が、前記特定単語記憶手段に記憶されている前記特定の単語と一致する場合、前記韻律識別手段による識別結果と前記音声認識手段による認識結果とを統合して出力し、前記音声認識手段による音声認識結果が、前記特定単語記憶手段に記憶されている前記特定の単語と一致しない場合、前記音声認識手段による認識結果を出力する選択手段とを更に備えさせるようにすることができる。
本発明の一側面の音声処理方法は、入力音声の韻律的特徴に基づいて識別を行う音声処理装置の音声処理方法であって、前記入力音声を取得し、取得された前記入力音声のそれぞれの時間における第1の周波数特性と、所定の第2の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求め、前記相対ピッチ変化量に基づいて識別処理を行うステップを含む。
本発明の一側面のプログラムは、入力音声の韻律的特徴に基づいて識別を行う処理をコンピュータに実行させるためのプログラムであって、前記入力音声の取得を制御し、取得が制御された前記入力音声のそれぞれの時間における第1の周波数特性と、所定の第2の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求め、前記相対ピッチ変化量に基づいて識別処理を行うステップを含む処理をコンピュータに実行させる。
本発明の一側面においては、入力音声が取得され、入力音声のそれぞれの時間における第1の周波数特性と、所定の第2の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量が求められ、相対ピッチ変化量に基づいて識別処理が実行される。
音声認識装置は、独立した装置であっても良いし、情報処理装置の音声認識処理を行うブロックであっても良い。
以上のように、本発明の一側面によれば、入力音声の韻律的特徴に基づいて識別を行うことができ、特に、入力音声のそれぞれの時間における第1の周波数特性と、所定の第2の周波数特性との間の周波数方向の変化に基づく相対ピッチ変化が求められるので、無声音や無音部分が含まれている場合でも、正しく認識を行うことができる。
以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書または図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書または図面に記載されていることを確認するためのものである。従って、明細書または図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
本発明の一側面の音声処理装置は、入力音声の韻律的特徴に基づいて識別を行う音声処理装置(例えば、図30の相対ピッチ変化量計算部151を備えた図2の韻律識別部32を含む装置)であって、前記入力音声を取得する取得手段(例えば、図2の入力部51)と、前記取得手段により取得された前記入力音声のそれぞれの時間における第1の周波数特性と、所定の第2の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求める音響分析手段(例えば、図30の相対ピッチ変化量計算部151を備えた図2の音響分析部52)と、前記音響分析手段により求められた前記相対ピッチ変化量に基づいて識別処理を行う識別手段(例えば、図2の識別部53)とを備える。
前記第2の周波数特性を記憶する記憶手段(例えば、図30のテンプレート周波数特性記憶部161)を更に備えることができる。
前記入力手段からの前記入力音声を音響分析して得られる特徴量に基づいて音声認識を行う音声認識手段(例えば、図1の音声認識部33)と、前記音声認識手段による音声認識結果のみでは、正しく認識されない可能性がある特定の単語を記憶する特定単語記憶手段(例えば、特定単語記憶部35)と、前記音声認識手段による音声認識結果が、前記特定単語記憶手段に記憶されている前記特定の単語と一致する場合、前記韻律識別手段による識別結果と前記音声認識手段による認識結果とを統合して出力し、前記音声認識手段による音声認識結果が、前記特定単語記憶手段に記憶されている前記特定の単語と一致しない場合、前記音声認識手段による認識結果を出力する選択手段(例えば、図1の結果選択部34)とを更に備えることができる。
本発明の一側面の音声処理方法は、入力音声の韻律的特徴に基づいて識別を行う音声処理装置(例えば、図30の相対ピッチ変化量計算部151を備えた図2の韻律識別部32を含む装置)の音声処理方法であって、前記入力音声を取得し(例えば、図14のステップS1の処理)、取得された前記入力音声のそれぞれの時間における第1の周波数特性と、所定の第2の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求め(例えば、図33のステップS121の処理)、前記相対ピッチ変化量に基づいて識別処理を行う(例えば、図14のステップS4乃至ステップS6の処理)ステップを含む。
本発明の一側面のプログラムは。入力音声の韻律的特徴に基づいて識別を行う処理をコンピュータに実行させるためのプログラムであって、前記入力音声の取得を制御し(例えば、図14のステップS1の処理)、取得が制御された前記入力音声のそれぞれの時間における第1の周波数特性と、所定の第2の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求め(例えば、図33のステップS121の処理)、前記相対ピッチ変化量に基づいて識別処理を行う(例えば、図14のステップS4乃至ステップS6の処理)ステップを含む処理をコンピュータに実行させる。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
図1は、本発明を適用した音声認識装置11の構成を示すブロック図である。
音声認識装置11は、入力部31、韻律識別部32、音声認識部33、結果選択部34、特定単語記憶部35、および、出力部36を含んで構成される。
入力部31は、例えば、マイクなどにより取得された音声信号、または、他の装置から供給される音声信号の入力を受ける。
韻律識別部32は、入力された音声信号の韻律識別処理を実行する。韻律とは、イントネーション、スピードの変化、大きさの変化など、テキストとして表現できない音声情報の特徴を示すものである。韻律識別部32による韻律識別処理の詳細については後述する。
音声認識部33は、入力された音声信号の音声認識処理を実行する。ここでは、公知のいずれの音声認識処理が実行されるものであっても良い。
結果選択部34は、音声認識部33の処理の結果が、特定単語記憶部35に記録されている特定の単語である場合、韻律識別部32による韻律識別結果を付与して、出力部36に音声認識結果を出力し、音声認識部33の処理の結果が、特定単語記憶部35に記録されている特定の単語ではない場合、音声認識部33の処理の結果をそのまま出力部36に供給する。
特定単語記憶部35は、音声認識部33の処理に用いられる特定の単語の情報を記録するものである。具体的には、特定単語記憶部35には、例えば、「うん」などのように、韻律を用いて認識するべき特定の単語か記憶されている。
出力部36は、結果選択部34から供給された音声認識結果を外部に出力する、すなわち、画面に表示したり、音として出力したり、さらには、その認識結果を用いて、他の装置を動作させたりなどの指令を行なうものである。
次に、音声認識装置11の動作について説明する。
図1において、入力部31より入力された音声は、韻律識別部32と音声認識部33に供給される。韻律識別部32および音声認識部33のそれぞれにおいて、入力音声データに対して処理が行なわれ、その結果として、韻律識別部32からは、入力音声データの韻律パターンに基づいて識別された発話タイプ(あるいはユーザの発話意図)が韻律識別結果として出力され、また音声認識部33からは、入力音声データに対応したテキスト情報が音声認識結果として出力される。これら韻律識別結果と音声認識結果は、結果選択部34へと与えられる。
結果選択部34では、与えられた音声認識結果と特定単語記憶部35に貯えられている特定単語との比較を行ない、音声認識結果が特定単語と一致する場合には、音声認識結果に韻律識別結果が付与あるいは統合され、出力部36より出力される。また、音声認識結果が特定単語と一致しない場合には、音声認識結果がそのまま出力部36より出力される。
例えば、特定単語として「うん」が設定されており、韻律識別部32において、韻律の識別結果を元に、肯定を表す「うん」、否定を表す「ううん」及び疑問を表す「うん?」の3種類の発話タイプの識別が行なわれる場合において、特定単語である「うん」に対しては、肯定、否定、疑問のいずれかの発話タイプ(ユーザの発話意図)に関する情報が認識結果に付与されることとなる。
また、例えば、韻律識別部32では、供給された音声を解析して、その発話のタイプを、「肯定」、「否定」、「疑問」、または、これら3つの発話タイプ以外であることを意味する「その他」から成る4つの発話タイプのいずれかに識別するものとしてもよい。そして、結果選択部34は、韻律識別結果として「その他」が与えられた時には音声認識部33からの音声認識結果のみを出力し、韻律識別結果が「肯定」、「否定」、「疑問」のいずれかの時には韻律識別部32からの韻律識別結果を音声認識部33からの音声認識結果に付与して出力するものとしてもよい。このような場合には、特定単語記憶部35を省略することが可能である
図2は、図1の韻律識別部32の構成を示すブロック図である。
韻律識別部32は、入力部51、音響分析部52、識別部53、パラメータ記憶部54、および、出力部55を含んで構成されている。
入力部51は、マイクなどの音声信号を入力する装置とその入力信号を増幅するアンプ、およびデジタル信号に変換するAD変換器などによって構成される。この入力部51では、入力信号を例えば16kHzでサンプリングした後、音響分析部52へ送る。
音響分析部52は、周波数特性分析部61と相対ピッチ変化量計算部62とを含んで構成され、入力された音声信号から認識に必要な特徴量の抽出を行ない、これを識別部53に送る。音響分析部52の内部処理については、後述する。
識別部53では、予め学習用の音声データを音響分析して得られる特徴量をもとに作成しておいたパラメータ記憶部54のパラメータを用いて、未知音声データに対する認識処理を行なう。
ここで、未知音声データに対する認識処理とは、入力された音声信号に対して、与えられた韻律識別単位辞書の中から、入力に対応した韻律識別単位を選び出す処理のことである。この認識手法としては、主なものとして、DP(DynamicProgramming)マッチング、ニューラルネットワーク、HMM(隠れマルコフモデル)などを用いたものが使われる。
DPマッチングは、各音声信号を分析して得られる特徴量からテンプレートと称される標準パターンを、パラメータとして予め求めておき、未知音声の特徴量と比較して最も近いと判定されるものを見つけるという方式である。また、発話速度の変動を吸収するために、ダイナミックタイムワーピング(dynamictimewarping)と呼ばれる手法により、テンプレートとの歪みを最小化するように時間軸の伸縮を行なう方法が広く用いられる。
ニューラルネットワークは、人間の脳の構造を模倣するネットワークモデルによって認識を行おうとするもので、学習過程により予めパスの重み係数をパラメータとして決定しておき、そのネットワークに未知音声の特徴量を入力して得られる出力をもとに、韻律識別単位辞書内の各韻律識別単位との距離を求め、入力された音声信号に対応する韻律識別単位を決定しようとするものである。
また、HMMは、確率モデルにより認識を行なおうとするもので、予め状態遷移モデルに対して、その遷移確率と出力シンボル確率を学習データをもとに決定しておき、未知音声の特徴量に対する各モデルの生起確率から韻律識別単位の決定を行なおうとする方式である。
以上述べたように、識別部53における認識処理としては、一般に、学習過程と認識過程とを有しており、学習過程としては、予め学習用データから決定されたパラメータ、すなわち、テンプレートや、ネットワークモデルの重み係数、確率モデルの統計的パラメータなどを求めておき、これをパラメータ記憶部54に記憶しておく。そして、認識過程では、入力された未知音声信号を音響分析した後、与えられた韻律識別単位辞書の中の韻律識別単位それぞれに対して、その認識手法に応じた距離や生起確率などのスコア付けを行ない、そのスコアが最も高いもの、または、上位複数個を、認識結果として選び出すということを行なう。
例えば、特定単語「うん」に対して、識別部53は、韻律の識別結果を元に、肯定を表す「うん」、否定を表す「ううん」及び疑問を表す「うん?」の3種類の発話タイプの識別を行い、出力部55に供給する。
出力部55では、供給された識別結果を結果選択部34に供給する。
ところで、従来のピッチ周波数の検出においては、発声における声帯振動の一周期であるピッチ周期の時間長(あるいはそのピッチ周期の逆数で表されるピッチ周波数)を、一意に決定することを前提としている。このピッチ周波数を一意に決定する処理は、発話音声に対応した周波数特性の分布において、最も低域に存在するピーク成分の中心周波数を求めることを意味する。例えば、図3に示すような通常音声の周波数特性の場合には、周波数fpがピッチ周波数に相当する。
しかしながら、発話音声がノイズに混在している場合や、ささやき声のようなピッチ性の低い発話音声の場合では、上述したような従来のピッチ周波数の決定処理は困難なものとなる。例えば、図4に示すようなささやき声の周波数特性の場合には、最も低域に存在するピーク成分の中心周波数を検出することが困難である。これは、ピッチ周波数を決定することが周波数特性のピーク性に依存した処理だからとも言える。
これに対して、韻律識別部32では、図4に示すようなささやき声などのようなピッチ周波数の検出が困難な場合においても、相対ピッチ変化量を用いることで、適切なピッチ周波数を一意に決定するという周波数特性のピーク性に依存した処理を回避することができ、イントネーションの変化をよりロバストに捉えることができる。
また、従来のピッチ周波数検出では、発話音声に対応した周波数特性を1つの特徴量分布として捉え、その1つの分布から所望の特徴量(ピッチ周波数)を抽出するが、韻律識別部32においては、ピッチ周波数を決定せずにその変化量を直接求めるため、ピッチ周波数やその変化範囲を意味するピッチ変動域を正規化する処理も必要としない。また、韻律識別部32においては、発話音声におけるイントネーションの変化をより適切に捉えることができる。
このような処理は、主に音響分析部52が実行する処理により実現されるものである。
次に、図5は、周波数特性分析部61の機能構成を示す機能ブロック図である。すなわち、周波数特性分析部61は、時間周波数変換処理部81、対数変換部82、および、周波数領域抽出部83の機能を、ハードウェア、または、ソフトウェアとして有するものである。
時間周波数変換処理部81は、入力された音声信号を、FFT分析等の時間周波数変換処理によって周波数領域への変換を行ない、一般的な周波数特性を得て、対数変換部に供給する。この周波数特性の一例を、図6に示す。
対数変換部82は、時間周波数変換処理部81から供給された、一般的な周波数特性における周波数軸を対数化することにより、対数周波数軸上での周波数特性に変換し、周波数領域抽出部83に供給する。この対数周波数軸上での周波数特性の一例を、図7に示す。
周波数領域抽出部83は、対数周波数軸上での周波数特性において、所望の周波数領域部分のみを取り出し、この結果を周波数特性分析部の結果として出力する。図8に、図7の周波数特性のうちの所望の周波数領域Rwの部分のみを取り出した周波数特性を例示する。
図8に示すような周波数特性は、周波数特性分析部61における分析の結果として、相対ピッチ変化量計算部62に供給される。
次に、図9は、相対ピッチ変化量計算部62の機能構成を示すブロック図である。すなわち、相対ピッチ変化量計算部62は、相互相関行列計算部101、主対角線シフト量計算部102、および、相対ピッチ差計算部103の機能を、ハードウェア、または、ソフトウェアとして有するものである。
相互相関行列計算部101は、供給された分析フレームのうち、2つの異なる分析フレームにおける周波数特性を用いて、周波数特性間の相互相関行列を計算する。
ここで、上述した周波数特性分析部61から送られてきた時間的に異なる分析フレームにおける2つの周波数特性を、列ベクトルX、Yで表し、その列ベクトルの次数をNとする。これらの列ベクトルX、Yは、それぞれ次の式(1)、(2)のように表され、この時、相互相関行列Mは、式(3)のように、ベクトルXとYの転置ベクトルY’との積で表される行列である。
X=(x1,x2,・・・,xNT ・・・(1)
Y=(y1,y2,・・・,yNT ・・・(2)
M=X・YT ・・・(3)
式(3)で表される相互相関行列Mを、図10に示す。図11は、この相互相関行列Mを、数値によって濃度(明暗)を変えてグラフィック表示したものである。
なお、比較例として、2つの周波数特性が同じである場合、すなわち一方の周波数特性を表わす列ベクトルXのみを用いて求めた自己相関行列を図12に、この自己相関行列を数値によってグラフィック表示したものを図13に、それぞれ示す。
図12および図13からわかるように、1つの周波数特性のみから得られる自己相関行列は対称行列であり、周波数特性の振幅の二乗からなるベクトル(パワースペクトル)は、自己相関行列の主対角線と一致する。パワースペクトルは、自己相関行列における主対角線以外の対角方向成分と比較すると、周波数特性の各ピーク(またはその二乗)同士を結ぶ稜線となる。
これに対して、相互相関行列では、図11に示すように、この稜線bが行列の主対角線aからずれた対角方向成分に位置する。
このような、2つの異なる周波数特性から得られた相互相関行列において、稜線bが主対角線aからずれる理由は、2つの周波数特性それぞれにおけるピッチ周波数が異なるためである。各周波数特性におけるピーク成分の周波数位置はおおよそ各ピッチ周波数の整数倍の位置となる。時間的に異なる分析フレームでの2つの周波数特性では、その分析フレーム間でピッチ周波数が変化しており、ピッチ周波数が異なる2つの周波数特性から得られる相互相関行列(周波数軸は対数表現)では、2つの周波数特性間で対応する各ピーク同士を結ぶ稜線bは、相互相関行列の主対角線aから平行にずれた対角方向成分上に現れる。この稜線bの主対角線aからのずれ、あるいはシフト量cは、2つの周波数特性間のピッチ周波数(対数値)の差に対応する。
主対角線シフト量計算部102は、時間的に異なる分析フレームでの2つの周波数特性から得られる相互相関行列において、図11に示された、主対角線aからの稜線bのシフト量cを求めて、相対ピッチ差計算部103に供給する。
相対ピッチ差計算部103は、主対角線シフト量計算部102から供給された主対角線aからの稜線bのシフト量cに基づいて、各分析フレームにおけるピッチ周波数を求めることなしに、分析フレーム間の対数ピッチ周波数の差(以下「相対ピッチ差」と称する)を求める。
時間的に異なる分析フレームでの2つの周波数特性として、例えば、時間的に隣接する2つの分析フレームそれぞれにおける周波数特性を用いることで、隣接する分析フレーム間における相対ピッチ差を求めることができる。
そして、相対ピッチ差計算部103は、所望の分析フレーム数において、隣接する分析フレーム間の相対ピッチ差を積算することにより、所望のフレーム数分における相対ピッチ変化量を計算する。ここでの所望のフレーム数の決定方法としては、識別部53における学習過程における識別精度を基準とすることができる。
以上のようにして、音響分析部52における内部処理が行われ、識別のための特徴量が抽出される。
次に、図14のフローチャートを参照して、音声認識装置11において実行される、音声認識処理について説明する。
ステップS1において、入力部31は、音声信号の入力を受け、韻律識別部32、音声認識部33に供給する。
ステップS2において、音声認識部33は、供給された音声信号を認識し、テキストデータを得て、結果選択部34に供給する。
ステップS3において、韻律識別部32は、図15を用いて説明する韻律識別処理を実行する。
ステップS4において、結果選択部34は、韻律識別部32および音声認識部33から認識結果の供給を受け、音声認識部33からの認識結果が、特定単語記憶部35に記憶されている特定単語と一致するか否かを判断する。
ステップS4において、特定単語と一致しないと判断された場合、ステップS5において、結果選択部34は、音声認識部33による認識結果を出力部36にそのまま出力して、処理が終了される。
ステップS4において、特定単語と一致すると判断された場合、ステップS6において、結果選択部34は、音声認識部33による認識結果に、韻律識別部32による認識結果を付与して出力部36に出力し、処理が終了される。
また、例えば、韻律識別部32で、供給された音声を解析して、その発話のタイプを、「肯定」、「否定」、「疑問」、または、これら3つの発話タイプ以外であることを意味する「その他」から成る4つの発話タイプのいずれかに識別し、結果選択部34で、韻律識別結果として「その他」が与えられた時には音声認識部33からの音声認識結果のみを出力し、韻律識別結果が「肯定」、「否定」、「疑問」のいずれかの時には韻律識別部32からの韻律識別結果を音声認識部33からの音声認識結果に付与して出力するものとした場合、ステップS4において、結果選択部34は、韻律識別部32および音声認識部33から認識結果の供給を受け、音声認識部33からの認識結果が特定単語と一致するか否かを判断する代わりに、韻律識別結果が、「その他」であるか否かを判断し、「その他」である場合は、ステップS5の処理が実行され、「その他」以外である場合は、ステップS6の処理が実行されるものとすることができる。
次に、図15のフローチャートを参照して、図14のステップS3において実行される、韻律識別処理について説明する。
ステップS31において、図16を用いて後述する周波数分析処理が実行される。
ステップS32において、図17を用いて後述する相対ピッチ差算出処理が実行され、処理は、図14のステップS3に戻り、ステップS4に進む。
次に、図16のフローチャートを参照して、図15のステップS31において周波数特性分析部61により実行される周波数分析処理について説明する。
ステップS61において、時間周波数変換処理部81は、入力された音声信号に、例えば、FFT分析等の時間周波数変換処理を施すことにより周波数領域への変換を行ない、例えば、図6を用いて説明したような一般的な周波数特性を得て、対数変換部82に供給する。
ステップS62において、対数変換部82は、周波数特性における周波数軸を対数化することにより、図7を用いて説明したように、対数周波数軸上での周波数特性に変換し、周波数領域抽出部83に供給する。
ステップS63において、周波数領域抽出部83は、図8を用いて説明したようにして、対数周波数軸上での周波数特性において、所望の周波数領域部分のみを取り出し、この結果を周波数特性分析部の結果として相対ピッチ変化量計算部62に供給し、処理は、図15のステップS31に戻り、ステップS32に進む。
このような処理により、供給された音声信号の周波数分析が実行される。
次に、図17のフローチャートを参照して、図15のステップS32において実行される、相対ピッチ差算出処理1について説明する。
ステップS91において、相対ピッチ変化量計算部62の相互相関行列計算部101は、送られてきた2つの異なる分析フレームにおける周波数特性を用いて、周波数特性間の相互相関行列を計算し、主対角線シフト量計算部102に供給する。
ステップS92において、主対角線シフト量計算部102は、図11を用いて説明したように、主対角線aからの稜線bのシフト量cを求めて、相対ピッチ差計算部103に供給する。
ステップS93において、相対ピッチ差計算部103は、主対角線シフト量計算部102から供給された主対角線aからの稜線bのシフト量cに基づいて、各分析フレームにおけるピッチ周波数を求めることなしに、分析フレーム間の相対ピッチ差を求め、所望の分析フレーム数において、隣接する分析フレーム間の相対ピッチ差を積算することにより、所望のフレーム数分における相対ピッチ変化量を計算し、処理は、図15のステップS32に戻り、図14のステップS3に戻り、ステップS4に進む。
このような処理により、韻律の識別のための相対ピッチ変化量を得ることができる。
次に、図18乃至図25を参照しながら、各種音声における相対ピッチパターンの例について説明する。ここでの相対ピッチパターンとは、相対ピッチ差を音声データ開始点から発話全体を通して積算していき、各分析フレームにおける音声データ開始点からの相対ピッチ変化量を時系列データとして表示したものである。
このようにして得られる相対ピッチパターンは、各分析フレームにおけるピッチ周波数を時系列的に表示した一般的なピッチパターン(以下「実ピッチパターン」と称するものとする)と比較することができる。
図18は、普通に「あいうえお」と発声した男声の音声波形、実ピッチパターン、および、相対ピッチパターンを示す図であり、図19は、普通に「あいうえお」と発声した女声の音声波形、実ピッチパターン、および、相対ピッチパターンを示す図である。図18の図中Aで示される波形、および、図19の図中Aで示される波形が音声波形であり、図18の図中Bで示される波形、および、図19の図中Bで示される波形が実ピッチパターンであり、図18の図中Cで示される波形、および、図19の図中Cで示される波形が相対ピッチパターンである。
次に、図20乃至図25を参照して、音声認識部33における音声認識結果が「うん」というテキストとなるが、実際には、通常、肯定を意図する返事である「うん」と、否定の返事である「ううん」と、疑問を表す「うん?」とのそれぞれに対応する場合について説明する。
図20乃至図22を用いて、普通に発声した場合について説明する。
図20には、肯定の意図を表す「うん」、図21に否定の意図を表す「ううん」、図22に疑問の意図を表す「うん?」の音声波形、実ピッチパターン、および、相対ピッチパターンを示す。図20乃至図22のそれぞれにおいて、図中Aは、音声波形であり、図中Bは。実ピッチパターンであり、図中Cは、相対ピッチパターンである。
図20乃至図22に示されるように、実ピッチパターン、または、上述した処理により求められる相対ピッチパターンによって、音声波形では明確に区別することが困難な、声の高さの変化が適切に捉えられていることがわかる。
次に、図23乃至図25を用いて、ささやき声の場合について説明する。図23には、ささやき声の肯定の意図を表す「うん」、図24に否定の意図を表す「ううん」、図25に疑問の意図を表す「うん?」の音声波形、スペクトログラム、および、相対ピッチパターンを示す。図23乃至図25のそれぞれにおいて、図中Aは、音声波形であり、図中Bは、スペクトログラムであり、図中Cは、相対ピッチパターンである。
図23乃至図25の図中Bのスペクトログラムに示されるように、ささやき声では、一般的なピッチ周波数成分が含まれる低域において十分な特徴を捉えることができず、ピッチ周波数の抽出は非常に困難である。
しかしながら、上述したように、音声認識装置11の韻律識別部22においては、対象とする2つの周波数特性間における高調波成分のずれから直接相対ピッチ差を求めているので、図23乃至図25の図中Cの相対ピッチパターンに示されるように、ささやき声における声の高さの変化も適切に捉えていることがわかる。
具体的には、例えば、図23の肯定の意図を表す「うん」の場合には、(C)の相対ピッチパターンが下降しており、図24の否定の意図を表す「ううん」の場合には、(C)の相対ピッチパターンが下降した後に上昇しており、図25の疑問の意図を表す「うん?」の場合には、(C)の相対ピッチパターンが上昇しており、これらの相対ピッチパターンの相違から、ささやき声など、実ピッチパターンの検出が困難なものであっても、特定単語「うん」における、肯定、否定、疑問の3種類の発話タイプ(発話意図)を識別することができ、入力音声の韻律的特徴に基づく信頼性の高い韻律識別を実行することが可能となる。
以上の方法においては、時間的に異なる2つの分析フレームのそれぞれの周波数特性において、調波構造的に、対応するピークの間を結ぶ稜線が、相互相関行列の主対角線からどの程度シフトしたかによって、相対ピッチ差(相対ピッチ変化量)を決定しているが、相対ピッチ差の決定方法としては、例えば、2つの周波数特性それぞれにおいて対応する点を少なくとも一つ決定し、それら2つからなる少なくとも1組の対応点が、相互相関行列の主対角線からどの程度シフトしているかによって、2つの周波数特性間の相対ピッチ差(相対ピッチ変化量)を決定するものとしてもよい。
このような決定方法を用いることで、稜線による主対角線からのシフト量とは異なる基準によって、相対ピッチ差を決定することが可能となる。具体的には、例えば、2つの周波数特性それぞれにおける第N次高調波のピークのみに着目したり、ピークとは逆に周波数特性の特定の谷の位置に着目することなどが挙げられる。
このような処理により、韻律の識別のための相対ピッチ変化量を得ることができるので、時間的に異なる2つの周波数特性間の相対ピッチ変化量を用いて韻律識別を行うことにより、従来ではピッチ周波数の抽出が困難な、ノイズ等の影響が大きい場合や、ささやき声やピッチ性が低い音声の場合等においても、ロバストな識別が可能となる。
ところで、以上説明した方法を用いて、相対ピッチ変化量を求めることにより韻律を識別する場合、例えば、識別対象となる発話音声の音声区間内部に、無音区間や無声音が含まれる部分において、正しい識別ができない場合が発生してしまう。
図26を参照して、「うつむく」と発声した場合の韻律の識別について説明する。図中Aは、「うつむく」と発生した場合の音声波形であり、図中Bは、実ピッチパターンである。
図26のAに示されるように、「うつむく」と発声した音声波形には、「つ」の/ts/と、「く」の/k/ 2箇所に無声子が含まれている。この無声子音の部分では、有声音のような声帯の振動を伴わない為、ピッチ周波数が存在しない。
このような音声波形に対して、上述したようにして、2つの異なる周波数特性から相対ピッチ変化量を求める方法を適用した場合に、無声子音部分のために、不適切な結果が得られる場合の例について、図27を用いて説明する。
図27には、上述したように、2つの異なる周波数特性から得られた相互相関行列を用いて検出された相対ピッチパターンが示されている。
ここでの相対ピッチパターンとは、相対ピッチ差を音声データ開始点から発話全体を通して積算していき、各分析フレームにおける音声データ開始点からの相対ピッチ変化量を時系列データとして表示したものである。
「うつむく」と発声した音声波形には、「つ」の/ts/と、「く」の/k/ 2箇所に無声子が含まれている。この無声子音の部分では、有声音のような声帯の振動を伴わない為、ピッチ周波数が存在しないはずであるが、図27に示されるように、実ピッチパターンに比べて、2つの異なる周波数特性から得られた相互相関行列を用いて検出された相対ピッチパターンでは、無声子音の/ts/、または、/k/を挟んだその前後のピッチ(声の高さ)の関係が正しく抽出されない。
これは、上述した相対ピッチ変化量を求める方法では、2つの異なる周波数特性の内の一方、あるいは両方が無声子音部分の周波数特性となり、それら周波数特性から得られる相互相関行列では、適切な相対ピッチ差が表現されないことに起因している。
すなわち、「うつむく」のうち、無声子音部分以外の部分においては、図28に示されるように、正しい相互相関行列を得ることができるので、算出される主対角線シフト量も、適切な値となる。これに対して、「うつむく」のうち、無声子音部分の部分においては、図29に示されるように、正しい相互相関行列を得ることができないので、算出される主対角線シフト量も、適切な値とはならない。
このように、無声子音部分においても正しい相互相関行列を得るためには、相関を取る2つの異なる周波数特性のうちの一方の周波数特性を固定すると好適である。
具体的には、例えば、事前に用意されているテンプレート的な周波数特性(以後、テンプレート周波数特性と称する)と、取得された音声信号から得られた周波数特性とを用いて、相互相関行列を得ることにより、無声子音部分の部分においても正しい相互相関行列を得ることができる。
図30に、テンプレート周波数特性を利用して相互相関行列を計算する場合に、図2の相対ピッチ変化量計算部62に代わって用いられる相対ピッチ変化量計算部151の機能構成を示す。すなわち、相対ピッチ変化量計算部151は、相対ピッチ変化量計算部62と同様の主対角線シフト量計算部102、および、相対ピッチ差計算部103の機能を有するとともに、新たに、テンプレート周波数特性記憶部161を有し、相互相関行列計算部101に代わって、テンプレート周波数特性記憶部161に記憶されているテンプレート周波数特性を用いて一方の周波数特性を固定して相互相関行列を得るようになされている相互相関行列計算部162の機能を、ハードウェア、または、ソフトウェアとして有するものである。
テンプレート周波数特性記憶部161に記憶されているテンプレート周波数特性は、例えば、あるピッチ周波数(例えば、300Hz)を基音として、その基音に対する高調波成分の大きさが線形に減衰するような周波数特性を模擬的に作り出した物などであっても良い。
そして、相互相関行列計算部162は、図31に示されるように、テンプレート周波数特性記憶部161に記憶されているテンプレート周波数特性を用いて一方の周波数特性を固定して相互相関行列を得る。主対角線シフト量計算部102および相対ピッチ差計算部103は、上述した場合と同様に、図31に示される主対角線シフト量を計算し、相対ピッチ差を計算する。
すなわち、図30に示される相対ピッチ変化量計算部151は、テンプレート周波数特性記憶部161に記憶されているこのようなテンプレート周波数特性と、分析フレームの周波数特性とから求められる相互相関行列を用いて、相対ピッチ差を求める。
このようにすることにより、時間的に前後する分析フレーム間での相対ピッチ差は、テンプレート周波数特性のピッチ周波数との相対ピッチ差で表現されることとなり、音声波形の途中に無声音が含まれるような場合においても、その無声音の前後において相対ピッチパターンの連続性が不適切になることを回避することができる。
図32は、相対ピッチ変化量計算部151の処理により求められた相対ピッチパターンである。図26の波形と図32に示される波形を比較すると、相対ピッチ変化量計算部151の処理により、無声音の部分において不適切なピッチパターンが得られることなく、無声音の部分は、無声音として、韻律が検出されていることが分かる。
また、テンプレート周波数特性記憶部161に複数のテンプレート周波数特性を記憶し、入力される音声や分析フレームの周波数特性の特徴に合わせて、適したテンプレート周波数特性を選択的に利用するものとしてもよい。
具体的には、テンプレート周波数特性記憶部161に、例えば、100Hz、300Hz、500Hz等のように、異なるピッチ周波数を持つテンプレート周波数特性を記憶する。そして、分析フレームの周波数特性と、これら複数のテンプレート周波数特性全てとの間で相対ピッチ差を求める。このようにして求められた複数の相対ピッチ差のうち、相対ピッチ差の絶対値が最も小さいものを、この分析フレームにおける相対ピッチ差として用いるものとすると好適である。
このような方法で相対ピッチ差を求めることにより、例えば、男声と女声の違いように、声の高さがかなり異なる様々な入力音声に対しても、より正確に相対ピッチ差を求めることが可能となる。
次に、図33のフローチャートを参照して、2つの周波数特性の内、一方の周波数特性をテンプレート周波数特性として固定化する場合に、図15のステップS32において、相対ピッチ変化量計算部151によって実行される、相対ピッチ差算出処理2について説明する。
ステップS121において、相対ピッチ変化量計算部151の相互相関行列計算部162は、テンプレート周波数特性記憶部161に記憶されているテンプレート周波数特性と、供給された所定の分析フレームにおける周波数特性とを用いて周波数特性間の相互相関行列を計算し、主対角線シフト量計算部102に供給する。
ステップS122において、主対角線シフト量計算部102は、図11を用いて説明したように、主対角線aからの稜線bのシフト量cを求めて、相対ピッチ差計算部103に供給する。
ステップS123において、相対ピッチ差計算部103は、主対角線シフト量計算部102から供給された主対角線aからの稜線bのシフト量cに基づいて、各分析フレームにおけるピッチ周波数を求めることなしに、テンプレート周波数特性と分析フレームと間の相対ピッチ差を求め、所望の分析フレーム数において、隣接する分析フレーム間の相対ピッチ差を積算することにより、所望のフレーム数分における相対ピッチ変化量を計算し、処理は、図15のステップS32に戻り、図14のステップS3に戻り、ステップS4に進む。
このような処理により、韻律の識別のための相対ピッチ変化量を、無声音が含まれる音声に対しても適切に検出することが可能となる。
本発明を適用することにより、ノイズ等の影響が大きい場合や、ささやき声やピッチ性が低い音声においても、声の高さの変化具合を適切に捉えることができ、入力音声の韻律的特徴に基づいて信頼性の高い音声認識が行うことが可能となる。
すなわち、本発明を適用することにより、ピッチ周波数の検出を行なうことなしに、入力音声の周波数特性と、テンプレート周波数特性とを比較して得られる相対ピッチ変化量によって韻律識別を行なうことができる。
換言すれば、相対ピッチ変化量を求めるための2つの周波数特性のうちの、一方の周波数特性を固定としてもよい。
これにより、入力音声に無声音や無音区間が含まれている場合においても、相対ピッチパターンが不連続とならず、一般的なピッチ周波数の検出によって求められたピッチパターンと同様の、適切な相対ピッチパターンを求めることが可能となる。
すなわち、一方の周波数特性を固定とすることにより、より様々な入力音声に対しても、相対ピッチ変化量に基づいた韻律識別を適用することが可能となる。
また、固定で用いるテンプレート周波数特性を複数用意しておき、入力される音声や分析フレームの周波数特性の特徴に合わせて、適したテンプレート周波数特性を選択的に利用するものとしてもよい。
具体的には、例えば、100Hz、300Hz、500Hz等のように、異なるピッチ周波数を持つテンプレート周波数特性を予め用意する。そして、分析フレームの周波数特性と、これら複数のテンプレート周波数特性全てとの間で相対ピッチ差を求める。このようにして求められた複数の相対ピッチ差のうち、相対ピッチ差の絶対値が最も小さいものを、この分析フレームにおける相対ピッチ差として用いるものとすると好適である。
このような方法で相対ピッチ差を求めることにより、例えば、男声と女声の違いように、声の高さがかなり異なる様々な入力音声に対しても、より正確に相対ピッチ差を求めることが可能となる。
また、図1を用いて説明した音声認識装置11とは異なる装置において、上述した構成を用いて(上述した方法で)韻律を識別する場合においても、本発明は適用可能であることはいうまでもない。
上述した一連の処理は、ソフトウェアにより実行することもできる。そのソフトウェアは、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体などからインストールされる。この場合、例えば、図1を用いて説明した音声認識装置11は、図34に示されるようなパーソナルコンピュータ201により構成される。
図37において、CPU(Central Processing Unit)211は、ROM(Read Only Memory)212に記憶されているプログラム、または記憶部218からRAM(Random Access Memory)213にロードされたプログラムにしたがって、各種の処理を実行する。RAM213にはまた、CPU211が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU211、ROM212、およびRAM213は、バス214を介して相互に接続されている。このバス214にはまた、入出力インタフェース215も接続されている。
入出力インタフェース215には、キーボード、マウスなどよりなる入力部216、ディスプレイやスピーカなどよりなる出力部217、ハードディスクなどより構成される記憶部218、マイク、または、外部装置とのインタフェースにより構成される音声信号取得部219が接続されている。
入出力インタフェース215にはまた、必要に応じてドライブ220が接続され、磁気ディスク231、光ディスク232、光磁気ディスク233、もしくは、半導体メモリ234などが適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部318にインストールされる。
上述した一連の処理は、ソフトウェアにより実行することもできる。そのソフトウェアは、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。
この記録媒体は、図34に示すように、コンピュータとは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク231(フレキシブルディスクを含む)、光ディスク232(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク233(MD(Mini-Disk)(商標)を含む)、もしくは半導体メモリ234などよりなるパッケージメディアなどにより構成される。
また、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
なお、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
音声認識装置の構成を示すブロック図である。 韻律識別部の構成を示すブロック図である。 通常音声及びささやき声の周波数特性を示す図である。 通常音声及びささやき声の周波数特性を示す図である。 周波数特性分析部の機能構成を示す機能ブロック図である。 本発明の実施の形態の周波数特性分析部での周波数特性の変換処理を示す図である。 本発明の実施の形態の周波数特性分析部での周波数特性の変換処理を示す図である。 本発明の実施の形態の周波数特性分析部での周波数特性の変換処理を示す図である。 相対ピッチ変化量計算部の機能構成の第1の例を示す機能ブロック図である。 周波数特性の相互相関行列を示す図である。 周波数特性の相互相関行列の成分をグラフィック表現により示す図である。 周波数特性の自己相関行列を示す図である。 周波数特性の自己相関行列の成分をグラフィック表現により示す図である。 音声認識処理について説明するためのフローチャートである。 韻律認識処理について説明するためのフローチャートである。 周波数分析処理について説明するためのフローチャートである。 相対ピッチ差算出処理1について説明するためのフローチャートである。 普通に「あいうえお」と発声した男声の音声データに対する実ピッチパターン及び相対ピッチパターンを示す図である。 普通に「あいうえお」と発声した女声の音声データに対する実ピッチパターン及び相対ピッチパターンを示す図である。 普通に発声した男声における肯定の意図を表す「うん」を示す図である。 普通に発声した男声における否定の意図を表す「ううん」を示す図である。 普通に発声した男声における疑問の意図を表す「うん?」を示す図である。 男声のささやき声における肯定の意図を表す「うん」を示す図である。 男声のささやき声における否定の意図を表す「ううん」を示す図である。 男声のささやき声における疑問の意図を表す「うん?」を示す図である。 「うつむく」と発声した場合の音声データに対する実ピッチパターンを示す図である。 図9の相対ピッチ変化量計算部を用いて得られた、「うつむく」と発声した場合の音声データに対する相対ピッチパターンの第1の例を示す図である。 周波数特性の相互相関行列の成分をグラフィック表現により示す図である。 周波数特性の相互相関行列の成分をグラフィック表現により示す図である。 相対ピッチ変化量計算部の機能構成の第2の例を示す機能ブロック図である。 周波数特性の相互相関行列の成分をグラフィック表現により示す図である。 図30の相対ピッチ変化量計算部を用いて得られた、「うつむく」と発声した場合の音声データに対する相対ピッチパターンの第2の例を示す図である。 相対ピッチ差算出処理1について説明するためのフローチャートである。 パーソナルコンピュータの構成を示すブロック図である。
符号の説明
11 音声認識装置, 31 入力部, 32 韻律識別部, 33 音声認識部, 34 結果選択部、 35 特定単語記憶部, 36 出力部, 51 入力部, 52 音響分析部, 53 識別部, 54 パラメータ記憶部, 55 出力部, 61 周波数特性分析部, 62 相対ピッチ変化量計算部, 101 相互相関行列計算部, 102 主対角線シフト量計算部, 103 相対ピッチ差計算部, 151 相対ピッチ変化量計算部, 161 テンプレート周波数特性記憶部, 162 相互相関行列計算部

Claims (7)

  1. 入力音声の韻律的特徴に基づいて識別を行う音声処理装置において、
    前記入力音声を取得する取得手段と、
    前記取得手段により取得された前記入力音声のそれぞれの時間における第1の周波数特性と、所定の第2の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求める音響分析手段と、
    前記音響分析手段により求められた前記相対ピッチ変化量に基づいて識別処理を行う識別手段と
    を備える音声処理装置。
  2. 前記音響分析手段は、前記第1の周波数特性と、前記第2の周波数特性から得られる相互相関行列において、前記第1の周波数特性と前記第2の周波数特性との2つの周波数特性間の対応するピーク同士を結ぶ稜線の、主対角線からのシフト量に基づいて、前記相対ピッチ変化量を求める
    請求項1記載の音声処理装置。
  3. 前記第2の周波数特性を記憶する記憶手段を更に備える
    請求項1記載の音声処理装置。
  4. 前記記憶手段は、複数の前記第2の周波数特性を記憶し、
    前記音響分析手段は、前記取得手段により取得された前記入力音声に応じて、前記記憶手段に記憶されている複数の前記第2の周波数特性のうちの適するものを用いて、前記相対ピッチ変化量を求める
    請求項3記載の音声処理装置。
  5. 前記入力手段からの前記入力音声を音響分析して得られる特徴量に基づいて音声認識を行う音声認識手段と、
    前記音声認識手段による音声認識結果のみでは、正しく認識されない可能性がある特定の単語を記憶する特定単語記憶手段と、
    前記音声認識手段による音声認識結果が、前記特定単語記憶手段に記憶されている前記特定の単語と一致する場合、前記韻律識別手段による識別結果と前記音声認識手段による認識結果とを統合して出力し、前記音声認識手段による音声認識結果が、前記特定単語記憶手段に記憶されている前記特定の単語と一致しない場合、前記音声認識手段による認識結果を出力する選択手段と
    を更に備える請求項1記載の音声処理装置。
  6. 入力音声の韻律的特徴に基づいて識別を行う音声処理装置の音声処理方法において、
    前記入力音声を取得し、
    取得された前記入力音声のそれぞれの時間における第1の周波数特性と、所定の第2の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求め、
    前記相対ピッチ変化量に基づいて識別処理を行う
    ステップを含む音声処理方法。
  7. 入力音声の韻律的特徴に基づいて識別を行う処理をコンピュータに実行させるためのプログラムであって、
    前記入力音声の取得を制御し、
    取得が制御された前記入力音声のそれぞれの時間における第1の周波数特性と、所定の第2の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求め、
    前記相対ピッチ変化量に基づいて識別処理を行う
    ステップを含む処理をコンピュータに実行させるためのプログラム。
JP2006325780A 2006-12-01 2006-12-01 音声認識装置および音声認識方法、並びに、プログラム Expired - Fee Related JP4264841B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2006325780A JP4264841B2 (ja) 2006-12-01 2006-12-01 音声認識装置および音声認識方法、並びに、プログラム
EP07254504A EP1927979B1 (en) 2006-12-01 2007-11-19 Speech recognition using prosody
DE602007012041T DE602007012041D1 (de) 2006-12-01 2007-11-19 Spracherkennung mittels Prosodie
KR1020070119084A KR20080050311A (ko) 2006-12-01 2007-11-21 음성 처리 장치 및 음성 처리 방법 및 프로그램
US11/945,591 US7979270B2 (en) 2006-12-01 2007-11-27 Speech recognition apparatus and method
CN200710187573XA CN101192405B (zh) 2006-12-01 2007-12-03 语音处理设备和语音处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006325780A JP4264841B2 (ja) 2006-12-01 2006-12-01 音声認識装置および音声認識方法、並びに、プログラム

Publications (2)

Publication Number Publication Date
JP2008139568A true JP2008139568A (ja) 2008-06-19
JP4264841B2 JP4264841B2 (ja) 2009-05-20

Family

ID=39135128

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006325780A Expired - Fee Related JP4264841B2 (ja) 2006-12-01 2006-12-01 音声認識装置および音声認識方法、並びに、プログラム

Country Status (6)

Country Link
US (1) US7979270B2 (ja)
EP (1) EP1927979B1 (ja)
JP (1) JP4264841B2 (ja)
KR (1) KR20080050311A (ja)
CN (1) CN101192405B (ja)
DE (1) DE602007012041D1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009210593A (ja) * 2008-02-29 2009-09-17 Toshiba Corp 特徴量抽出装置、方法及びプログラム

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2508428A1 (fr) * 2005-05-20 2006-11-20 Hydro-Quebec Detection, localisation et interpretation de decharge partielle
US9159325B2 (en) * 2007-12-31 2015-10-13 Adobe Systems Incorporated Pitch shifting frequencies
US7974841B2 (en) * 2008-02-27 2011-07-05 Sony Ericsson Mobile Communications Ab Electronic devices and methods that adapt filtering of a microphone signal responsive to recognition of a targeted speaker's voice
CN101983402B (zh) * 2008-09-16 2012-06-27 松下电器产业株式会社 声音分析装置、方法、系统、合成装置、及校正规则信息生成装置、方法
CN101814291B (zh) * 2009-02-20 2013-02-13 北京中星微电子有限公司 在时域提高语音信号信噪比的方法和装置
CN102341842B (zh) * 2009-05-28 2013-06-05 国际商业机器公司 用于语者调适的基频移动量学习装置和方法及基频生成装置和方法
CN102374864B (zh) * 2010-08-13 2014-12-31 国基电子(上海)有限公司 语音导航设备及语音导航方法
US9437213B2 (en) 2012-03-05 2016-09-06 Malaspina Labs (Barbados) Inc. Voice signal enhancement
US9384759B2 (en) 2012-03-05 2016-07-05 Malaspina Labs (Barbados) Inc. Voice activity detection and pitch estimation
US9020818B2 (en) 2012-03-05 2015-04-28 Malaspina Labs (Barbados) Inc. Format based speech reconstruction from noisy signals
CN102938252B (zh) * 2012-11-23 2014-08-13 中国科学院自动化研究所 结合韵律和发音学特征的汉语声调识别系统及方法
US9761247B2 (en) 2013-01-31 2017-09-12 Microsoft Technology Licensing, Llc Prosodic and lexical addressee detection
WO2014167570A1 (en) * 2013-04-10 2014-10-16 Technologies For Voice Interface System and method for extracting and using prosody features
JP6439682B2 (ja) * 2013-04-11 2018-12-19 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
US9646613B2 (en) * 2013-11-29 2017-05-09 Daon Holdings Limited Methods and systems for splitting a digital signal
CN104200818A (zh) * 2014-08-06 2014-12-10 重庆邮电大学 一种音高检测方法
US9754580B2 (en) 2015-10-12 2017-09-05 Technologies For Voice Interface System and method for extracting and using prosody features
CN105355193B (zh) * 2015-10-30 2020-09-25 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN106814670A (zh) * 2017-03-22 2017-06-09 重庆高略联信智能技术有限公司 一种河道采砂智能监管方法及系统
CN109686378B (zh) * 2017-10-13 2021-06-08 华为技术有限公司 语音处理方法和终端
IL255954A (en) 2017-11-27 2018-02-01 Moses Elisha Extracting content from speech prosody
CN108520741B (zh) 2018-04-12 2021-05-04 科大讯飞股份有限公司 一种耳语音恢复方法、装置、设备及可读存储介质
JP7151181B2 (ja) * 2018-05-31 2022-10-12 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
CN108877786A (zh) * 2018-06-29 2018-11-23 恒信东方文化股份有限公司 指令识别方法
WO2020218634A1 (ko) * 2019-04-23 2020-10-29 엘지전자 주식회사 응답 기기 결정 방법 및 장치
CN111078937B (zh) * 2019-12-27 2021-08-10 北京世纪好未来教育科技有限公司 语音信息检索方法、装置、设备和计算机可读存储介质
US11804998B2 (en) * 2020-02-24 2023-10-31 Qualcomm Incorporated Machine learning based receiver performance improvement using peak reduction tones

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0466999A (ja) 1990-07-04 1992-03-03 Sharp Corp 文節境界検出装置
JP2940835B2 (ja) 1991-03-18 1999-08-25 日本電信電話株式会社 ピッチ周波数差分特徴量抽出法
JP3450411B2 (ja) * 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
SE504177C2 (sv) * 1994-06-29 1996-12-02 Telia Ab Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk
SE514684C2 (sv) * 1995-06-16 2001-04-02 Telia Ab Metod vid tal-till-textomvandling
GB2302413B (en) 1995-06-20 1997-11-12 Northern Telecom Ltd Bragg gratings in waveguides
JP3006677B2 (ja) * 1996-10-28 2000-02-07 日本電気株式会社 音声認識装置
US5995924A (en) 1997-05-05 1999-11-30 U.S. West, Inc. Computer-based method and apparatus for classifying statement types based on intonation analysis
CN1209743C (zh) * 1999-11-23 2005-07-06 言丰科技有限公司 使用音调建模的话音识别系统和方法
US20060057545A1 (en) * 2004-09-14 2006-03-16 Sensory, Incorporated Pronunciation training method and apparatus
JP2006084664A (ja) 2004-09-15 2006-03-30 Denso Corp 音声認識装置および音声認識プログラム
JP2006154632A (ja) 2004-12-01 2006-06-15 Denso Corp 音声認識装置およびそれを用いた音声認識方法
JP4353202B2 (ja) 2006-05-25 2009-10-28 ソニー株式会社 韻律識別装置及び方法、並びに音声認識装置及び方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009210593A (ja) * 2008-02-29 2009-09-17 Toshiba Corp 特徴量抽出装置、方法及びプログラム
JP4599420B2 (ja) * 2008-02-29 2010-12-15 株式会社東芝 特徴量抽出装置
US8073686B2 (en) 2008-02-29 2011-12-06 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for feature extraction

Also Published As

Publication number Publication date
US7979270B2 (en) 2011-07-12
KR20080050311A (ko) 2008-06-05
CN101192405B (zh) 2011-05-25
EP1927979A1 (en) 2008-06-04
EP1927979B1 (en) 2011-01-19
JP4264841B2 (ja) 2009-05-20
CN101192405A (zh) 2008-06-04
DE602007012041D1 (de) 2011-03-03
US20080133225A1 (en) 2008-06-05

Similar Documents

Publication Publication Date Title
JP4264841B2 (ja) 音声認識装置および音声認識方法、並びに、プログラム
JP4882899B2 (ja) 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
JP6024180B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP4054507B2 (ja) 音声情報処理方法および装置および記憶媒体
US8433573B2 (en) Prosody modification device, prosody modification method, and recording medium storing prosody modification program
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
JP2015068897A (ja) 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
JP4353202B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP5040778B2 (ja) 音声合成装置、方法及びプログラム
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
US7627468B2 (en) Apparatus and method for extracting syllabic nuclei
JP2019008120A (ja) 声質変換システム、声質変換方法、及び声質変換プログラム
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2015055653A (ja) 音声認識装置及び方法、並びに、電子機器
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
JP2011180308A (ja) 音声認識装置及び記録媒体
KR101250051B1 (ko) 발음 교정을 위한 음성 신호 분석 방법 및 장치
JP2017068153A (ja) 半導体装置、システム、電子機器、及び、音声認識方法
KR20080065775A (ko) 구화 교육용 발성 시각화 시스템
JP6790851B2 (ja) 音声処理プログラム、音声処理方法、及び音声処理装置
CN116208900A (zh) 自动化测试方法、装置、设备及存储介质
JP2012220701A (ja) 音声合成装置及びその合成音声修正方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090204

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120227

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees