JP2010256765A - ユーザプロファイル抽出方法、ユーザプロファイル抽出装置及びユーザプロファイル抽出プログラム - Google Patents
ユーザプロファイル抽出方法、ユーザプロファイル抽出装置及びユーザプロファイル抽出プログラム Download PDFInfo
- Publication number
- JP2010256765A JP2010256765A JP2009108988A JP2009108988A JP2010256765A JP 2010256765 A JP2010256765 A JP 2010256765A JP 2009108988 A JP2009108988 A JP 2009108988A JP 2009108988 A JP2009108988 A JP 2009108988A JP 2010256765 A JP2010256765 A JP 2010256765A
- Authority
- JP
- Japan
- Prior art keywords
- dialect
- phrase
- information
- region
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】日常会話で発する発話者の発音から方言に関するユーザプロファイルを抽出する。
【解決手段】発話者の音声信号から有声区間の音声信号をフレーズとして抽出し、フレーズから語調に関する特徴量を分析し、第1記憶手段に記憶されている地域別の語調特徴量を読み出して、分析した特徴量に最も近い語調特徴量に対応する地域を判定する。また、フレーズから音韻情報を抽出し、判定された地域に対応する複数の種類別方言情報を第2記憶手段から読み出して、抽出された音韻情報と各種類別方言情報とを用いて音声認識をそれぞれ行い、認識率の最も高い種類別方言情報に係る方言を発話者の方言として判定する。
【選択図】図1
【解決手段】発話者の音声信号から有声区間の音声信号をフレーズとして抽出し、フレーズから語調に関する特徴量を分析し、第1記憶手段に記憶されている地域別の語調特徴量を読み出して、分析した特徴量に最も近い語調特徴量に対応する地域を判定する。また、フレーズから音韻情報を抽出し、判定された地域に対応する複数の種類別方言情報を第2記憶手段から読み出して、抽出された音韻情報と各種類別方言情報とを用いて音声認識をそれぞれ行い、認識率の最も高い種類別方言情報に係る方言を発話者の方言として判定する。
【選択図】図1
Description
本発明は、方言に関するユーザプロファイルを抽出するユーザプロファイル抽出方法、ユーザプロファイル抽出装置及びユーザプロファイル抽出プログラムに関する。
現在、ネットワークを介した情報の収集や商品購入が盛んになっており、利用者の嗜好や趣味、あるいは利用者が置かれた状況に適した情報をタイムリーに提供することが重要となっている。利用者に適した情報を提供するためには、個々人の利用者の情報(ユーザプロファイル)を取得する必要がある。特に、利用者の居住地域の情報、例えば、気候、文化、地理的特性等の情報は、利用者の興味、嗜好に大きく結びついていることが多い。このため、地域などの情報を利用者に事前に登録してもらうことにより、その登録内容に即した情報を提供するようになっている。
しかしながら、利用者にとって登録操作というのは非常に高い障壁となっている。これは、単に入力作業に対する手間を要するのみでなく、個人情報の開示に対する利用者の不安に起因するものであり、たとえ性別や年齢に関する情報であっても、登録には利用者にとっては大きな負担になることが多い。さらには、居住地や出生地などの情報の登録を要求した場合は、利用者の多くはサービスの利用を諦めてしまう可能性もある。このようなことから、利用者に負担を与えず自動的にユーザプロファイルを蓄積することが望まれている。
一方、方言に着目すると利用者の地域性や出生地などの情報を反映していることが多く、方言を判別し蓄積できるようになれば、音声会話をすることで簡単に利用者のプロファイルを蓄積可能である。
伊達瓦、外2名、「方言音声空間モデルに基づいた音声特徴量間相関を用いた方言識別法"、人工知能学会全国大会(第19回)、2005年
しかしながら、非特許文献1に開示された技術では、方言を判別するための大量の学習用音声データが必要になり、容易にデータベースを構築することができないという問題があった。
本発明は、上記課題を鑑みてなされたものであり、日常会話で発する発話者の発音から方言に関するユーザプロファイルを抽出するユーザプロファイル抽出方法、ユーザプロファイル抽出装置及びユーザプロファイル抽出プログラムを提供することを課題とする。
請求項1に記載の本発明は、コンピュータにより、語調に現れる語調特徴量を地域別に第1記憶手段に記憶しておく第1ステップと、各地域で使用される様々な方言を方言の種類に応じて集めた複数の種類別方言情報を地域別に第2記憶手段に記憶しておく第2ステップと、発話者の音声信号から有声区間の音声信号をフレーズとして抽出する第3ステップと、前記フレーズから語調に関する特徴量を分析し、前記第1記憶手段から前記地域別の語調特徴量を読み出して、分析した特徴量に最も近い語調特徴量に対応する地域を判定する第4ステップと、前記フレーズから音韻情報を抽出し、判定された地域に対応する複数の種類別方言情報を前記第2記憶手段から読み出して、抽出された音韻情報と当該各種類別方言情報とを用いて音声認識をそれぞれ行い、認識率の最も高い種類別方言情報に係る方言を前記発話者の方言として判定する第5ステップと、を有することを要旨とする。
請求項2に記載の本発明は、前記第1記憶手段が記憶している前記語調特徴量は、最小二乗法による回帰係数としての、フレーズの中心の形状を強調した重み付けと、フレーズの終端に向かって次第に増加する重み付けとがそれぞれされた、音声信号の形状の時間変化量を表す傾きと、音声信号の形状の変動量を表す二乗誤差とであって、前記第4ステップは、抽出された複数のフレーズについて前記傾き及び前記二乗誤差をそれぞれ算出し、前記第1記憶手段に記憶されている地域の前記傾き及び前記二乗誤差を用いて、当該地域に対する各フレーズの尤度をそれぞれ計算し、計算された複数の尤度を掛け合わせて各地域に対する1つの尤度をそれぞれ算出して、最も高い尤度の地域を前記発話者の地域として判定することを要旨とする。
請求項3に記載の本発明は、前記第5ステップは、抽出された複数のフレーズについて前記音声認識をそれぞれ行って各フレーズの方言をそれぞれ判定し、当該判定結果により得られた各方言のフレーズ出現頻度をそれぞれ計算すると共に、当該各方言の逆出現頻度を一定のフレーズ数単位でそれぞれ計算し、更に当該各方言に対する重み係数を前記種類別方言情報に含まれる方言の単語数を用いてそれぞれ計算して、前記フレーズ出現頻度と前記逆出現頻度と前記重み係数とを掛け合わせることにより方言毎の尤度を求め、最も高い尤度の方言を前記発話者の方言として判定することを要旨とする。
請求項4に記載の本発明は、前記種類別方言情報は、方言Aの種類別方言情報Aと、方言Bの種類別方言情報Bと、方言Cの種類別方言情報Cとであって、前記第5ステップは、前記方言Aから前記方言Cのうち方言Aに対する尤度ldAを次式を用いて求めることを要旨とする。
請求項5に記載の本発明は、語調に現れる語調特徴量を地域別に記憶しておく第1記憶手段と、各地域で使用される様々な方言を方言の種類に応じて集めた複数の種類別方言情報を地域別に記憶しておく第2記憶手段と、発話者の音声信号から有声区間の音声信号をフレーズとして抽出する抽出手段と、前記フレーズから語調に関する特徴量を分析し、前記第1記憶手段から前記地域別の語調特徴量を読み出して、分析した特徴量に最も近い語調特徴量に対応する地域を判定する地域判定手段と、前記フレーズから音韻情報を抽出し、判定された地域に対応する複数の種類別方言情報を前記第2記憶手段から読み出して、抽出された音韻情報と当該各種類別方言情報とを用いて音声認識をそれぞれ行い、認識率の最も高い種類別方言情報に係る方言を前記発話者の方言として判定する方言判定手段と、を有することを要旨とする。
請求項6に記載の本発明は、前記第1記憶手段が記憶している前記語調特徴量は、最小二乗法による回帰係数としての、フレーズの中心の形状を強調した重み付けと、フレーズの終端に向かって次第に増加する重み付けとがそれぞれされた、音声信号の形状の時間変化量を表す傾きと、音声信号の形状の変動量を表す二乗誤差とであって、前記地域判定手段は、抽出された複数のフレーズについて前記傾き及び前記二乗誤差をそれぞれ算出し、前記第1記憶手段に記憶されている地域の前記傾き及び前記二乗誤差を用いて、当該地域に対する各フレーズの尤度をそれぞれ計算し、計算された複数の尤度を掛け合わせて各地域に対する1つの尤度をそれぞれ算出して、最も高い尤度の地域を前記発話者の地域として判定することを要旨とする。
請求項7に記載の本発明は、前記方言判定手段は、抽出された複数のフレーズについて前記音声認識をそれぞれ行って各フレーズの方言をそれぞれ判定し、当該判定結果により得られた各方言のフレーズ出現頻度をそれぞれ計算すると共に、当該各方言の逆出現頻度を一定のフレーズ数単位でそれぞれ計算し、更に当該各方言に対する重み係数を前記種類別方言情報に含まれる方言の単語数を用いてそれぞれ計算して、前記フレーズ出現頻度と前記逆出現頻度と前記重み係数とを掛け合わせることにより方言毎の尤度を求め、最も高い尤度の方言を前記発話者の方言として判定することを要旨とする。
請求項8に記載の本発明は、前記種類別方言情報は、方言Aの種類別方言情報Aと、方言Bの種類別方言情報Bと、方言Cの種類別方言情報Cとであって、前記方言判定手段は、前記方言Aから前記方言Cのうち方言Aに対する尤度ldAを次式を用いて求めることを要旨とする。
請求項9に記載の本発明は、請求項1乃至4のいずれか1つに記載した各ステップをコンピュータに実行させることを要旨とする。
本発明によれば、日常会話で発する発話者の発音から方言に関するユーザプロファイルを抽出するユーザプロファイル抽出方法、ユーザプロファイル抽出装置及びユーザプロファイル抽出プログラムを提供することができる。
図1は、本実施の形態に係るユーザプロファイル抽出装置の機能構成を示す図である。本ユーザプロファイル抽出装置1は、データ記憶部11と、フレーズ区間抽出部12と、ピッチパターン分析部13と、テキスト情報分析部14とを備えている。このユーザプロファイル抽出装置1は、CPU等の演算処理装置やメモリ等の記憶装置を備えたコンピュータにより構成可能なものであり、各機能部の処理はプログラムによって実行される。このプログラムは記憶装置に記憶されており、記録媒体に記録することも、ネットワークを通して提供することも可能である。以下、各機能部について個別具体的に説明すると共に、各構成を備えることによる作用及び効果について説明する。
データ記憶部11は、一般にイントネーションやアクセントと称される語調に現れるアクセント特徴量を地域別に記録した地域別アクセント傾向情報や、各地域で使用される様々な方言を方言の種類に応じて集めた複数の方言辞書を地域別に記憶しておく機能を有している。
例えば、発話者が発する音声の音声信号の基本周波数がフラットな場合には東北地方とし、アクセント位置が時間的に後方にある場合には関西地方とする地域別アクセント傾向情報が記憶されている。また、例えば、秋田県地方、山形県地方、岩手県地方でそれぞれ使用されている種類の方言単語を収録した方言辞書A、方言辞書B、方言辞書Cを東北地域の方言辞書として記憶している。
また、データ記憶部11は、ユーザプロファイルの抽出過程で計算される様々な変数を記憶する機能や、最終的に抽出された発話者の方言を該発話者のユーザプロファイルとして記憶する機能も有している。
フレーズ区間抽出部12は、固定電話機や携帯電話機等を用いて会話中の発話者の音声信号から、有声区間の音声信号をフレーズとして抽出する機能を有している。
ピッチパターン分析部13は、フレーズ区間抽出部12で抽出されたフレーズについて、そのフレーズを構成してる音声信号の基本周波数(ピッチ周波数)の時系列な形状(ピッチ)のパターン(ピッチパターン)を分析する。ピッチパターンは音声のアクセントに関連しているため、このピッチパターンの分析はアクセントに関する特徴量を分析することになる。そして、分析したアクセントの特徴量に最も近いアクセント特徴量に対応する地域を地域別アクセント傾向情報から判定する機能を有している。この分析結果により、発話者に関連のある地域(例えば、居住地域や出身地域等)を大局的に把握することが可能となる。
テキスト情報分析部14は、フレーズから音韻情報(音韻系列)を抽出し、ピッチパターン分析部13で判定された地域に対応する複数の方言辞書をデータ記憶部11から読み出して、抽出された音韻情報と各方言辞書に収録されている方言の単語とを用いて音声認識をそれぞれ行い、認識率の最も高い方言辞書に係る方言を発話者の方言として判定する機能を有している。
続いて、各機能部の処理フローについて詳細に説明する。最初に、図2を用いてフレーズ区間抽出部12の処理フローについて説明する。フレーズとは単語などで構成される単位であり、言葉として不自然にならない程度の最小のひとまとまりのものであるため、文節とも称されている。そして、フレーズは、前述したように音声区間の音声信号で構成されており、時間的前後にポーズと呼ばれる休止区間が存在するため、ポーズの位置を判定することによりフレーズを抽出することができる。以下、具体的なフレーズの抽出方法について説明する。
まず、ポーズの位置を把握するために用いるポーズ判定用パワー(音声信号の基本周波数の振幅値)閾値Aminを決定する(S101)。具体的には、最初の有声音に相当する音声信号の前後10秒間の音声信号を特定し、特定した音声信号に関するパワー平均値Aave及び分散σを計算し、そのパワー平均値Aaveから分散σの2倍を引いた値をポーズ判定用パワー閾値Amin(=Aave−2σ)とする。
次に、発話者の音声信号から音響的特徴量を抽出する(S102)。具体的には、時刻Tにおける音声信号のパワーATとピッチPTを抽出すると共に、パワーとピッチの相関関係も計算する。なお、ピッチ抽出には自己相関法等を用いることができる。
続いて、フレーズの始端時刻を検出する(S103)。具体的には、ピッチ抽出の差異の相関係数を用いて有声音を特定し、特定した時刻から遡って音声信号のパワーがポーズ判定用パワー閾値Aminを下回った時刻を検出して、この時刻をフレーズの始端時刻Tsとする。
また、フレーズの終端時刻を検出する(S104、S105)。具体的には、音声には促音や無声子音などパワーの小さい区間や、有声でない区間が多数存在するため、例えば700[msec]以上の区間でポーズ判定用パワー閾値Aminを下回ることが無ければその区間を有声区間であると判定し、パワーがポーズ判定用パワー閾値Aminを下回った時刻をフレーズの終端時刻Teとする。なお、有声区間の判定に用いる700[msec]は、任意に変更可能である。
最後に、フレーズを確定し、そのフレーズの始端時刻と終端時刻とをデータ記憶部11に記憶する(S106、S107)。具体的には、終端時刻Teから始端時刻Tsを引いた時間が300[msec]以上の場合に、その区間をフレーズとして確定する。これにより、音声区間であっても、つなぎ語と呼ばれる間投詞やため息などの音声を排除することができる。なお、フレーズの判定に用いる300[msec]についても、任意に変更可能である。
なお、S104の判定で、ポーズ判定用パワー閾値Aminを下回る場合や、S106の判定で、終端時刻Teから始端時刻Tsを引いた時間が300[msec]未満である場合には、始端時刻Ts及び終端時刻Teをリセットし、S103に戻る(S108)。
次に、図3を用いてピッチパターン分析部13の処理フローについて説明する。まず、フレーズ内のピッチについて、最小二乗法による重み付き回帰係数を求める(S201)。具体的には、フレーズ区間抽出部12で確定した複数のフレーズをデータ記憶部11から読み出して、各フレーズに対して2種類の重み付け(後述)を行った傾きaと二乗誤差dとを回帰係数として求める。傾きaは、ピッチパターンの時間変化量を表し、二乗誤差dは、ピッチパターンの変動量を表す。なお、2種類の重み付けとは、1つめは、二等辺三角形による重み付けであり、主にフレーズの中心((終端時刻Te−始端時刻Ts)/2)の形状を強調して回帰係数(傾きa1、二乗誤差d1)を算出する。2つめは、フレーズの終端に向かって次第に増加する重み付け(始端から終端にかけて0.0から1.0に次第に増加)であり、言葉の終端部分のピッチパターンを強調可能な回帰係数(傾きa2、二乗誤差d2)となる。
なお、語調に現れる特徴はアクセントにより大きく地域を分類することが可能であることから、各地域で話されている音声を予め収録して上記4つのパラメータ(傾きa1、二乗誤差d1、傾きa2、二乗誤差d2)を求め、その各地域の傾向を確率分布の形で学習しておき、前述した地域別アクセント傾向情報としてデータ記憶部11に記憶している。
次に、確率密度関数を用いて各地域に対する尤度を計算する(S202)。具体的には、各フレーズの4つのパラメータと、データ記憶部11に記憶されている地域iの4つのパラメータとを用いて、その地域iに対する各フレーズの尤度をそれぞれ計算する。
続いて、S202で計算された尤度を掛け合わせ、地域iに対する1つの尤度を計算する(S203)。
S202及びS203の処理を全ての地域についてそれぞれ計算し、最も高い尤度の地域を発話者の属する地域として判定する(S204)。
最後に、図4を用いてテキスト情報分析部14の処理フローについて説明する。テキスト情報分析部14では、さらに詳細な地域を特定する。
まず、フレーズ毎に音声認識を実施する(S301)。具体的には、フレーズ区間抽出部12で確定した複数のフレーズをデータ記憶部11から読み出して、各フレーズから音韻情報をそれぞれ抽出し、更にピッチパターン分析部13で判定した地域に対応する複数の方言辞書をデータ記憶部11から読み出して、各フレーズの音韻情報と各方言辞書に含まれる全ての単語とを用いて、音声認識をフレーズ単位で実施する。
次に、各フレーズが属する方言を判定する(S302)。具体的には、S301での音声認識の結果、認識尤度が高い方言辞書の方言をフレーズの属する方言とする。例えば、ピッチパターン分析部13で判定した地域が東北地域であって、複数の方言辞書が前述したような東北地域に関連のある方言辞書A〜方言辞書Cである場合に、フレーズP1について音声認識した結果、方言辞書Aとの認識尤度が80、方言辞書Bとの認識尤度が70、方言辞書Cとの認識尤度が90である場合には、フレーズP1の属する方言を方言辞書Cの「岩手県地方」の方言として判定する。
続いて、3つのフレーズを1つのドキュメントとして保存する(S303)。具体的には、フレーズP1〜フレーズP3を1つのドキュメントD1とし、フレーズP2〜フレーズP4を1つのドキュメントD2として、ドキュメント単位でフレーズを保存する。
次に、S302で判定された全てのフレーズに対する方言判定結果を用いて、発話者の方言を最終的に判定する際に用いる方言kの尤度ldkを算出する式(1)のpfk(式(2))を計算する(S304)。
続いて、式(1)のidfk(式(3))を計算する(S305)。
ここで、idfkは方言kの逆出現頻度を表し、|D|は3つのフレーズからなる1つのドキュメントを表し、|d:d∋pk|は方言kを含むドキュメント数を表している。文章と異なり、会話音声では句読点に相当する部分を判別することが難しく、かつ、間投詞のように会話では必要だが文章としては不要なものも多く出現するため、ドキュメントの単位をこのように纏めている。
また、式(1)のwk(式(4)〜式(6))を計算する(S306)。
ここで、方言辞書A、方言辞書B、方言辞書Cの単語数をそれぞれa個、b個、c個とした場合に、waは方言Aの重み係数を表し、wbは方言Bの重み係数を表し、wcは方言Cの重み係数を表している。
そして、S304〜S306の計算結果を式(1)に代入して、方言kの尤度ldkを算出する(S307)。なお、方言Aについては式(4)の重み係数を用い、方言Bについては式(5)の重み係数を用い、方言Cについては式(6)の重み係数を用いる。方言辞書が含む単語数やカバレッジが異なるため、従来のtf−idf法と異なって重み係数を付加することにより、正規化することが可能となる。
最後に、S307で算出された方言辞書毎の尤度ldkのうち、最大となる尤度ldkに属する方言を発話者の発する方言として判定する(S308)。その後、判定された方言を発話者のユーザプロファイルとしてデータ記憶部11に記憶することや、ピッチパターン分析部13で判定した地域、S308で判定した方言をモニター等に出力することも可能である。
最後に、本実施の形態の効果について説明する。方言は、地域によって多種多様かつ膨大であるため、発話者の発声に基づいて抽出されたフレーズの音韻情報を全国の方言辞書の方言単語を用いて音声認識することは多大な時間が必要となる。また、J.シュミットの「波状伝搬説」(1872年)によれば、方言は、ある地域を中心に波状に伝播する可能性があるため、極論でいえば、関東地域を中心に伝播した場合に、九州地域の方言と東北地域の方言とが一致する可能性がある。ゆえに、音韻系列の方言情報のみを用いた発話者の方言判定は誤判定となる可能性がある。
一方、本実施の形態では、発話者の発するアクセント特徴量を地域別に予め区別しておき、音声認識を行う前にアクセントに基づいて発話者に関連のある地域を大局的に判定するため、地域性の認識精度と認識速度を高めることが可能となる。また、式(1)を用いることにより、方言による語彙数の違いを正規化し、かつ、出現頻度が低い方言を重要視した尤度を計算するため、発話者の属する地域を高精度に判別することが可能となる。
すなわち、アクセントに基づいて地域を判定し、更に音韻情報を用いて方言を判定するため、特別な機器や操作方法を習得しなくとも発話者の発音から発話者に関する居住地域や出生地域を判定可能であって、事前登録も不要であり、更に式(1)により方言辞書の収録による差異を吸収することにより、高速かつ安定した判定を実現することができる。
1…ピッチパターン抽出装置
11…データ記憶部(第1記憶手段、第2記憶手段)
12…フレーズ区間抽出部(抽出手段)
13…ピッチパターン分析部(地域判定手段)
14…テキスト情報分析部(方言判定手段)
11…データ記憶部(第1記憶手段、第2記憶手段)
12…フレーズ区間抽出部(抽出手段)
13…ピッチパターン分析部(地域判定手段)
14…テキスト情報分析部(方言判定手段)
Claims (9)
- コンピュータにより、
語調に現れる語調特徴量を地域別に第1記憶手段に記憶しておく第1ステップと、
各地域で使用される様々な方言を方言の種類に応じて集めた複数の種類別方言情報を地域別に第2記憶手段に記憶しておく第2ステップと、
発話者の音声信号から有声区間の音声信号をフレーズとして抽出する第3ステップと、
前記フレーズから語調に関する特徴量を分析し、前記第1記憶手段から前記地域別の語調特徴量を読み出して、分析した特徴量に最も近い語調特徴量に対応する地域を判定する第4ステップと、
前記フレーズから音韻情報を抽出し、判定された地域に対応する複数の種類別方言情報を前記第2記憶手段から読み出して、抽出された音韻情報と当該各種類別方言情報とを用いて音声認識をそれぞれ行い、認識率の最も高い種類別方言情報に係る方言を前記発話者の方言として判定する第5ステップと、
を有することを特徴とするユーザプロファイル抽出方法。 - 前記第1記憶手段が記憶している前記語調特徴量は、
最小二乗法による回帰係数としての、フレーズの中心の形状を強調した重み付けと、フレーズの終端に向かって次第に増加する重み付けとがそれぞれされた、音声信号の形状の時間変化量を表す傾きと、音声信号の形状の変動量を表す二乗誤差とであって、
前記第4ステップは、
抽出された複数のフレーズについて前記傾き及び前記二乗誤差をそれぞれ算出し、前記第1記憶手段に記憶されている地域の前記傾き及び前記二乗誤差を用いて、当該地域に対する各フレーズの尤度をそれぞれ計算し、計算された複数の尤度を掛け合わせて各地域に対する1つの尤度をそれぞれ算出して、最も高い尤度の地域を前記発話者の地域として判定することを特徴とする請求項1に記載のユーザプロファイル抽出方法。 - 前記第5ステップは、
抽出された複数のフレーズについて前記音声認識をそれぞれ行って各フレーズの方言をそれぞれ判定し、当該判定結果により得られた各方言のフレーズ出現頻度をそれぞれ計算すると共に、当該各方言の逆出現頻度を一定のフレーズ数単位でそれぞれ計算し、更に当該各方言に対する重み係数を前記種類別方言情報に含まれる方言の単語数を用いてそれぞれ計算して、前記フレーズ出現頻度と前記逆出現頻度と前記重み係数とを掛け合わせることにより方言毎の尤度を求め、最も高い尤度の方言を前記発話者の方言として判定することを特徴とする請求項1又は2に記載のユーザプロファイル抽出方法。 - 語調に現れる語調特徴量を地域別に記憶しておく第1記憶手段と、
各地域で使用される様々な方言を方言の種類に応じて集めた複数の種類別方言情報を地域別に記憶しておく第2記憶手段と、
発話者の音声信号から有声区間の音声信号をフレーズとして抽出する抽出手段と、
前記フレーズから語調に関する特徴量を分析し、前記第1記憶手段から前記地域別の語調特徴量を読み出して、分析した特徴量に最も近い語調特徴量に対応する地域を判定する地域判定手段と、
前記フレーズから音韻情報を抽出し、判定された地域に対応する複数の種類別方言情報を前記第2記憶手段から読み出して、抽出された音韻情報と当該各種類別方言情報とを用いて音声認識をそれぞれ行い、認識率の最も高い種類別方言情報に係る方言を前記発話者の方言として判定する方言判定手段と、
を有することを特徴とするユーザプロファイル抽出装置。 - 前記第1記憶手段が記憶している前記語調特徴量は、
最小二乗法による回帰係数としての、フレーズの中心の形状を強調した重み付けと、フレーズの終端に向かって次第に増加する重み付けとがそれぞれされた、音声信号の形状の時間変化量を表す傾きと、音声信号の形状の変動量を表す二乗誤差とであって、
前記地域判定手段は、
抽出された複数のフレーズについて前記傾き及び前記二乗誤差をそれぞれ算出し、前記第1記憶手段に記憶されている地域の前記傾き及び前記二乗誤差を用いて、当該地域に対する各フレーズの尤度をそれぞれ計算し、計算された複数の尤度を掛け合わせて各地域に対する1つの尤度をそれぞれ算出して、最も高い尤度の地域を前記発話者の地域として判定することを特徴とする請求項5に記載のユーザプロファイル抽出装置。 - 前記方言判定手段は、
抽出された複数のフレーズについて前記音声認識をそれぞれ行って各フレーズの方言をそれぞれ判定し、当該判定結果により得られた各方言のフレーズ出現頻度をそれぞれ計算すると共に、当該各方言の逆出現頻度を一定のフレーズ数単位でそれぞれ計算し、更に当該各方言に対する重み係数を前記種類別方言情報に含まれる方言の単語数を用いてそれぞれ計算して、前記フレーズ出現頻度と前記逆出現頻度と前記重み係数とを掛け合わせることにより方言毎の尤度を求め、最も高い尤度の方言を前記発話者の方言として判定することを特徴とする請求項5又は6に記載のユーザプロファイル抽出装置。 - 請求項1乃至4のいずれか1つに記載した各ステップをコンピュータに実行させることを特徴とするユーザプロファイル抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009108988A JP2010256765A (ja) | 2009-04-28 | 2009-04-28 | ユーザプロファイル抽出方法、ユーザプロファイル抽出装置及びユーザプロファイル抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009108988A JP2010256765A (ja) | 2009-04-28 | 2009-04-28 | ユーザプロファイル抽出方法、ユーザプロファイル抽出装置及びユーザプロファイル抽出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010256765A true JP2010256765A (ja) | 2010-11-11 |
Family
ID=43317719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009108988A Pending JP2010256765A (ja) | 2009-04-28 | 2009-04-28 | ユーザプロファイル抽出方法、ユーザプロファイル抽出装置及びユーザプロファイル抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010256765A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104575516A (zh) * | 2013-10-07 | 2015-04-29 | 霍尼韦尔国际公司 | 用于在使用动态话音数据库的飞机驾驶舱中校正口音诱导话音的系统和方法 |
KR101619262B1 (ko) * | 2014-11-14 | 2016-05-18 | 현대자동차 주식회사 | 음성인식 장치 및 방법 |
-
2009
- 2009-04-28 JP JP2009108988A patent/JP2010256765A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104575516A (zh) * | 2013-10-07 | 2015-04-29 | 霍尼韦尔国际公司 | 用于在使用动态话音数据库的飞机驾驶舱中校正口音诱导话音的系统和方法 |
CN104575516B (zh) * | 2013-10-07 | 2020-02-28 | 霍尼韦尔国际公司 | 用于在使用动态话音数据库的飞机驾驶舱中校正口音诱导话音的系统和方法 |
KR101619262B1 (ko) * | 2014-11-14 | 2016-05-18 | 현대자동차 주식회사 | 음성인식 장치 및 방법 |
CN105609101A (zh) * | 2014-11-14 | 2016-05-25 | 现代自动车株式会社 | 语音识别系统及语音识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107195296B (zh) | 一种语音识别方法、装置、终端及系统 | |
Li et al. | Spoken language recognition: from fundamentals to practice | |
CN105593936B (zh) | 用于文本转语音性能评价的系统和方法 | |
WO2008033095A1 (en) | Apparatus and method for speech utterance verification | |
Koolagudi et al. | Two stage emotion recognition based on speaking rate | |
JP2011033680A (ja) | 音声処理装置及び方法、並びにプログラム | |
JP2008537600A (ja) | 音声変換のための自動的ドナーランキングおよび選択システムおよび方法 | |
Fukuda et al. | Detecting breathing sounds in realistic Japanese telephone conversations and its application to automatic speech recognition | |
Behravan | Dialect and accent recognition | |
Mertens | Polytonia: a system for the automatic transcription of tonal aspects in speech corpora | |
CN106653002A (zh) | 一种文字直播方法及平台 | |
Manchala et al. | GMM based language identification system using robust features | |
Helander et al. | A novel method for prosody prediction in voice conversion | |
Guo et al. | Robust speaker identification via fusion of subglottal resonances and cepstral features | |
TWI467566B (zh) | 多語言語音合成方法 | |
Revathy et al. | Performance comparison of speaker and emotion recognition | |
Gutkin et al. | Building statistical parametric multi-speaker synthesis for bangladeshi bangla | |
Nanmalar et al. | Literary and colloquial dialect identification for Tamil using acoustic features | |
Stoll | Finding difficult speakers in automatic speaker recognition | |
JP4627154B2 (ja) | 人間の感情状態に応じた音楽出力装置及び音楽出力方法 | |
Kumar et al. | Automatic spontaneous speech recognition for Punjabi language interview speech corpus | |
US20140074478A1 (en) | System and method for digitally replicating speech | |
Abdelmalek et al. | High quality Arabic text-to-speech synthesis using unit selection | |
JP2010256765A (ja) | ユーザプロファイル抽出方法、ユーザプロファイル抽出装置及びユーザプロファイル抽出プログラム | |
JP2004279436A (ja) | 音声合成装置及びコンピュータプログラム |