JP2010256765A

JP2010256765A - ユーザプロファイル抽出方法、ユーザプロファイル抽出装置及びユーザプロファイル抽出プログラム

Info

Publication number: JP2010256765A
Application number: JP2009108988A
Authority: JP
Inventors: Osamu Mizuno; 理水野; Masanobu Abe; 匡伸阿部
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-04-28
Filing date: 2009-04-28
Publication date: 2010-11-11

Abstract

【課題】日常会話で発する発話者の発音から方言に関するユーザプロファイルを抽出する。
【解決手段】発話者の音声信号から有声区間の音声信号をフレーズとして抽出し、フレーズから語調に関する特徴量を分析し、第１記憶手段に記憶されている地域別の語調特徴量を読み出して、分析した特徴量に最も近い語調特徴量に対応する地域を判定する。また、フレーズから音韻情報を抽出し、判定された地域に対応する複数の種類別方言情報を第２記憶手段から読み出して、抽出された音韻情報と各種類別方言情報とを用いて音声認識をそれぞれ行い、認識率の最も高い種類別方言情報に係る方言を発話者の方言として判定する。
【選択図】図１

Description

本発明は、方言に関するユーザプロファイルを抽出するユーザプロファイル抽出方法、ユーザプロファイル抽出装置及びユーザプロファイル抽出プログラムに関する。

現在、ネットワークを介した情報の収集や商品購入が盛んになっており、利用者の嗜好や趣味、あるいは利用者が置かれた状況に適した情報をタイムリーに提供することが重要となっている。利用者に適した情報を提供するためには、個々人の利用者の情報（ユーザプロファイル）を取得する必要がある。特に、利用者の居住地域の情報、例えば、気候、文化、地理的特性等の情報は、利用者の興味、嗜好に大きく結びついていることが多い。このため、地域などの情報を利用者に事前に登録してもらうことにより、その登録内容に即した情報を提供するようになっている。

しかしながら、利用者にとって登録操作というのは非常に高い障壁となっている。これは、単に入力作業に対する手間を要するのみでなく、個人情報の開示に対する利用者の不安に起因するものであり、たとえ性別や年齢に関する情報であっても、登録には利用者にとっては大きな負担になることが多い。さらには、居住地や出生地などの情報の登録を要求した場合は、利用者の多くはサービスの利用を諦めてしまう可能性もある。このようなことから、利用者に負担を与えず自動的にユーザプロファイルを蓄積することが望まれている。

一方、方言に着目すると利用者の地域性や出生地などの情報を反映していることが多く、方言を判別し蓄積できるようになれば、音声会話をすることで簡単に利用者のプロファイルを蓄積可能である。

伊達瓦、外２名、「方言音声空間モデルに基づいた音声特徴量間相関を用いた方言識別法"、人工知能学会全国大会（第19回）、2005年

しかしながら、非特許文献１に開示された技術では、方言を判別するための大量の学習用音声データが必要になり、容易にデータベースを構築することができないという問題があった。

本発明は、上記課題を鑑みてなされたものであり、日常会話で発する発話者の発音から方言に関するユーザプロファイルを抽出するユーザプロファイル抽出方法、ユーザプロファイル抽出装置及びユーザプロファイル抽出プログラムを提供することを課題とする。

請求項１に記載の本発明は、コンピュータにより、語調に現れる語調特徴量を地域別に第１記憶手段に記憶しておく第１ステップと、各地域で使用される様々な方言を方言の種類に応じて集めた複数の種類別方言情報を地域別に第２記憶手段に記憶しておく第２ステップと、発話者の音声信号から有声区間の音声信号をフレーズとして抽出する第３ステップと、前記フレーズから語調に関する特徴量を分析し、前記第１記憶手段から前記地域別の語調特徴量を読み出して、分析した特徴量に最も近い語調特徴量に対応する地域を判定する第４ステップと、前記フレーズから音韻情報を抽出し、判定された地域に対応する複数の種類別方言情報を前記第２記憶手段から読み出して、抽出された音韻情報と当該各種類別方言情報とを用いて音声認識をそれぞれ行い、認識率の最も高い種類別方言情報に係る方言を前記発話者の方言として判定する第５ステップと、を有することを要旨とする。

請求項２に記載の本発明は、前記第１記憶手段が記憶している前記語調特徴量は、最小二乗法による回帰係数としての、フレーズの中心の形状を強調した重み付けと、フレーズの終端に向かって次第に増加する重み付けとがそれぞれされた、音声信号の形状の時間変化量を表す傾きと、音声信号の形状の変動量を表す二乗誤差とであって、前記第４ステップは、抽出された複数のフレーズについて前記傾き及び前記二乗誤差をそれぞれ算出し、前記第１記憶手段に記憶されている地域の前記傾き及び前記二乗誤差を用いて、当該地域に対する各フレーズの尤度をそれぞれ計算し、計算された複数の尤度を掛け合わせて各地域に対する１つの尤度をそれぞれ算出して、最も高い尤度の地域を前記発話者の地域として判定することを要旨とする。

請求項３に記載の本発明は、前記第５ステップは、抽出された複数のフレーズについて前記音声認識をそれぞれ行って各フレーズの方言をそれぞれ判定し、当該判定結果により得られた各方言のフレーズ出現頻度をそれぞれ計算すると共に、当該各方言の逆出現頻度を一定のフレーズ数単位でそれぞれ計算し、更に当該各方言に対する重み係数を前記種類別方言情報に含まれる方言の単語数を用いてそれぞれ計算して、前記フレーズ出現頻度と前記逆出現頻度と前記重み係数とを掛け合わせることにより方言毎の尤度を求め、最も高い尤度の方言を前記発話者の方言として判定することを要旨とする。

請求項４に記載の本発明は、前記種類別方言情報は、方言Ａの種類別方言情報Ａと、方言Ｂの種類別方言情報Ｂと、方言Ｃの種類別方言情報Ｃとであって、前記第５ステップは、前記方言Ａから前記方言Ｃのうち方言Ａに対する尤度ｌｄ_Ａを次式を用いて求めることを要旨とする。

請求項５に記載の本発明は、語調に現れる語調特徴量を地域別に記憶しておく第１記憶手段と、各地域で使用される様々な方言を方言の種類に応じて集めた複数の種類別方言情報を地域別に記憶しておく第２記憶手段と、発話者の音声信号から有声区間の音声信号をフレーズとして抽出する抽出手段と、前記フレーズから語調に関する特徴量を分析し、前記第１記憶手段から前記地域別の語調特徴量を読み出して、分析した特徴量に最も近い語調特徴量に対応する地域を判定する地域判定手段と、前記フレーズから音韻情報を抽出し、判定された地域に対応する複数の種類別方言情報を前記第２記憶手段から読み出して、抽出された音韻情報と当該各種類別方言情報とを用いて音声認識をそれぞれ行い、認識率の最も高い種類別方言情報に係る方言を前記発話者の方言として判定する方言判定手段と、を有することを要旨とする。

請求項６に記載の本発明は、前記第１記憶手段が記憶している前記語調特徴量は、最小二乗法による回帰係数としての、フレーズの中心の形状を強調した重み付けと、フレーズの終端に向かって次第に増加する重み付けとがそれぞれされた、音声信号の形状の時間変化量を表す傾きと、音声信号の形状の変動量を表す二乗誤差とであって、前記地域判定手段は、抽出された複数のフレーズについて前記傾き及び前記二乗誤差をそれぞれ算出し、前記第１記憶手段に記憶されている地域の前記傾き及び前記二乗誤差を用いて、当該地域に対する各フレーズの尤度をそれぞれ計算し、計算された複数の尤度を掛け合わせて各地域に対する１つの尤度をそれぞれ算出して、最も高い尤度の地域を前記発話者の地域として判定することを要旨とする。

請求項７に記載の本発明は、前記方言判定手段は、抽出された複数のフレーズについて前記音声認識をそれぞれ行って各フレーズの方言をそれぞれ判定し、当該判定結果により得られた各方言のフレーズ出現頻度をそれぞれ計算すると共に、当該各方言の逆出現頻度を一定のフレーズ数単位でそれぞれ計算し、更に当該各方言に対する重み係数を前記種類別方言情報に含まれる方言の単語数を用いてそれぞれ計算して、前記フレーズ出現頻度と前記逆出現頻度と前記重み係数とを掛け合わせることにより方言毎の尤度を求め、最も高い尤度の方言を前記発話者の方言として判定することを要旨とする。

請求項８に記載の本発明は、前記種類別方言情報は、方言Ａの種類別方言情報Ａと、方言Ｂの種類別方言情報Ｂと、方言Ｃの種類別方言情報Ｃとであって、前記方言判定手段は、前記方言Ａから前記方言Ｃのうち方言Ａに対する尤度ｌｄ_Ａを次式を用いて求めることを要旨とする。

請求項９に記載の本発明は、請求項１乃至４のいずれか１つに記載した各ステップをコンピュータに実行させることを要旨とする。

本発明によれば、日常会話で発する発話者の発音から方言に関するユーザプロファイルを抽出するユーザプロファイル抽出方法、ユーザプロファイル抽出装置及びユーザプロファイル抽出プログラムを提供することができる。

ユーザプロファイル抽出装置の機能構成を示す図である。フレーズ区間抽出部の処理フローを示す図である。ピッチパターン分析部の処理フローを示す図である。テキスト情報分析部の処理フローを示す図である。

図１は、本実施の形態に係るユーザプロファイル抽出装置の機能構成を示す図である。本ユーザプロファイル抽出装置１は、データ記憶部１１と、フレーズ区間抽出部１２と、ピッチパターン分析部１３と、テキスト情報分析部１４とを備えている。このユーザプロファイル抽出装置１は、ＣＰＵ等の演算処理装置やメモリ等の記憶装置を備えたコンピュータにより構成可能なものであり、各機能部の処理はプログラムによって実行される。このプログラムは記憶装置に記憶されており、記録媒体に記録することも、ネットワークを通して提供することも可能である。以下、各機能部について個別具体的に説明すると共に、各構成を備えることによる作用及び効果について説明する。

データ記憶部１１は、一般にイントネーションやアクセントと称される語調に現れるアクセント特徴量を地域別に記録した地域別アクセント傾向情報や、各地域で使用される様々な方言を方言の種類に応じて集めた複数の方言辞書を地域別に記憶しておく機能を有している。

例えば、発話者が発する音声の音声信号の基本周波数がフラットな場合には東北地方とし、アクセント位置が時間的に後方にある場合には関西地方とする地域別アクセント傾向情報が記憶されている。また、例えば、秋田県地方、山形県地方、岩手県地方でそれぞれ使用されている種類の方言単語を収録した方言辞書Ａ、方言辞書Ｂ、方言辞書Ｃを東北地域の方言辞書として記憶している。

また、データ記憶部１１は、ユーザプロファイルの抽出過程で計算される様々な変数を記憶する機能や、最終的に抽出された発話者の方言を該発話者のユーザプロファイルとして記憶する機能も有している。

フレーズ区間抽出部１２は、固定電話機や携帯電話機等を用いて会話中の発話者の音声信号から、有声区間の音声信号をフレーズとして抽出する機能を有している。

ピッチパターン分析部１３は、フレーズ区間抽出部１２で抽出されたフレーズについて、そのフレーズを構成してる音声信号の基本周波数（ピッチ周波数）の時系列な形状（ピッチ）のパターン（ピッチパターン）を分析する。ピッチパターンは音声のアクセントに関連しているため、このピッチパターンの分析はアクセントに関する特徴量を分析することになる。そして、分析したアクセントの特徴量に最も近いアクセント特徴量に対応する地域を地域別アクセント傾向情報から判定する機能を有している。この分析結果により、発話者に関連のある地域（例えば、居住地域や出身地域等）を大局的に把握することが可能となる。

テキスト情報分析部１４は、フレーズから音韻情報（音韻系列）を抽出し、ピッチパターン分析部１３で判定された地域に対応する複数の方言辞書をデータ記憶部１１から読み出して、抽出された音韻情報と各方言辞書に収録されている方言の単語とを用いて音声認識をそれぞれ行い、認識率の最も高い方言辞書に係る方言を発話者の方言として判定する機能を有している。

続いて、各機能部の処理フローについて詳細に説明する。最初に、図２を用いてフレーズ区間抽出部１２の処理フローについて説明する。フレーズとは単語などで構成される単位であり、言葉として不自然にならない程度の最小のひとまとまりのものであるため、文節とも称されている。そして、フレーズは、前述したように音声区間の音声信号で構成されており、時間的前後にポーズと呼ばれる休止区間が存在するため、ポーズの位置を判定することによりフレーズを抽出することができる。以下、具体的なフレーズの抽出方法について説明する。

まず、ポーズの位置を把握するために用いるポーズ判定用パワー（音声信号の基本周波数の振幅値）閾値Ａ_ｍｉｎを決定する（Ｓ１０１）。具体的には、最初の有声音に相当する音声信号の前後１０秒間の音声信号を特定し、特定した音声信号に関するパワー平均値Ａ_ａｖｅ及び分散σを計算し、そのパワー平均値Ａ_ａｖｅから分散σの２倍を引いた値をポーズ判定用パワー閾値Ａ_ｍｉｎ（＝Ａ_ａｖｅ−２σ）とする。

次に、発話者の音声信号から音響的特徴量を抽出する（Ｓ１０２）。具体的には、時刻Ｔにおける音声信号のパワーＡ_ＴとピッチＰ_Ｔを抽出すると共に、パワーとピッチの相関関係も計算する。なお、ピッチ抽出には自己相関法等を用いることができる。

続いて、フレーズの始端時刻を検出する（Ｓ１０３）。具体的には、ピッチ抽出の差異の相関係数を用いて有声音を特定し、特定した時刻から遡って音声信号のパワーがポーズ判定用パワー閾値Ａ_ｍｉｎを下回った時刻を検出して、この時刻をフレーズの始端時刻Ｔ_ｓとする。

また、フレーズの終端時刻を検出する（Ｓ１０４、Ｓ１０５）。具体的には、音声には促音や無声子音などパワーの小さい区間や、有声でない区間が多数存在するため、例えば７００［ｍｓｅｃ］以上の区間でポーズ判定用パワー閾値Ａ_ｍｉｎを下回ることが無ければその区間を有声区間であると判定し、パワーがポーズ判定用パワー閾値Ａ_ｍｉｎを下回った時刻をフレーズの終端時刻Ｔ_ｅとする。なお、有声区間の判定に用いる７００［ｍｓｅｃ］は、任意に変更可能である。

最後に、フレーズを確定し、そのフレーズの始端時刻と終端時刻とをデータ記憶部１１に記憶する（Ｓ１０６、Ｓ１０７）。具体的には、終端時刻Ｔ_ｅから始端時刻Ｔ_ｓを引いた時間が３００［ｍｓｅｃ］以上の場合に、その区間をフレーズとして確定する。これにより、音声区間であっても、つなぎ語と呼ばれる間投詞やため息などの音声を排除することができる。なお、フレーズの判定に用いる３００［ｍｓｅｃ］についても、任意に変更可能である。

なお、Ｓ１０４の判定で、ポーズ判定用パワー閾値Ａ_ｍｉｎを下回る場合や、Ｓ１０６の判定で、終端時刻Ｔ_ｅから始端時刻Ｔ_ｓを引いた時間が３００［ｍｓｅｃ］未満である場合には、始端時刻Ｔ_ｓ及び終端時刻Ｔ_ｅをリセットし、Ｓ１０３に戻る（Ｓ１０８）。

次に、図３を用いてピッチパターン分析部１３の処理フローについて説明する。まず、フレーズ内のピッチについて、最小二乗法による重み付き回帰係数を求める（Ｓ２０１）。具体的には、フレーズ区間抽出部１２で確定した複数のフレーズをデータ記憶部１１から読み出して、各フレーズに対して２種類の重み付け（後述）を行った傾きａと二乗誤差ｄとを回帰係数として求める。傾きａは、ピッチパターンの時間変化量を表し、二乗誤差ｄは、ピッチパターンの変動量を表す。なお、２種類の重み付けとは、１つめは、二等辺三角形による重み付けであり、主にフレーズの中心（（終端時刻Ｔ_ｅ−始端時刻Ｔ_ｓ）／２）の形状を強調して回帰係数（傾きａ_１、二乗誤差ｄ_１）を算出する。２つめは、フレーズの終端に向かって次第に増加する重み付け（始端から終端にかけて０．０から１．０に次第に増加）であり、言葉の終端部分のピッチパターンを強調可能な回帰係数（傾きａ_２、二乗誤差ｄ_２）となる。

なお、語調に現れる特徴はアクセントにより大きく地域を分類することが可能であることから、各地域で話されている音声を予め収録して上記４つのパラメータ（傾きａ_１、二乗誤差ｄ_１、傾きａ_２、二乗誤差ｄ_２）を求め、その各地域の傾向を確率分布の形で学習しておき、前述した地域別アクセント傾向情報としてデータ記憶部１１に記憶している。

次に、確率密度関数を用いて各地域に対する尤度を計算する（Ｓ２０２）。具体的には、各フレーズの４つのパラメータと、データ記憶部１１に記憶されている地域ｉの４つのパラメータとを用いて、その地域ｉに対する各フレーズの尤度をそれぞれ計算する。

続いて、Ｓ２０２で計算された尤度を掛け合わせ、地域ｉに対する１つの尤度を計算する（Ｓ２０３）。

Ｓ２０２及びＳ２０３の処理を全ての地域についてそれぞれ計算し、最も高い尤度の地域を発話者の属する地域として判定する（Ｓ２０４）。

最後に、図４を用いてテキスト情報分析部１４の処理フローについて説明する。テキスト情報分析部１４では、さらに詳細な地域を特定する。

まず、フレーズ毎に音声認識を実施する（Ｓ３０１）。具体的には、フレーズ区間抽出部１２で確定した複数のフレーズをデータ記憶部１１から読み出して、各フレーズから音韻情報をそれぞれ抽出し、更にピッチパターン分析部１３で判定した地域に対応する複数の方言辞書をデータ記憶部１１から読み出して、各フレーズの音韻情報と各方言辞書に含まれる全ての単語とを用いて、音声認識をフレーズ単位で実施する。

次に、各フレーズが属する方言を判定する（Ｓ３０２）。具体的には、Ｓ３０１での音声認識の結果、認識尤度が高い方言辞書の方言をフレーズの属する方言とする。例えば、ピッチパターン分析部１３で判定した地域が東北地域であって、複数の方言辞書が前述したような東北地域に関連のある方言辞書Ａ〜方言辞書Ｃである場合に、フレーズＰ１について音声認識した結果、方言辞書Ａとの認識尤度が８０、方言辞書Ｂとの認識尤度が７０、方言辞書Ｃとの認識尤度が９０である場合には、フレーズＰ１の属する方言を方言辞書Ｃの「岩手県地方」の方言として判定する。

続いて、３つのフレーズを１つのドキュメントとして保存する（Ｓ３０３）。具体的には、フレーズＰ１〜フレーズＰ３を１つのドキュメントＤ１とし、フレーズＰ２〜フレーズＰ４を１つのドキュメントＤ２として、ドキュメント単位でフレーズを保存する。

次に、Ｓ３０２で判定された全てのフレーズに対する方言判定結果を用いて、発話者の方言を最終的に判定する際に用いる方言ｋの尤度ｌｄ_ｋを算出する式（１）のｐｆ_ｋ（式（２））を計算する（Ｓ３０４）。

ここで、式（２）のｐｆ_ｋは方言ｋのフレーズが出現するフレーズ出現頻度を表し、ｎ_ｋは方言ｋが出現する出現頻度を表している。なお、式（１）は、自然言語処理の分野で用いられている重要語の算出式を応用したものであり、ｔｆ−ｉｄｆ法におけるｔｆ（ｔｅｒｍｆｒｅｑｕｅｎｃｙ）に代えて、ｐｆ（ｐｈｒａｓｅｆｒｅｑｕｅｎｃｙ）を用いている。

続いて、式（１）のｉｄｆ_ｋ（式（３））を計算する（Ｓ３０５）。

ここで、ｉｄｆ_ｋは方言ｋの逆出現頻度を表し、｜Ｄ｜は３つのフレーズからなる１つのドキュメントを表し、｜ｄ：ｄ∋ｐ_ｋ｜は方言ｋを含むドキュメント数を表している。文章と異なり、会話音声では句読点に相当する部分を判別することが難しく、かつ、間投詞のように会話では必要だが文章としては不要なものも多く出現するため、ドキュメントの単位をこのように纏めている。

また、式（１）のｗ_ｋ（式（４）〜式（６））を計算する（Ｓ３０６）。

ここで、方言辞書Ａ、方言辞書Ｂ、方言辞書Ｃの単語数をそれぞれａ個、ｂ個、ｃ個とした場合に、ｗ_ａは方言Ａの重み係数を表し、ｗ_ｂは方言Ｂの重み係数を表し、ｗ_ｃは方言Ｃの重み係数を表している。

そして、Ｓ３０４〜Ｓ３０６の計算結果を式（１）に代入して、方言ｋの尤度ｌｄ_ｋを算出する（Ｓ３０７）。なお、方言Ａについては式（４）の重み係数を用い、方言Ｂについては式（５）の重み係数を用い、方言Ｃについては式（６）の重み係数を用いる。方言辞書が含む単語数やカバレッジが異なるため、従来のｔｆ−ｉｄｆ法と異なって重み係数を付加することにより、正規化することが可能となる。

最後に、Ｓ３０７で算出された方言辞書毎の尤度ｌｄ_ｋのうち、最大となる尤度ｌｄ_ｋに属する方言を発話者の発する方言として判定する（Ｓ３０８）。その後、判定された方言を発話者のユーザプロファイルとしてデータ記憶部１１に記憶することや、ピッチパターン分析部１３で判定した地域、Ｓ３０８で判定した方言をモニター等に出力することも可能である。

最後に、本実施の形態の効果について説明する。方言は、地域によって多種多様かつ膨大であるため、発話者の発声に基づいて抽出されたフレーズの音韻情報を全国の方言辞書の方言単語を用いて音声認識することは多大な時間が必要となる。また、Ｊ．シュミットの「波状伝搬説」（１８７２年）によれば、方言は、ある地域を中心に波状に伝播する可能性があるため、極論でいえば、関東地域を中心に伝播した場合に、九州地域の方言と東北地域の方言とが一致する可能性がある。ゆえに、音韻系列の方言情報のみを用いた発話者の方言判定は誤判定となる可能性がある。

一方、本実施の形態では、発話者の発するアクセント特徴量を地域別に予め区別しておき、音声認識を行う前にアクセントに基づいて発話者に関連のある地域を大局的に判定するため、地域性の認識精度と認識速度を高めることが可能となる。また、式（１）を用いることにより、方言による語彙数の違いを正規化し、かつ、出現頻度が低い方言を重要視した尤度を計算するため、発話者の属する地域を高精度に判別することが可能となる。

すなわち、アクセントに基づいて地域を判定し、更に音韻情報を用いて方言を判定するため、特別な機器や操作方法を習得しなくとも発話者の発音から発話者に関する居住地域や出生地域を判定可能であって、事前登録も不要であり、更に式（１）により方言辞書の収録による差異を吸収することにより、高速かつ安定した判定を実現することができる。

１…ピッチパターン抽出装置
１１…データ記憶部（第１記憶手段、第２記憶手段）
１２…フレーズ区間抽出部（抽出手段）
１３…ピッチパターン分析部（地域判定手段）
１４…テキスト情報分析部（方言判定手段）

Claims

コンピュータにより、
語調に現れる語調特徴量を地域別に第１記憶手段に記憶しておく第１ステップと、
各地域で使用される様々な方言を方言の種類に応じて集めた複数の種類別方言情報を地域別に第２記憶手段に記憶しておく第２ステップと、
発話者の音声信号から有声区間の音声信号をフレーズとして抽出する第３ステップと、
前記フレーズから語調に関する特徴量を分析し、前記第１記憶手段から前記地域別の語調特徴量を読み出して、分析した特徴量に最も近い語調特徴量に対応する地域を判定する第４ステップと、
前記フレーズから音韻情報を抽出し、判定された地域に対応する複数の種類別方言情報を前記第２記憶手段から読み出して、抽出された音韻情報と当該各種類別方言情報とを用いて音声認識をそれぞれ行い、認識率の最も高い種類別方言情報に係る方言を前記発話者の方言として判定する第５ステップと、
を有することを特徴とするユーザプロファイル抽出方法。
前記第１記憶手段が記憶している前記語調特徴量は、
最小二乗法による回帰係数としての、フレーズの中心の形状を強調した重み付けと、フレーズの終端に向かって次第に増加する重み付けとがそれぞれされた、音声信号の形状の時間変化量を表す傾きと、音声信号の形状の変動量を表す二乗誤差とであって、
前記第４ステップは、
抽出された複数のフレーズについて前記傾き及び前記二乗誤差をそれぞれ算出し、前記第１記憶手段に記憶されている地域の前記傾き及び前記二乗誤差を用いて、当該地域に対する各フレーズの尤度をそれぞれ計算し、計算された複数の尤度を掛け合わせて各地域に対する１つの尤度をそれぞれ算出して、最も高い尤度の地域を前記発話者の地域として判定することを特徴とする請求項１に記載のユーザプロファイル抽出方法。
前記第５ステップは、
抽出された複数のフレーズについて前記音声認識をそれぞれ行って各フレーズの方言をそれぞれ判定し、当該判定結果により得られた各方言のフレーズ出現頻度をそれぞれ計算すると共に、当該各方言の逆出現頻度を一定のフレーズ数単位でそれぞれ計算し、更に当該各方言に対する重み係数を前記種類別方言情報に含まれる方言の単語数を用いてそれぞれ計算して、前記フレーズ出現頻度と前記逆出現頻度と前記重み係数とを掛け合わせることにより方言毎の尤度を求め、最も高い尤度の方言を前記発話者の方言として判定することを特徴とする請求項１又は２に記載のユーザプロファイル抽出方法。
前記種類別方言情報は、方言Ａの種類別方言情報Ａと、方言Ｂの種類別方言情報Ｂと、方言Ｃの種類別方言情報Ｃとであって、
前記第５ステップは、
前記方言Ａから前記方言Ｃのうち方言Ａに対する尤度ｌｄ_Ａを次式を用いて求めることを特徴とする請求項３に記載のユーザプロファイル抽出方法。
語調に現れる語調特徴量を地域別に記憶しておく第１記憶手段と、
各地域で使用される様々な方言を方言の種類に応じて集めた複数の種類別方言情報を地域別に記憶しておく第２記憶手段と、
発話者の音声信号から有声区間の音声信号をフレーズとして抽出する抽出手段と、
前記フレーズから語調に関する特徴量を分析し、前記第１記憶手段から前記地域別の語調特徴量を読み出して、分析した特徴量に最も近い語調特徴量に対応する地域を判定する地域判定手段と、
前記フレーズから音韻情報を抽出し、判定された地域に対応する複数の種類別方言情報を前記第２記憶手段から読み出して、抽出された音韻情報と当該各種類別方言情報とを用いて音声認識をそれぞれ行い、認識率の最も高い種類別方言情報に係る方言を前記発話者の方言として判定する方言判定手段と、
を有することを特徴とするユーザプロファイル抽出装置。
前記第１記憶手段が記憶している前記語調特徴量は、
最小二乗法による回帰係数としての、フレーズの中心の形状を強調した重み付けと、フレーズの終端に向かって次第に増加する重み付けとがそれぞれされた、音声信号の形状の時間変化量を表す傾きと、音声信号の形状の変動量を表す二乗誤差とであって、
前記地域判定手段は、
抽出された複数のフレーズについて前記傾き及び前記二乗誤差をそれぞれ算出し、前記第１記憶手段に記憶されている地域の前記傾き及び前記二乗誤差を用いて、当該地域に対する各フレーズの尤度をそれぞれ計算し、計算された複数の尤度を掛け合わせて各地域に対する１つの尤度をそれぞれ算出して、最も高い尤度の地域を前記発話者の地域として判定することを特徴とする請求項５に記載のユーザプロファイル抽出装置。
前記方言判定手段は、
抽出された複数のフレーズについて前記音声認識をそれぞれ行って各フレーズの方言をそれぞれ判定し、当該判定結果により得られた各方言のフレーズ出現頻度をそれぞれ計算すると共に、当該各方言の逆出現頻度を一定のフレーズ数単位でそれぞれ計算し、更に当該各方言に対する重み係数を前記種類別方言情報に含まれる方言の単語数を用いてそれぞれ計算して、前記フレーズ出現頻度と前記逆出現頻度と前記重み係数とを掛け合わせることにより方言毎の尤度を求め、最も高い尤度の方言を前記発話者の方言として判定することを特徴とする請求項５又は６に記載のユーザプロファイル抽出装置。
前記種類別方言情報は、方言Ａの種類別方言情報Ａと、方言Ｂの種類別方言情報Ｂと、方言Ｃの種類別方言情報Ｃとであって、
前記方言判定手段は、
前記方言Ａから前記方言Ｃのうち方言Ａに対する尤度ｌｄ_Ａを次式を用いて求めることを特徴とする請求項７に記載のユーザプロファイル抽出装置。
請求項１乃至４のいずれか１つに記載した各ステップをコンピュータに実行させることを特徴とするユーザプロファイル抽出プログラム。