JP5533853B2 - 読み方判断装置、方法、プログラム、及び音声合成装置 - Google Patents

読み方判断装置、方法、プログラム、及び音声合成装置 Download PDF

Info

Publication number
JP5533853B2
JP5533853B2 JP2011506983A JP2011506983A JP5533853B2 JP 5533853 B2 JP5533853 B2 JP 5533853B2 JP 2011506983 A JP2011506983 A JP 2011506983A JP 2011506983 A JP2011506983 A JP 2011506983A JP 5533853 B2 JP5533853 B2 JP 5533853B2
Authority
JP
Japan
Prior art keywords
reading
word
information
context vector
word set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011506983A
Other languages
English (en)
Other versions
JPWO2010113396A1 (ja
Inventor
玲史 近藤
真一 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011506983A priority Critical patent/JP5533853B2/ja
Publication of JPWO2010113396A1 publication Critical patent/JPWO2010113396A1/ja
Application granted granted Critical
Publication of JP5533853B2 publication Critical patent/JP5533853B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、例えば、複数の読み方候補を有する、単語の読み方を判断するための読み方判断装置、方法、プログラム、及び音声合成装置に関し、特に、単語の読み方を容易かつ適切に判断できる読み方判断装置、方法、プログラム、及び音声合成装置に関するものである。
与えられた文章の読み方を判断する方法として、例えば、予め辞書に文字や単語などの「読み方」(読み仮名やアクセント情報等)を定義しておき、文章中の各単語の文法的接続関係をチェックしつつ、辞書に定義された読み方に基づいて、文章全体の読み方を判断する方法が広く知られている(例えば、非特許文献1及び2)。さらに、連濁や無声化などの音韻規則を考慮することで、文章としてより適切な読み方を付与する方法も知られている。
ディジタルテクノロジーシリーズ6 ディジタル音声処理(東海大学出版会) 岩波講座 ソフトウェア科学15 自然言語処理(岩波書店)
上記非特許文献2に示す形態素解析によれば、その規則として品詞関係が使用されている。しかしながら、例えば、日本語においては、同一表記および同一品詞でありながら、利用分野や意味によって複数の読み方を有する単語(同表記異発音語組)が多数存在する。具体的には、「市場」(名詞)は、「いちば」及び「しじょう」の二種類の読み方を有しており、「黒子」(名詞)は、「ほくろ」及び「くろご」の二種類の読み方を有している。また、「磯」(名詞)の読み方は、「いそ」であるが、一般名詞で使用される場合、平板型のアクセントになり、人名で使用される場合、頭高型のアクセントになる。したがって、例えば、音声合成等を行う場合には、こうした違いも重要となる。文章に正しい読み方を付与するためには、これら複数の読み方(アクセント等を含む)を、適切に選択することが望ましい。
上記選択を行うために、例えば、「市場」の前に「魚」が連接する場合は、その読み方を「いちば」とし、同様に前に「株式」が連接する場合は、その読み方を「しじょう」として、読み分ける方法が考えられる。すなわち、「魚」及び「市場」の連鎖が存在する文章の読み方を統計的に調べて、「さかないちば」「さかなしじょう」「うおいちば」「うおしじょう」などの複数の読み方の中から、一番多く読まれた読み方「うおいちば」を抽出し、その読み方を正解とする方法が考えられる。この方法は、例えば、単語bigramの学習頻度に応じて読み方を決定するとの考え方に基づくものであり、適切なbigramセットを定義することで読み方の精度を向上することが可能となる。
しかしながら、上述したような同表記異発音語組は、多数組存在しており、また、これらの同表記異発音語組に連接する可能性のある単語数も非常に多い。このため、適切なbigramセットを作成するためには、正解の読み方を含む学習コーパスが多量に必要となるが、そのような多量の学習コーパスを得ることはあまり実用的とは言えない。また、単語bigramの学習を行う代わりに、同表記異発音語組ごとに連接する特徴のある付属語などを、予め規則として記述し、解析時に利用する方法も考えられる。しかしながら、全ての同表記異発音語組に対して規則を記述することは、実質的に困難と言える。
本発明は、このような問題点を解決するためになされたものであり、単語の読み方を容易かつ適切に判断できる読み方判断装置、方法、プログラム、及び音声合成装置を提供することを主たる目的とする。
上記目的を達成するための本発明の一態様は、複数の読み方候補を有する、単語の読み方を判断するための読み方判断装置であって、前記読み方候補に類似する複数の要素単語からなる単語集合を、夫々生成する単語集合生成手段と、複数の例文を含むコーパス情報を記憶するコーパスデータベースと、前記コーパスデータベースに記憶された前記コーパス情報に基づいて、前記単語集合生成手段により生成された前記単語集合の複数の要素単語に対する特徴量を夫々算出する特徴量算出手段と、前記特徴量算出手段により算出された前記単語集合の複数の要素単語に対する特徴量と、前記読み方候補とを夫々関連付けた読み方判断情報を生成する読み方判断情報生成手段と、を備える、ことを特徴とする読み方判断装置である。
また、上記目的を達成するための本発明の一態様は、複数の読み方候補を有する、単語の読み方を判断するための読み方判断方法であって、前記読み方候補に類似する複数の要素単語からなる単語集合を、夫々生成し、複数の例文を含むコーパス情報に基づいて、前記生成した単語集合の複数の要素単語に対する特徴量を夫々算出し、前記算出した単語集合の複数の要素単語に対する特徴量と、前記読み方候補とを夫々関連付けた読み方判断情報を生成する、ことを特徴とする読み方判断方法である。
さらに、上記目的を達成するための本発明の一態様は、複数の読み方候補を有する、単語の読み方を判断するための読み方判断プログラムを格納する非一時的なコンピュータ可読媒体であって、前記読み方候補に類似する複数の要素単語からなる単語集合を、夫々生成する処理と、複数の例文を含むコーパス情報に基づいて、前記生成された前記単語集合の複数の要素単語に対する特徴量を夫々算出する処理と、前記算出した前記単語集合の複数の要素単語に対する特徴量と、前記読み方候補とを夫々関連付けた読み方判断情報を生成する処理と、をコンピュータに実行させる読み方判断プログラムを格納する非一時的なコンピュータ可読媒体である。
本発明によれば、単語の読み方を容易かつ適切に判断できる読み方判断装置、方法、プログラム、及び音声合成装置を提供することができる。

本発明の実施形態に係る読み方判断装置の機能ブロック図である。 本発明の第1実施形態に係る読み方判断装置の概略的なシステム構成の一例を示すブロック図である。 読み方候補DBに記憶された、単語、品詞、読み方、及び、シソーラス上のカテゴリーを、一組にして関連付けた複数のエントリの一例を示す図である。 シソーラスDBに記憶されたシソーラス辞書情報の一例を示す図である。 本発明の第1実施形態に係る読み方判断装置の処理フローの一例を示すフローチャートである。 本発明の第2実施形態に係る読み方判断装置の概略的なシステム構成を示すブロック図である。 本発明の第2実施形態に係る読み方判断装置の処理フローの一例を示すフローチャートである。 本発明の第3実施形態に係る読み方判断装置の概略的なシステム構成を示すブロック図である。 本発明の第7実施形態に係る読み方判断装置の概略的なシステム構成を示すブロック図である。 本発明の第8実施形態に係る音声合成装置の概略的なシステム構成を示すブロック図である。 本発明の第8実施形態に係る音声合成装置の処理フローの一例を示すフローチャートである。
以下、図面を参照して本発明の実施の形態について説明する。図1は、本発明の実施形態に係る読み方判断装置の機能ブロック図である。本実施形態に係る読み方判断装置10は、複数の読み方候補を有する、単語の読み方を判断するための装置である。また、読み方判断装置10は、単語集合を生成する単語集合生成手段14と、コーパス情報を記憶するコーパスデータベース15と、要素単語の特徴量を算出する特徴量算出手段16と、読み方判断情報を生成する読み方判断情報生成手段17と、を備えている。
単語集合生成手段14は、読み方候補に類似する複数の要素単語からなる単語集合を、夫々生成する。また、コーパスデータベース15は、複数の例文を含むコーパス情報を記憶する。さらに、特徴量算出手段16は、コーパスデータベース15に記憶されたコーパス情報に基づいて、単語集合生成手段14により生成された単語集合の複数の要素単語に対する特徴量を夫々算出する。読み方判断情報生成手段17は、特徴量算出手段16により算出された単語集合の複数の要素単語に対する特徴量と、読み方候補とを夫々関連付けた読み方判断情報を生成する。このように、読み方候補に類似する単語集合と、コーパス情報とを用いることで、読み方判断情報の情報量を効果的に増加させ、その精度を向上させることができる。したがって、より適切かつ高精度な読み方判断情報を取得でき、さらに、この読み方判断情報を用いて、単語の読み方を容易かつ適切に判断できる。
(第1実施形態)
図2は、本発明の第1実施形態に係る読み方判断装置の概略的なシステム構成の一例を示すブロック図である。本実施形態に係る読み方判断装置10は、同表記異発音語組生成部11と、読み方候補DB(データベース)12と、シソーラスDB(データベース)13と、単語集合生成部14と、コーパスDB(データベース)15と、文脈ベクトル生成部16と、読み方判断情報生成部17と、を備えている。
同表記異発音語組生成部11は、ユーザにより入力された入力単語に基づいて、読み方候補DB12から、その入力単語に対する複数の読み方候補(読み方候補1、読み方候補2、・・・、読み方候補M)と、夫々に対応する単語意味(語意1、語意2、・・・、語意M)と、からなる同表記異発音語組を取得する。
ここで、例えば、与えられたテキストを発声する際に用いる音韻列を「読み方」と称するものとする。また、以下、音韻列として、日本語の音節の並びを用いて説明するが、言語に依存せずに、国際音声記号(IPA)などの任意の音声記号列を用いることもできる。さらに、「読み方」には、音韻列に付随して、該当音韻列をどのように発声するかを示すアクセント情報(アクセント位置、区切り等)や、母音無声化などの読み方補助情報を含んでいても良い。
同表記異発音語組生成部11は、取得した入力単語に対する複数の読み方候補を、単語集合生成部14に対して出力する。
読み方候補DB12は、例えば、図3に示すような、単語、品詞、読み方、及び、シソーラス上のカテゴリーを、一組にして関連付けた複数のエントリを記憶している。例えば、表記異発音語組生成部11は、入力単語「黒子」に基づいて、読み方候補DB12に記憶された複数のエントリ中から該当するエントリを検索し、取得する。この場合、表記異発音語組生成部11は、読み方候補DB12から、例えば、2つ(読み方の個数M=2)のエントリ、読み方候補1=「ほくろ」(カテゴリーは、身体の染み)、及び、読み方候補2=「くろご」(カテゴリーは、歌舞伎の補助員)を取得する。
シソーラスDB13は、例えば、図4に示すような、複数の単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって、各単語を分類し、体系化したシソーラス辞書情報を記憶している。
単語集合生成部(単語集合生成手段)14は、表記異発音語組生成部11からの、複数の読み方候補に類似する複数の要素単語からなる単語集合を、シソーラスDB13のシソーラス辞書情報に基づいて、夫々生成する。ここで、上記読み方候補に類似する複数の要素単語には、例えば、シソーラス上で読み方候補のカテゴリーと同一カテゴリーに属する単語が含まれており、広い意味で同義の単語が含まれる。
単語集合生成部14は、シソーラスDB13のシソーラス辞書情報に基づいて、例えば、図4に示すシソーラス上において、読み方候補1=「ほくろ」と同一カテゴリーに属する単語を抽出し、読み方候補1=「ほくろ」に対する単語集合1を生成する。ここで、単語集合1={要素単語1−1:染み、要素単語1−2:しみ、要素単語1−3:黒子、要素単語1−4:ほくろ、要素単語1−5:ホクロ、要素単語1−6:lentigo}となり、カテゴリー={身体の染み}となり、要素単語の数N1=6となる。
同様に、単語集合生成部14は、読み方候補2=「くろご」に対する、単語集合2を生成する。ここで、単語集合2={要素単語2−1:黒子、要素単語2−2:くろこ、要素単語2−3:くろご、要素単語2−4:後見、要素単語2−5:黒具}となり、カテゴリー={歌舞伎の補助員}となり、要素単語の数N2=5となる。
なお、単語集合生成部14は、シソーラスDB13のシソーラス辞書情報を用いて、読み方候補の単語集合を生成しているが、これに限らず、例えば、同義語辞書情報などを用いてもよく、任意の辞書情報を用いることができる。また、単語集合生成部14は、非特許文献2に開示されているように、格フレームを計算することで、各単語が上記同一カテゴリーに属するかどうかを判定することもできる。さらに、読み方候補DB12には、単語意味(語意1、・・・、語意N)の代わりに、対応各フレーム(各フレーム1、・・・、各フレームN)を持つこともできる。単語集合生成部14は、生成した単語集合を、文脈ベクトル生成部16に対して出力する。
コーパスDB15は、複数の例文(テキストデータ)を含むコーパス情報を記憶している。ここで、コーパス情報の例文には、読み方が付与されてなくてもよい。
文脈ベクトル生成部16は、コーパスDB15に記憶されたコーパス情報に基づいて、単語集合生成部14により生成された単語集合の複数の要素単語に対して文脈ベクトルを夫々算出する。文脈ベクトル生成部16は、まず、単語集合生成部14により生成された単語集合の要素単語の夫々に対して、コーパスDB15のコーパス情報の中から、その要素単語が使用されている例文を抽出する。そして、文脈ベクトル生成部16は、抽出した各例文を用いて、その要素単語の文脈ベクトルを夫々算出する。ここで、文脈ベクトルは、例えば、該当単語の周辺の単語の状況等を表す特徴量として用いられている。
また、非特許文献2(岩波講座 ソフトウェア科学15 自然言語処理、pp.421−424)において説明されるベクトル空間法において、文書全体に索引語T(i)が出現する場合は1を、出現しない場合は0を、係数として持つ文書ベクトルが知られている。一方、本実施形態における文脈ベクトルも上記文書ベクトルと同様に、コーパス情報の例文に含まれる全ての自立語を軸とするベクトル空間において、該当要素単語の周辺の自立語に着目して、係数を選択してもよい。
例えば、文脈ベクトル生成部16が、コーパスDB15のコーパス情報から、その要素単語T7が使用されている例文S{T21 T32 T52 T7 T42 T64 T73 T12}を抽出したとする。そして、文脈ベクトル生成部16は、要素単語T7に対して、前後2単語(wl=2)づつ抽出した文脈ベクトルを、下記式で算出することができる。
D(T7;S)=Σ(i=1,t)a(i)*V(i)
=[0…0 V(32) 0…0 V(42) 0….0 V(52)0….0 V(64) 0….0]
なお、本実施形態において、該当要素単語の周辺の単語の状況を表現する特徴量として、文脈ベクトルに着目して説明するが、これに限らず、例えば、該当要素単語の周辺の単語のコーパス情報における出現確率の和を用いるなど、ベクトル表現以外の特徴量を用いてもよい。以降の説明では、これらベクトル表現以外の特徴量も含めて、文脈ベクトルとして説明するものとする。
また、文脈ベクトルを算出する際、各単語が同一層で複数の意味を有するような曖昧性を低減するために、シソーラス中に複数存在する同一単語のうち、どの単語に該当するかを決め、カテゴリーを割り振ることも有用である。この方法は、例えば、非特許文献2(岩波講座 ソフトウェア科学15 自然言語処理、pp.235−240)に示す格フレームを用いて同定することができる。
さらに、文脈ベクトルを算出する際、文法的知識を用いてより特徴を表す単語を抽出してもよく、各要素単語の同義語圧縮や次元圧縮などの一般的な手法により文脈ベクトルを圧縮し、文脈ベクトル空間の利用効率を向上させても良い。なお、これらの方法の使用及び不使用を問わず、文脈ベクトルの格納は、単語bigramなどの格納と比較して、所要の記憶容量が小さくて済むため、追加コストが少なく実現可能と言える。
さらにまた、該当要素単語が使用されている例文がコーパスDB15のコーパス情報中に複数存在する場合には、文脈ベクトル生成部16は、その全ての例文、あるいは予め定めた数の例文に対して、同様の処理を行い、複数の文脈ベクトルを算出する。一方で、該当要素単語が使われている例文がコーパス情報中に存在しない場合には、文脈ベクトル生成部16は、その要素単語の文脈ベクトルを算出しないこととなる。文脈ベクトル生成部16は、上述のようにして算出した、単語集合の複数の要素単語にする文脈ベクトルを、読み方判断情報生成部17に対して出力する。
読み方判断情報生成部(読み方判断情報生成手段)17は、文脈ベクトル生成部16により算出された単語集合の複数の要素単語に対する文脈ベクトルと、読み方候補とを夫々関連付けた読み方判断情報を生成する。読み方判断情報生成部17は、例えば、読み方候補毎に、対応する複数の文脈ベクトルを文脈ベクトル空間上で相加平均した、代表の平均文脈ベクトル(代表文脈ベクトル)を算出する。そして、読み方判断情報生成部17は、各読み方候補と、算出した代表の平均文脈ベクトル(相加平均値)と、を夫々関連付けた読み方判断情報を生成する。
なお、読み方判断装置10は、例えば、制御処理、演算処理等と行うCPU(Central Processing Unit)、CPUによって実行される制御プログラム、演算プログラム等が記憶されたROM(Read Only Memory)、処理データ等を一時的に記憶するRAM(Random Access Memory)等からなるマイクロコンピュータを中心にしてハードウェア構成されている。また、同表記異発音語組生成部11、単語集合生成部14、文脈ベクトル生成部16、読み方判断情報生成部17、及び、後述の読み方判断部21は、例えば、上記ROMに記憶され、上記CPUによって実行されるプログラムによって実現することができる。
図5は、本発明の第1実施形態に係る読み方判断装置の処理フローの一例を示すフローチャートである。まず、同表記異発音語組生成部11は、ユーザにより入力された入力単語に基づいて、読み方候補DB12から、その入力単語に対する複数の読み方候補を取得し(ステップS101)、取得した複数の読み方候補を単語集合生成部14に対して出力する。
次に、単語集合生成部14は、表記異発音語組生成部11からの、複数の読み方候補に類似する複数の要素単語からなる単語集合を、シソーラスDB13のシソーラス辞書情報に基づいて、夫々生成し(ステップS102)、生成した単語集合を文脈ベクトル生成部16に対して出力する。
その後、文脈ベクトル生成部16は、コーパスDB15に記憶されたコーパス情報に基づいて、単語集合生成部14により生成された単語集合の複数の要素単語に対して文脈ベクトルを夫々算出し(ステップS103)、算出した文脈ベクトルを、読み方判断情報生成部17に出力する。
さらに、読み方判断情報生成部17は、読み方候補毎に、対応する複数の文脈ベクトルを文脈ベクトル空間上で相加平均した、代表の平均文脈ベクトルを算出する(ステップS104)。そして、読み方判断情報生成部17は、各読み方候補と、算出した平均文脈ベクトルと、を夫々関連付けた読み方判断情報を生成する(ステップS105)。
以上、第1実施形態に係る読み方判断装置10によれば、複数の読み方候補に類似する要素単語からなる単語集合を夫々生成し、コーパス情報を用いて、各読み方候補に対する平均文脈ベクトルを算出し、各読み方候補と平均文脈ベクトルとを関連付けた読み方判断情報を生成する。このように、読み方候補に類似する単語集合と、コーパス情報とを用いることで、読み方判断情報の情報量を効果的に増加させ、その精度を向上させることができる。したがって、より適切かつ高精度な読み方判断情報を取得でき、さらに、この読み方判断情報を用いて、単語の読み方を容易かつ適切に判断できる。
なお、例えば、入力単語の正解の読み方を含むコーパス情報(学習コーパス)を大量に用意できたとしても、そのコーパス情報から得られる任意の同表記異発音語組に関する情報量よりも、本実施形態のように、単語集合とコーパス情報とを用いて生成した読み方判断情報の情報量の方が、より多く、高精度であることは言うまでもない。しかも、本実施形態によれば、正解の読み方が付与された学習コーパス情報を多量に用意したり、多数の同表記異発音語組に対して規則を記述する必要がなく、読み方判断情報の情報量を効率的に増加させ、読み方判断の精度を向上させることができる点でより優れている。また、本実施形態によれば、単語の類似性などの情報に基づいて、読み方を推定するため、それらの推定精度が向上することにより、読み方の精度向上も期待できる。
(第2実施形態)
図6は、本発明の第2実施形態に係る読み方判断装置の概略的なシステム構成を示すブロック図である。第2実施形態に係る読み方判断装置20は、第1実施形態に係る読み方判断装置10の構成に加えて、読み方判断情報生成部17により生成された読み方判断情報に基づいて、入力単語の読み方を判断する読み方判断部21と、その読み方の判断を出力する出力装置22と、を、更に備えている。なお、出力装置22として、例えば、ディスプレイ装置、プリンタ装置、音声出力装置などを用いることができる。また、本実施形態に係る読み方判断装置20は、例えば、オンラインで入力単語の読み方を判断できる。
第2実施形態に係る読み方判断装置20において、他の構成は、第1実施形態に係る読み方判断装置10と略同一である。したがって、同一部分に同一符号を付して、詳細な説明は省略する。
図7は、本発明の第2実施形態に係る読み方判断装置の処理フローの一例を示すフローチャートである。例えば、文脈ベクトル生成部16には、入力文章と、その入力文章中の入力単語を特定する情報が入力される(ステップS201)。
次に、文脈ベクトル生成部16は、上記第1実施形態と同様に、入力文章中の、特定された入力単語に対する文脈ベクトルを算出し(ステップS202)、読み方判断部21に対して出力する。
その後、読み方判断部21は、文脈ベクトル生成部16により算出された文脈ベクトルと、読み方判断情報生成部17により生成された読み方判断情報の平均文脈ベクトルと、に基づいて、入力文章中における入力単語の読み方を判断する(ステップS203)。
ここで、上記第1実施形態によれば、読み方判断情報は、平均文脈ベクトルと、読み候補とを夫々関連付けた複数組の情報となっている。読み方判断部21は、例えば、読み方判断情報の複数の平均文脈ベクトルのうち、入力単語の文脈ベクトルとのコサイン距離が一番小さい(類似度が高い)平均文脈ベクトルに対応する読み方候補を、その入力単語の読み方と判断する。読み方判断部21は、判断した入力単語の読み方を出力装置22に対して出力する。出力装置22は、読み方判断部21から出力された入力単語の読み方を、例えば、画面表示、プリント表示、音声等により出力する(ステップS204)。
以上、第2実施形態に係る読み方判断装置20によれば、平均文脈ベクトルにより表される各読み方候補の特徴のうち、最も類似した読み方が選択されるため、より適切な読み方を判断できる。
(第3実施形態)
図8は、本発明の第3実施形態に係る読み方判断装置の概略的なシステム構成を示すブロック図である。第3実施形態に係る読み方判断装置30は、第2実施形態に係る読み方判断装置20の構成に加えて、コーパスDB15から入力単語の例文情報を取得する例文単語取得部31と、読み方判断部21により判断された単語の読み方を記憶する読み方DB32と、を更に備えている。本実施形態に係る読み方判断装置30は、例えば、オフラインで入力単語の読み方を判断できる。
第3実施形態に係る読み方判断装置30において、他の構成は、第2実施形態に係る読み方判断装置20と略同一である。したがって、同一部分に同一符号を付して、詳細な説明は省略する。
例えば、例文単語取得部31は、入力単語を含む複数の例文をコーパスDB15から取得し、各例文中から入力単語を特定する情報を抽出し、文脈ベクトル生成部16に対して出力する。文脈ベクトル生成部16は、例文単語取得部31からの各例文の情報を用いて、各例文の入力単語に対する文脈ベクトルを夫々算出し、読み方判断部21に対して出力する。
読み方判断部21は、読み方判断情報生成部17により生成された読み方判断情報の複数の平均文脈ベクトルのうち、各例文に対する文脈ベクトルとのコサイン距離が一番小さい平均文脈ベクトルに対応する読み方候補を、その例文における入力単語の読み方と夫々判断する。そして、読み方判断部21は、判断した各例文における入力単語の読み方を、読み方DB32に夫々出力し、読み方DB32に記憶させる。さらに、読み方判断部21は、読み方DB32に記憶された複数の読み方から、統計的に最も頻度が高い読み方を一つ選択し、該当入力単語の読み方として判断し、その判断した読み方を出力装置22に対して出力する。
以上、第3実施形態に係る読み方判断装置30によれば、コーパス情報を用いて入力単語に対する複数の文脈ベクトルを生成し、夫々の読み方を判断し、読み方DB32に蓄積する。そして、読み方DB32に蓄積された複数の読み方の頻度に基づいて、統計的に、その入力単語に対する読み方を判断することができる。
(第4実施形態)
上記第1乃至3実施形態に係る読み方判断装置10、20、30において、読み方判断情報生成部17は、各読み方候補と、代表となる1つの平均文脈ベクトルと、を夫々関連付けた読み方判断情報を生成しているが、第4実施形態に係る読み方判断装置40において、読み方判断情報生成部47は、各読み方候補と、複数の文脈ベクトルと、を夫々関連付けた読み方判断情報を生成する。
この場合、読み方判断情報は、文脈ベクトル生成部16により算出された各文脈ベクトルと、それに対応する読み方候補との組を、文脈ベクトルの数だけ集めたものとなる。一方で、上記第1乃至3実施形態の読み方判断情報は、平均文脈ベクトルと、それに対応する読み方候補との組を、読み方候補の数だけ集めたものとなっている。したがって、本実施形態に係る読み方判断情報は、より情報量が大きくなりかつ高精度になる。
読み方判断情報生成部47は、上述のように、文脈ベクトル生成部16により生成された全文脈ベクトルと、各文脈ベクトルに対応する読み方候補とを夫々組にした読み方判断情報を、読み方判断部21に対して出力する。
第4実施形態に係る読み方判断装置40において、他の構成は、第1乃至第3実施形態に係る読み方判断装置10、20、30と略同一である。したがって、同一部分には同一符号を付して詳細な説明は省略する。
なお、本実施形態において、上記第2実施形態と同様に、読み方判断部21は、入力文章及び入力単語から得られた文脈ベクトルと、読み方判断情報の全文脈ベクトルとの、コサイン距離等の類似度を夫々算出してもよい。そして、読み方判断部21は、読み方判断情報の全文脈ベクトルのうち、最も類似度が高い文脈ベクトルに対応する読み方候補を、その入力単語の読み方と判断する。
また、本実施形態において、上記第3実施形態と同様に、読み方判断部21は、コーパスDB15の各例文から得られた文脈ベクトルと、読み方判断情報の全文脈ベクトルとの類似度を算出してもよい。そして、読み方判断部21は、読み方判断情報の全文脈ベクトルのうち、各例文の文脈ベクトルとの類似度が最も高い文脈ベクトルに対応する読み方候補を、その例文における入力単語の読み方と判断し、読み方DB32に対して出力する。
以上、第4実施形態に係る読み方判断装置40によれば、上記第1乃至第3実施形態のように、単一の代表文脈ベクトルを求め、各読み方間において十分な分離が困難となる場合でも、各要素単語の文脈ベクトルの類似性を用いて、適切な読み方判断が可能となる。(第5実施形態)
上記第1実施形態に係る読み方判断装置10において、単語集合生成部14は、複数の読み方候補に類似する複数の要素単語からなる単語集合として、シソーラス上で同一カテゴリーに属する要素単語を含む単語集合を生成しているが、第5実施形態に係る読み方判断装置50において、単語集合生成部54は、シソーラス上で同一階層の近接したカテゴリーに属する要素単語も含む単語集合を生成する。これにより、より広い類義語を含む単語集合を生成することで、読み方判断情報の情報量を効果的に増加させ、その精度を向上させることができる。
第5実施形態に係る読み方判断装置50において、他の構成は、第1実施形態に係る読み方判断装置10と略同一である。したがって、同一部分には同一符号を付して詳細な説明は省略する。
なお、単語集合生成部54は、近接したカテゴリーの選択方法を変更することにより、類似度を制御してもよい。例えば、上記第1実施形態と同様に、同表記異発音語組生成部11は、入力単語「黒子」に対して、読み方候補DB12から、例えば、2つのエントリ、読み方候補1=「ほくろ」(カテゴリーは身体の染み)、及び、読み方候補2=「くろご」(カテゴリーは歌舞伎の補助員)を取得する。そして、単語集合生成部54は、各読み方候補1、2に対応して、その読み方候補と類似関係にある、複数の要素単語から構成される単語集合を生成する。
ここで、上記類似関係の要素単語には、上述の如く、シソーラス上で同一カテゴリーに属する要素単語に加えて、シソーラス上で同一階層の近接したカテゴリーに属する要素単語も含まれる。また、上記近接したカテゴリーとは、例えば、シソーラス上で定義されたカテゴリー間の関係の度合を用いて、最も近い1つのカテゴリーを指す。なお、図4において、読み方候補1=「ほくろ」を含むカテゴリーに対して、上位方向に1階層、及び下位方向に1階層を示している。
単語集合生成部54は、例えば、図4に示すシソーラス上において、読み方候補1「ほくろ」の属するカテゴリーと同一カテゴリー及び近接したカテゴリーに属する要素単語を、夫々抽出する。そして、単語集合生成部54は、「身体の染み」カテゴリーと同一階層にある「身体の表面様態」カテゴリー、および、「身体の色」カテゴリーから、予めシソーラスに定義されたカテゴリー間の類似性に従って、「身体の表面様態」カテゴリーを選択する。さらに、単語集合生成部54は、これら「身体の染み」カテゴリーおよび「身体の表面様態」カテゴリーに属する要素単語を抽出し、単語集合1を生成する。
なお、単語集合1={要素単語1−1:染み、要素単語1−2:しみ、要素単語1−3:黒子、要素単語1−4:ほくろ、要素単語1−5:ホクロ、要素単語1−6:lentigo、要素単語1−7:にきび、要素単語1−8:吹出物、要素単語1−9:毛孔}となり、カテゴリー={身体の染み}となり、要素単語の数N1=9となる。
以上、第5実施形態に係る読み方判断装置50によれば、シソーラス上で同一カテゴリーに属する要素単語に加えて、シソーラス上で同一階層の近接したカテゴリーに属する要素単語も含む単語集合を生成することで、より広い類義語を含む単語集合を生成することができる。
(第6実施形態)
上記第1実施形態に係る読み方判断装置10において、単語集合生成部14は、複数の読み方候補に類似する複数の要素単語からなる単語集合として、シソーラス上で同一カテゴリーに属する要素単語を含む単語集合を生成しているが、第6実施形態に係る読み方判断装置60において、単語集合生成部64は、シソーラス上で上位階層及び/又は下位階層のカテゴリーに属する要素単語も含む単語集合を生成してもよい。これにより、概念の上位下位関係を対象とした、より広い類義語を含む単語集合を生成することで、読み方判断情報の情報量を効果的に増加させ、その精度を向上させることができる。
第6実施形態に係る読み方判断装置60において、他の構成は、第1実施形態に係る読み方判断装置10と略同一である。したがって、同一部分には同一符号を付して詳細な説明は省略する。
なお、単語集合生成部64は、シソーラス上において、何階層の上位階層及び/又は下位階層までを対象範囲にするかによって、類似度を制御することができる。
例えば、上記第1実施形態と同様に、同表記異発音語組生成部11は、入力単語「黒子」に対して、読み方候補DB12から、例えば、2つのエントリ、読み方候補1=「ほくろ」(カテゴリーは身体の染み)、及び、読み方候補2=「くろご」(カテゴリーは歌舞伎の補助員)を取得する。そして、単語集合生成部64は、各読み方候補1、2に対応して、その読み方候補1、2と類似関係にある、複数の要素単語から構成される単語集合を生成する。
ここで、上記類似関係の要素単語には、上述の如く、シソーラス上で同一カテゴリーに属する要素単語に加えて、シソーラス上で、予め設定した階層数の上位階層及び/又は下位階層のカテゴリーに属する要素単語も含まれる。
単語集合生成部64は、例えば、図4に示すシソーラス上において、読み方候補1「ほくろ」の属するカテゴリーと同一カテゴリーの要素単語、及び予め設定した階層数の上位階層及び下位階層のカテゴリーに属する要素単語を、夫々抽出する。
ここで、「身体の染み」カテゴリーの上位1階層に存在するのは、「身体の表面」カテゴリー1つであり、同じく下位1階層に存在するのは、「身体の染みの色」カテゴリーおよび「身体の染みの形状」カテゴリーの2つである。そこで、単語集合生成部64は、これら上位1階層および下位1階層のカテゴリーに属する要素単語を抽出し、単語集合1を生成する。
なお、単語集合1={要素単語1−1:染み、要素単語1−2:しみ、要素単語1−3:黒子、要素単語1−4:ほくろ、要素単語1−5:ホクロ、要素単語1−6:lentigo、要素単語1−7:色、要素単語1−8:染み、要素単語1−9:皺、要素単語1−10:赤、要素単語1−11:黒、要素単語1−12:灰色、要素単語1−13:丸、要素単語1−14:点、要素単語1−15:三角}となり、カテゴリー={身体の染み}となり、要素単語の数N1=15となる。
以上、第6実施形態に係る読み方判断装置60によれば、シソーラス上で同一カテゴリーに属する要素単語に加えて、シソーラス上で、予め設定した階層数の上位階層及び/又は下位階層のカテゴリーに属する要素単語も含む単語集合を生成することで、より広い類義語を含む単語集合を生成することができる。
(第7実施形態)
図9は、本発明の第7実施形態に係る読み方判断装置の概略的なシステム構成を示すブロック図である。本発明の第7実施形態に係る読み方判断装置70は、第1実施形態に係る読み方判断装置10の構成に加えて、重複する要素単語を検出し、削除する要素単語削除部71と、重複する文脈ベクトルを検出し、削除する文脈ベクトル削除部72と、を更に備えている。
要素単語削除部71は、単語集合生成部14により生成された複数の読み方候補1〜Mに対する単語集合間で、重複する要素単語を検出する。ここで、上記重複する要素単語とは、例えば、少なくとも一組の要素単語が重複する場合を指す。そして、要素単語削除部71は、重複する要素単語の一方を単語集合の中から削除し、削除した単語集合を文脈ベクトル生成部16に出力する。一方、要素単語削除部71は、重複した要素単語を含まない単語集合を、そのまま、文脈ベクトル生成部16に出力する。
ここで、重複する要素単語は、対応する文脈ベクトルも同一となる。このため、複数の読み方候補の単語集合間において重複する要素単語が存在すると、その要素単語に基づいて生成される読み方判断情報の重複度も大きくなる。したがって、予め重複する要素単語を除去することによって、読み方判断情報における分離度を高くし、読み方判断情報の精度を高めることができる。
文脈ベクトル削除部72は、文脈ベクトル生成部16により生成される複数の単語集合1〜Mの要素単語に夫々対応する文脈ベクトルの中から、各単語集合1〜M間で同一となる文脈ベクトルを検出し、その一方の文脈ベクトルを削除し、読み方判断情報生成部17に出力する。なお、上記同一となる文脈ベクトルとは、例えば、少なくとも一組の文脈ベクトルが同一となる場合を指す。
ここで、複数の単語集合1〜M間において、重複する文脈ベクトルが存在すると、文脈ベクトルに基づいて生成される読み方判断情報の重複度も大きくなる。したがって、予め重複する文脈ベクトルを除去することによって、読み方判断情報における分離度を高くし、読み方判断情報の精度を高めることができる。
なお、文脈ベクトル削除部72は、文脈ベクトル生成部16により生成された複数の単語集合1〜Mの要素単語の夫々に対する文脈ベクトルの中から、予め定められた距離よりも近接し、相互に類似した文脈ベクトルを検出し、その一方の文脈ベクトルを削除してもよい。
例えば、文脈ベクトル削除部72は、文脈ベクトル空間上でのコサイン距離が、予め定めた閾値εよりも小さいとき、予め定められた距離よりも近接していると判断する。文脈ベクトル削除部72は、検出された相互に近接する文脈ベクトルの組のうち一方を削除し、読み方判断情報生成部17に出力する。
ここで、複数の単語集合1〜M間において、近接する文脈ベクトルが存在すると、文脈ベクトルに基づいて生成される読み方判断情報の重複度も大きくなる。したがって、予め近接する文脈ベクトルを除去することによって、読み方判断情報における分離度を高くし、読み方判断情報の精度を高めることができる。
また、文脈ベクトル削除部72は、文脈ベクトル生成部16により生成された文脈ベクトルに対して、特徴性を強調するための重み係数を乗算してもよい。文脈ベクトル検出部72は、重み係数を乗算した文脈ベクトルを用いて、上述の近接する文脈ベクトルを検出し、検出した文脈ベクトルを削除してもよい。
例えば、文脈ベクトルD=Σ(i=1、t)a(i)*V(i)について、各要素単語V(i)の重要度をb(i)とする。ここで、重要度b(i)は、例えば、該当単語がコーパス情報中に出現する際に特徴的であるか否かを示す尺度tf−idfの値を用いてもよい。なお、このtf−idfの値は、tf(単語の出現頻度)とidf(逆出現頻度)との二つの指標から算出される値である。この各単語V(i)の重要度b(i)に応じて、重み係数を設定する。これにより、2つの文脈ベクトルの類似度を求める際に、文脈ベクトルDに重み係数を乗算することにより、特徴性の高い単語に関する差異は強調され、特徴性の低い単語に関する差異は縮小される。したがって、コーパス情報の特徴をより反映した類似度計算を行うことができる。
(第8実施形態)
図10は、本発明の第8実施形態に係る音声合成装置の概略的なシステム構成を示すブロック図である。第5実施形態に係る音声合成装置80は、入力文章の形態素解析を行う形態素解析部81と、第2実施形態に係る読み方判断装置20と、合成音声を生成する音声生成部82と、を備えている。
形態素解析部81は、入力文章に対して形態素解析を行うことで、入力文章を形態素に分割し、複数の形態素のうち自立語を抽出し、読み方判断装置20に出力する。音声生成部82は、読み方判断装置20から出力された入力文章の読み方の情報に基づいて、例えば、波形接続型音声合成方式などを用いて、入力文章に対する合成音声の波形を生成する。なお、上記音声合成で用いる読み方の情報には、例えば、単に音韻列だけでなく、アクセント位置の情報を含むものとする。これにより、例えば名詞「谷」という単語を、人名としての用法では頭高型に、山の反対を表す用法では平板型に発話し分けることも可能となる。
図11は、本発明の第8実施形態に係る音声合成装置の処理フローの一例を示すフローチャートである。形態素解析部81に入力文章が入力されると(ステップS301)、形態素解析部81は、その入力文章に対して形態素解析を行って(ステップS302)、入力文章を複数の形態素に分割し、自立語を抽出する。そして、形態素解析部81は、入力文章と共に、抽出した自立語を入力単語として、読み方判断装置20に出力する。次に、読み方判断装置20は、形態素解析部81からの入力文章及び入力単語に基づいて、上述の読み方判断処理を行い(ステップS303)、全ての自立語について、読み方を確定し(ステップS304)、入力文章の読み方の情報を生成する(ステップS305)。読み方判断装置20は、生成した入力文章の読み方の情報を、音声生成部82に対して出力する。音声生成部82は、読み方判断装置20からの入力文章の読み方の情報に基づいて、合成音声波形を生成し(ステップS306)、生成した合成音声波形の音声を出力する(ステップS307)。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。また、上述の実施の形態では、本発明をハードウェアの構成として説明したが、本発明は、これに限定されるものではない。本発明は、任意の処理を、CPUにコンピュータプログラムを実行させることにより実現することも可能である。)
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
本発明は、例えば、単語や文章などに対する適切な読み方を判断する読み方判断装置に適用可能である。
この出願は、2009年3月31日に出願された日本出願特願2009−084920を基礎とする優先権を主張し、その開示の全てをここに取り込む。
10 読み方判断装置
11 同表記異発音語組生成部
12 読み方DB
13 シソーラスDB
14 単語集合生成部
15 コーパスDB
16 文脈ベクトル生成部
17 読み方判断情報生成部
21 読み方判断部
22 出力装置
31 例文単語取得部
32 読み方DB
71 要素単語削除出部
72 文脈ベクトル削除部
80 音声合成装置

Claims (17)

  1. 複数の読み方候補を有する、単語の読み方を判断するための読み方判断装置であって、
    前記読み方候補に類似する複数の要素単語からなる単語集合を、夫々生成する単語集合生成手段と、
    複数の例文を含むコーパス情報を記憶するコーパスデータベースと、
    前記コーパスデータベースに記憶された前記コーパス情報に基づいて、前記単語集合生成手段により生成された前記単語集合の複数の要素単語に対する特徴量を夫々算出する特徴量算出手段と、
    前記特徴量算出手段により算出された前記単語集合の複数の要素単語に対する特徴量と、前記読み方候補とを夫々関連付けた読み方判断情報を生成する読み方判断情報生成手段と、を備え、
    前記特徴量算出手段は、前記コーパスデータベースに記憶された前記コーパス情報に基づいて、前記単語集合生成手段により生成された前記単語集合の複数の要素単語に対する文脈ベクトルを、前記特徴量として夫々算出する文脈ベクトル生成部を有し、
    前記読み方判断情報生成手段は、前記文脈ベクトル生成部により算出された前記単語集合の複数の要素単語に対する文脈ベクトルの平均値を、代表となる文脈ベクトルとして算出し、該代表の文脈ベクトルと、前記読み方候補とを夫々関連付けた読み方判断情報を生成
    前記単語集合の要素単語は、シソーラス上において、前記読み方候補の属するカテゴリーに対して上位及び下位関係にあるカテゴリーに属する単語、及び、シソーラス上において同一階層の近接したカテゴリーに属する単語、のうち少なくとも一方を含む、ことを特徴とする読み方判断装置。
  2. 請求項1記載の読み方判断装置であって、
    前記単語集合の要素単語は、前記読み方候補の同義語を含む、ことを特徴とする読み方判断装置。
  3. 請求項1又は2記載の読み方判断装置であって、
    前記読み方候補間の分離度を高める処理を行う分離処理手段を更に備える、ことを特徴とする読み方判断装置。
  4. 請求項記載の読み方判断装置であって、
    前記分離処理手段は、前記単語集合間の要素単語の中から、重複する前記要素単語を検出し、その一方を削除する単語削除部を有する、ことを特徴とする読み方判断装置。
  5. 請求項3又は4記載の読み方判断装置であって、
    前記分離処理手段は、前記単語集合間の要素単語に対応する文脈ベクトルの中から、同一となる文脈ベクトルを検出し、その一方を削除する文脈ベクトル削除部を有する、ことを特徴とする読み方判断装置。
  6. 請求項3乃至5のうちいずれか1項記載の読み方判断装置であって、
    前記分離処理手段は、前記単語集合間の要素単語に対応する文脈ベクトルの中から、相互に類似する文脈ベクトルを検出し、その一方を削除する文脈ベクトル削除部を有する、ことを特徴とする読み方判断装置。
  7. 請求項記載の読み方判断装置であって、
    前記文脈ベクトル削除部は、前記要素単語の重要度に応じた重み係数を夫々設定し、該重み係数を乗じた前記文脈ベクトルに基づいて、前記相互に類似する文脈ベクトルを検出する、ことを特徴とする読み方判断装置。
  8. 請求項1乃至のうちいずれか1項記載の読み方判断装置であって、
    前記読み方判断情報生成手段により生成された前記読み方判断情報に基づいて、単語の読み方を判断する読み方判断手段を更に備える、ことを特徴とする読み方判断装置。
  9. 請求項記載の読み方判断装置であって、
    読み方判断手段は、前記読み方判断情報の複数の代表の文脈ベクトルのうち、入力単語の文脈ベクトルとの類似度が高い前記代表の文脈ベクトルに対応する読み方候補を、その入力単語の読み方と判断する、ことを特徴とする読み方判断装置。
  10. 請求項記載の読み方判断装置であって、
    前記単語を含む複数の例文情報をコーパスデータベースから取得する例文単語取得手段を更に備え、
    文脈ベクトル生成手段は、前記例文単語取得手段により取得された各例文情報に基づいて、文脈ベクトルを夫々生成し、
    前記読み方判断手段は、前記文脈ベクトルに対応した例文情報における前記単語の読み方を夫々判断し、該判断された複数の読み方のうち、最も頻度の高い読み方を、前記単語の読み方として、決定する、ことを特徴とする読み方判断装置。
  11. 請求項1乃至10のうちいずれか1項記載の読み方判断装置であって、
    シソーラス辞書情報を記憶するシソーラスデータベースを更に備え、
    前記単語集合生成手段は、前記読み方候補に類似する複数の要素単語からなる単語集合を、前記シソーラスデータベースのシソーラス辞書情報に基づいて、生成する、ことを特徴とする読み方判断装置。
  12. 請求項1乃至11のうちいずれか1項記載の読み方判断装置を備え、
    該読み方判断装置により判断された前記単語の読み方に基づいて、音声を合成する、ことを特徴とする音声合成装置。
  13. 請求項12記載の音声合成装置であって、
    入力文章に対して形態素解析を行い、前記入力文章を形態素に分割する形態素解析手段と、
    前記形態素解析手段により分割された前記形態素の読み方を判断する前記読み方判断装置と、
    前記読み方判断装置により判断された前記入力文章の読み方に基づいて、音声を合成する音声生成部と、を備える、ことを特徴とする音声合成装置。
  14. 複数の読み方候補を有する、単語の読み方を判断するための方法であって、
    前記読み方候補に類似する複数の要素単語からなる単語集合を、単語集合生成手段により夫々生成し、
    コーパスデータベースに記憶された複数の例文を含むコーパス情報に基づいて、前記生成した単語集合の複数の要素単語に対する文脈ベクトルを特徴量として特徴量算出手段により夫々算出し、
    前記算出した単語集合の複数の要素単語に対する文脈ベクトルの平均値を、代表となる文脈ベクトルとして算出し、該代表の文脈ベクトルと、前記読み方候補とを夫々関連付けた読み方判断情報を読み方判断情報生成手段により生成し、
    前記単語集合の要素単語は、シソーラス上において、前記読み方候補の属するカテゴリーに対して上位及び下位関係にあるカテゴリーに属する単語、及び、シソーラス上において同一階層の近接したカテゴリーに属する単語、のうち少なくとも一方を含む、ことを特徴とする方法。
  15. 請求項14記載の方法であって、
    前記読み方候補間の分離度を高める処理を分離処理手段により更に行う、ことを特徴とする読み方判断方法。
  16. 請求項14又は15記載の方法であって、
    前記生成した前記読み方判断情報に基づいて、単語の読み方を読み方判断手段により更に判断する、ことを特徴とする方法。
  17. 複数の読み方候補を有する、単語の読み方を判断するためのプログラムであって、
    前記読み方候補に類似する複数の要素単語からなる単語集合を、夫々生成する処理と、
    複数の例文を含むコーパス情報に基づいて、前記生成された前記単語集合の複数の要素単語に対する文脈ベクトルを、特徴量として夫々算出する処理と、
    前記算出した前記単語集合の複数の要素単語に対する文脈ベクトルの平均値を、代表となる文脈ベクトルとして算出し、該代表の文脈ベクトルと、前記読み方候補とを夫々関連付けた読み方判断情報を生成する処理と、をコンピュータに実行させ
    前記単語集合の要素単語は、シソーラス上において、前記読み方候補の属するカテゴリーに対して上位及び下位関係にあるカテゴリーに属する単語、及び、シソーラス上において同一階層の近接したカテゴリーに属する単語、のうち少なくとも一方を含む、プログラム。
JP2011506983A 2009-03-31 2010-03-11 読み方判断装置、方法、プログラム、及び音声合成装置 Active JP5533853B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011506983A JP5533853B2 (ja) 2009-03-31 2010-03-11 読み方判断装置、方法、プログラム、及び音声合成装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009084920 2009-03-31
JP2009084920 2009-03-31
PCT/JP2010/001753 WO2010113396A1 (ja) 2009-03-31 2010-03-11 読み方判断装置、方法、プログラム、及びそのコンピュータ可読媒体、並びに音声合成装置
JP2011506983A JP5533853B2 (ja) 2009-03-31 2010-03-11 読み方判断装置、方法、プログラム、及び音声合成装置

Publications (2)

Publication Number Publication Date
JPWO2010113396A1 JPWO2010113396A1 (ja) 2012-10-04
JP5533853B2 true JP5533853B2 (ja) 2014-06-25

Family

ID=42827715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011506983A Active JP5533853B2 (ja) 2009-03-31 2010-03-11 読み方判断装置、方法、プログラム、及び音声合成装置

Country Status (2)

Country Link
JP (1) JP5533853B2 (ja)
WO (1) WO2010113396A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6881077B2 (ja) * 2017-06-22 2021-06-02 富士通株式会社 判別プログラム、判別装置及び判別方法
JP7115187B2 (ja) * 2018-09-27 2022-08-09 大日本印刷株式会社 情報処理装置、情報処理方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07114572A (ja) * 1993-10-18 1995-05-02 Sharp Corp 文書分類装置
JP2007323475A (ja) * 2006-06-02 2007-12-13 Advanced Telecommunication Research Institute International 自然言語における多義解消装置及びコンピュータプログラム
JP2008134750A (ja) * 2006-11-28 2008-06-12 Nippon Telegr & Teleph Corp <Ntt> データ分類装置、データ分類方法およびデータ分類プログラムならびに記録媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06119144A (ja) * 1992-10-02 1994-04-28 Toshiba Corp 文書読み上げ装置
JP3371761B2 (ja) * 1997-06-19 2003-01-27 富士通株式会社 氏名読み音声合成装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07114572A (ja) * 1993-10-18 1995-05-02 Sharp Corp 文書分類装置
JP2007323475A (ja) * 2006-06-02 2007-12-13 Advanced Telecommunication Research Institute International 自然言語における多義解消装置及びコンピュータプログラム
JP2008134750A (ja) * 2006-11-28 2008-06-12 Nippon Telegr & Teleph Corp <Ntt> データ分類装置、データ分類方法およびデータ分類プログラムならびに記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6013044811; 梅村祥之,清水司: '豊田中央研究所R&Dレビュー Vol.35 No.1 音声合成システムのための同形異音語の読み分け' [online] [検索日2013.8.30]、インターネット, 200003, p.67-p.74, 株式会社豊田中央研究所 *

Also Published As

Publication number Publication date
JPWO2010113396A1 (ja) 2012-10-04
WO2010113396A1 (ja) 2010-10-07

Similar Documents

Publication Publication Date Title
Hirst et al. Levels of representation and levels of analysis for the description of intonation systems
TWI539441B (zh) 語音辨識方法及電子裝置
Qian et al. Automatic prosody prediction and detection with conditional random field (crf) models
US8942983B2 (en) Method of speech synthesis
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
KR101735195B1 (ko) 운율 정보 기반의 자소열 음소열 변환 방법과 시스템 그리고 기록 매체
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
JP2009223463A (ja) 同義性判定装置、その方法、プログラム及び記録媒体
Gelas et al. Quality assessment of crowdsourcing transcriptions for African languages
Wu et al. Automatic generation of synthesis units and prosodic information for Chinese concatenative synthesis
Suzuki et al. Accent sandhi estimation of Tokyo dialect of Japanese using conditional random fields
Cucu et al. SMT-based ASR domain adaptation methods for under-resourced languages: Application to Romanian
Bellegarda Unsupervised, language-independent grapheme-to-phoneme conversion by latent analogy
KR20080045413A (ko) 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템
Zhang et al. A study on functional loads of phonetic contrasts under context based on mutual information of Chinese text and phonemes
JP5533853B2 (ja) 読み方判断装置、方法、プログラム、及び音声合成装置
Wutiwiwatchai et al. Thai text-to-speech synthesis: a review
Wang et al. RNN-based prosodic modeling for mandarin speech and its application to speech-to-text conversion
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
JP2010277036A (ja) 音声データ検索装置
JP2006018354A (ja) テキスト分割装置及び自然言語処理装置
Anto et al. Text to speech synthesis system for English to Malayalam translation
JPH0962286A (ja) 音声合成装置および音声合成方法
CN112786002B (zh) 一种语音合成方法、装置、设备及存储介质
JP6003127B2 (ja) 言語モデル作成プログラム及び言語モデル作成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140401

R150 Certificate of patent or registration of utility model

Ref document number: 5533853

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140414