JP2006194952A - 音声合成用の文章解析辞書の登録方法およびこれを用いた音声読み上げ装置 - Google Patents

音声合成用の文章解析辞書の登録方法およびこれを用いた音声読み上げ装置 Download PDF

Info

Publication number
JP2006194952A
JP2006194952A JP2005003712A JP2005003712A JP2006194952A JP 2006194952 A JP2006194952 A JP 2006194952A JP 2005003712 A JP2005003712 A JP 2005003712A JP 2005003712 A JP2005003712 A JP 2005003712A JP 2006194952 A JP2006194952 A JP 2006194952A
Authority
JP
Japan
Prior art keywords
reading
word
character string
character
kana
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005003712A
Other languages
English (en)
Inventor
Shinpei Sato
真平 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2005003712A priority Critical patent/JP2006194952A/ja
Publication of JP2006194952A publication Critical patent/JP2006194952A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 本発明は、未登録単語を文章解析辞書に自動的に登録する文章解析辞書の登録方法およびこれを用いた音声読み上げ装置を提供することを目的とする。
【解決手段】 文章解析辞書13を用いて文章解析部12において文字情報を音声合成用の読み上げ情報に変換する音声読み上げ装置7において、文章解析部は取得された文字情報から文章解析辞書に未登録の語を抽出する。登録処理部21は、文字情報から第1の連続文字と、それに続く開括弧と、第2の連続文字と、閉じ括弧とから構成された文字列であり、第1または第2の連続文字の一方が未登録の語に対応する漢字文字列、他方が仮名文字列であるものを検索し、漢字文字列を登録対象語、仮名文字列を読み仮名として抽出する。登録処理部は、抽出した登録対象語の読み仮名を読み上げ語に変換し、抽出した登録対象語とその読み上げ語を文章解析辞書に登録する。
【選択図】 図1

Description

本発明は、文字情報にもとづいて音声合成用の読み上げ情報を生成する際に用いる文章解析辞書に未登録の語を登録する方法、およびこれを用いた文字情報を音声合成用の読み上げ情報に変換する音声読み上げ装置に関する。
文字情報、すなわちテキストなどの表記情報を入力してそれを音声合成用の読み上げ情報に変換して出力する音声読み上げ装置は、たとえば情報センタによる車両への情報提供サービスなどに利用される。
情報提供サービスでは、情報センタがインターネットのウエブサイトや新聞、その他種々の機関から情報を収集して提供情報データベースを構築している。
情報センタに提供される情報が文字情報の場合は、情報センタは音声読み上げ装置により文字情報を読み上げ情報に変換する。読み上げ情報は情報のソースである文字情報とともに提供情報データベースに蓄積しておく。
ユーザが通信回線を通じて所定の情報を情報センタへ要求すると、情報センタは要求された情報に対応する文字情報と、読み上げ情報を提供情報データベースから抽出する。そして抽出した読み上げ情報を音声合成装置で音声データに変換し、音声データと、抽出した文字情報をユーザに送信する。
ユーザ側では受信した文字情報をディスプレイに表示するほか、受信した音声データを音声としてもスピーカから出力する。
なお、音声読み上げ装置では、文字情報を解析し、文字情報中の各単語の発音を決定するため、単語の読み、アクセント、読み上げの間(ま)、文法その他の辞書情報が格納されている文章解析辞書を備えている。
この文章解析辞書への新たな単語の登録を人手で行うのは非常に効率が悪いので、例えば特許文献1には、国語辞書に記載されている単語の文字情報と読み上げ情報とを自動的に登録するようにした自動登録装置が開示されている。
特開2001−13981号公報
しかし、ウエブサイトや新聞に現れる表記情報には、世の中にあふれる俗語や日々現れては消えるような新語も含まれており、これらについては国語辞書には掲載がないため、上記従来の装置では正確な読み方を文章解析辞書に自動的に登録することが困難であった。文章の読み間違いは情報を誤った形で伝えてしまう可能性が高い。
したがって、本発明は、上記従来の問題点に鑑み、新語や俗語のような国語辞書に収録されていないような単語の文字情報についても、人手に頼ることなく、高い精度でその読み上げ情報を文章解析辞書に登録することができる音声合成用の文章解析辞書の登録方法およびこれを用いた音声読み上げ装置を提供することを目的とする。
このため、本発明は、文字情報を音声合成用の読み上げ情報に変換するための文章解析辞書の登録方法であって、文字情報を取得する文字情報取得過程と、文字情報の中から登録対象語とその読み仮名の所定の組み合わせの文字列を抽出する登録対象語抽出過程と、抽出された読み仮名を読み上げ語に変換する読み仮名読み上げ過程と、登録対象語とその読み上げ語とを、文章解析辞書に登録する登録過程とを有するものとした。
本発明により、例えばインターネットなどの最新の文字情報から音声合成用の読み上げ情報に変換する際に、文章解析辞書に未登録の単語を検出した場合、登録対象語とその読み仮名の所定の組み合わせの文字列を抽出し、抽出した読み仮名を読み上げ語に変換して未登録の単語に対する読み上げ語として文章解析辞書に登録するので、人手が掛からず低コストに情報センタを運用できる。
以下本発明の実施の形態を説明する。
図1は本発明を適用した情報センタのブロック構成図である。
情報センタ1は、主要部として、音声読み上げ装置7、提供情報データベース15、情報提供制御部16、音声合成装置17、通信装置18を備えている。
音声読み上げ装置7は、文字情報を取り込み、音声合成用の中間言語である読み上げ情報に変換し、文字情報とともに提供情報データベース15に格納させる。
情報センタ1は、車両3から通信装置18を介してユーザからの情報の要求を受けると、情報提供制御部16において、提供情報データベース15から要求された情報を検索して、対応する文字情報と読み上げ情報を抽出する。抽出された読み上げ情報は、音声合成装置17において、音声素片データを用いて音声データに変換される。そして、読み上げ情報から変換された音声データと、抽出された文字情報は、通信装置18から車両3へ送信される。
次に音声読み上げ装置7の詳細な構成を説明する。
音声読み上げ装置7は、テキスト入力部11、文章解析部12、文章解析辞書13、登録処理部21、登録対象語データベース23を有している。
テキスト入力部11は、インターネット5に接続されてウエブサイトなどから文字情報、例えばニューステキストその他をジャンル別にダウンロード可能となっている。また、別途作成したテキストファイルも取得できる。
文章解析辞書13は、文章解析部12が文字情報を解析し、文字情報中の各単語の発音を決定するための漢字、送り仮名付き漢字、仮名、数字などの各種の単語の読み上げ語、アクセント、読み上げの間(ま)、文法その他の辞書情報を格納している。
なお、読み上げ語は、後述の中間言語で表現された読み上げ情報の形である。
文章解析部12は、テキスト入力部11が取り込んだ文字情報を、文章解析辞書13を参照して、読み上げ情報に変換する。
つまり、文章解析部12は、文字情報である漢字仮名混じり文の情報を、文法に従い規則整形処理を施して、単語やその他の要素に分割し、通常読みの対象とならない、例えばスペース、括弧、句読点などの記号を削除し、文章解析辞書13を参照して、アクセント、読み上げの間などを制御する記号とカタカナとの混じった中間言語で表された読み上げ情報に変換する。
文章解析辞書13は、登録処理部21と接続している。
登録処理部21は、文章解析部12において文字情報から読み上げ情報に変換しているときに、文章解析辞書13に未登録または新規登録のアルファベット文字列や漢字文字列(以下、未登録または新規登録のアルファベット文字列や漢字文字列を、未登録または新規登録の「登録対象語」と称する)を検出した場合、文章解析部12からの指令を受け、文章解析部12が変換中の一連の文字情報、またはインターネット5に接続された別のウエブサイトなどの文字情報を検索して、登録対象語に対する読み仮名を検索する。そして、検索された読み仮名を読み上げ語に変換する。
登録処理部21は、文章解析辞書13に未登録の登録対象語を検索した場合は、検索した登録対象語をその読み上げ語とともに文章解析辞書13に登録するとともに、新規登録のフラグを立てる。
さらに、登録処理部21は、登録対象語データベース23にスコア表を生成させて、登録対象語の読み仮名と、その読み仮名に対応する読み上げ語の出現頻度を示すスコアを記録させる。
登録処理部21は、検索した登録対象語が、文章解析辞書13に登録済みではあるが新規登録のフラグが立っている場合は、登録対象語データベース23のスコア表において、今回取得した登録対象語の読み仮名のスコアを加算し、さらにその読み仮名に対応する読み上げ語のスコアを加算の上記録させる。
その後、検索した登録対象語に対して文章解析辞書13に現在登録されている読み上げ語よりスコアの多い読み上げ語があればその読み上げ語をより信頼の高い読み上げ語として文章解析辞書13に登録し直す。
図2から図5は、上記構成における音声読み上げ装置における文章解析辞書への単語登録の制御の流れを示すフローチャートである。
ここでは、未登録または新規登録の登録対象語が漢字文字列の場合を例に説明する。
ステップ101では、テキスト入力部11は、インターネット5のウエブサイトなどに接続して最新のニューステキストなど漢字仮名混じり文の文字情報を取り込む。
ここで、取り込まれた文字情報が図6の(a)に示すように、『映画「スキャンダル」の裴容浚(ペ・ヨンジュン)が、映画公開に先立ち来日し、会見を行った。』であるものとする。そして、人名漢字「裴容浚」の漢字文字列とその読み上げ語が文章解析辞書13に未登録であったとする。
なお、文字情報の取り込みは、社会、政治、経済、スポーツ、芸能などのジャンル別に行うことができる。
ステップ102では、文章解析部12は、取り込んだ文字情報を、文章解析辞書13を用いて読み上げ情報に変換する。
ステップ103では、文章解析部12は、文章解析辞書13に未登録または新規登録の登録対象語を検出したかどうかをチェックする。
新規登録の登録対象語であることは、文字情報中のある漢字文字列を読み上げ情報に変換するため文章解析辞書13を参照したとき、その漢字文字列に対応する登録対象語には新規登録のフラグが立っているので判定できる。
未登録または新規登録の登録対象語を検出した場合はステップ104へ進み、検出しなかった場合はステップ120へ進む。
ステップ104では、文章解析部12は、文字情報の読み上げ情報への変換を中止する。
ステップ105では、文章解析部12は、登録対象語の読み仮名検索の指令を登録処理部21に出す。
以下、ステップ106〜118は登録処理部21で処理される。
ステップ106では、登録処理部21は、読み上げ情報への変換を中止した文字情報の中で、第1の連続文字、開括弧、第2の連続文字、閉じ括弧の文字列の構成であり、第1と第2の連続文字の一方は登録対象語の漢字文字列で、他方は仮名文字列のものを検索する。
ここで、「開括弧」とは、『、〔、(、〈、《、[、{、「、‘、“、<、≪などの記号のいずれかを、「閉じ括弧」とは、開括弧に対応して対の形で第2の連続文字に続く』、〕、)、〉、》、]、}、」、’、”、>、≫などの記号を指す。
また、「漢字文字列」とは、全角または半角のスペースを除く、その他の記号を含まない、漢字によって構成された文字列を言う。例えば、「裴容浚」という人名に対して、「裴 容浚」、「裴容浚」のいずれの文字列も連続文字の漢字文字列である。
「仮名文字列」とは、全角または半角の句読点、濁点、半濁点の記号またはスペースを除く、その他の記号を含まない、平仮名または片仮名によって構成された文字列を言う。例えば、片仮名の場合、「ぺ・ヨンジュン」、「ペヨンジュン」のいずれの文字列も連続文字の仮名文字列である。平仮名の場合、例えば「ぺ よんじゅん」、「ぺよんじゅん」のいずれの文字列も連続文字の仮名文字列である。
図6の(a)の例では、登録処理部21は、「裴容浚(ペ・ヨンジュン)」の文字列から、第1の連続文字として登録対象語である「裴容浚」を、第2の連続文字として片仮名の「ペ・ヨンジュン」を見つけ出す。
ステップ107では、見付かったかどうかをチェックする。見付かった場合はステップ108へ進み、見付からなかった場合はステップ121へ進む。
ステップ108では、漢字文字列にスペースがあればスペースを削除して登録対象語とし、仮名文字列を読み仮名とする。
ステップ109では、文章解析辞書13を参照して読み仮名を読み上げ語に変換する。この場合、読み仮名「ペ・ヨンジュン」は、記号「・」を削除され読み上げ語「ペヨンジュン」に変換される。
ステップ110では、登録対象語は登録対象語データベース23にすでに存在しているかどうかをチェックする。
存在している場合はステップ113へ進み、存在していない場合はステップ111へ進む。
ステップ111では、登録対象語データベース23に新規登録の登録対象語のスコア表を生成する。
図7の(a)にスコア表を示す。登録対象語「裴容浚」に対して、この場合、「ぺ・ヨンジュン」という読み仮名にスコア1とし、それに対応する読み上げ語「ペヨンジュン」にもスコア1として、スコア表が生成される。
ステップ112では、文章解析辞書13に登録対象語とその読み上げ語「ペヨンジュン」を登録し、この登録対象語に対して新規登録のフラグを立てる。
また、登録対象語データベース23のスコア表の読み上げ語「ペヨンジュン」に登録読み上げ語を示す登録フラグを立てる。登録読み上げ語は図7の(a)に太線枠で示す。
ステップ112の後、ステップ118へ進む。
ステップ110からステップ113へ進んだ場合は、登録対象語データベース23に記録されている登録対象語に対応するスコア表において、ステップ108で取得した読み仮名と、ステップ109で取得した読み上げ語に対するスコアをそれぞれ1つ加算する。
もし新たな読み仮名、または読み上げ語の場合は、スコア表に新たな読み仮名、または読み上げ語を書き込み、そのスコアを1とする。
図7の(b)、(c)はスコア表に登録対象語「裴容浚」に対する異なる読み仮名、読み上げ語が記録されている場合を示す。ここで(b)はスコアを加算前の状態を示し、(c)はスコア表において読み仮名「ペ・ヨンジュン」にスコア1を、読み上げ語「ペヨンジュン」にスコア1を加えた後の状態を示す。
ステップ114では、登録対象語に対して、文章解析辞書13において新規登録のフラグが立っており、かつ登録対象語データベース23の対応するスコア表において、最大スコアの読み上げ語が登録読み上げ語のスコアより大きいスコアかどうかをチェックする。
登録読み上げ語のスコアより大きい場合は、ステップ115へ進み、文章解析辞書13の対応する読み上げ語を、現在登録されている読み上げ語から最大スコアの読み上げ語に変更し、ステップ116へ進む。なお、登録読み上げ語が変更された場合は、登録対象語データベース23の対応するスコア表において、読み上げ語の登録フラグも対応させて設定を変更する。
最大スコアの読み上げ語が現在登録されている読み上げ語の場合は、ステップ114からステップ116へ進む。
ステップ116では、登録対象語のスコア表の読み上げ語に対するスコア合計が所定値以上、例えば20以上であるかどうかをチェックする。所定値以上の場合はステップ117へ進み、そうでない場合はステップ118へ進む。
図7の(c)の場合は、合計スコアが13なのでステップ116からステップ118へ進む。
ステップ117では、文章解析辞書13の登録対象語に対する新規登録のフラグを倒し、登録対象語データベース23の対応するスコア表を削除し、ステップ118へ進む。
このステップ116、117の処理は、新規登録の登録対象語の読み仮名がほぼ安定して、今後この読み仮名の変更が必要ないとして、新規登録のフラグを倒すものである。
ステップ118では、登録処理部21は、文章解析部12に、読み上げ情報への変換処理再開の指令を出力する。
ステップ119では、文章解析部12は、読み上げ情報への変換を中止した文字情報の処理を再開する。
なお、文章解析部12は、第1の文字列、開括弧、第2の文字列、閉じ括弧の構成の文字列で、読み上げ情報に変換したときに同じ読み上げ語が繰り返す場合は、第2の文字列の読み上げ語を削除して、読み上げ情報を生成する。
つまり、図6の(a)では、『映画「スキャンダル」の裴容浚(ペ・ヨンジュン)が、映画公開に先立ち来日し、会見を行った。』は(b)に示すような「エイガ/スキャンダルノ/ペヨンジュンガ/エイガ/コウカイニ/サキダチ/ライニチシ/カイケンヲ/オコナッタ/」となる。
なおここで「/」は、読み上げ情報の間を示す記号として表示している。
ステップ119の後、ステップ120へ進む。
ステップ107からステップ121へ進んだ場合は、登録処理部21は、同一ジャンルの他のウエブサイトの文字情報を取り込み、登録対象語を検索する。
ステップ122では、登録処理部21は、登録対象語を検出したどうかをチェックする。検出できなかった場合は、ステップ121へ戻り繰り返す。検出した場合は、ステップ123へ進む。
ステップ123では、登録処理部21は、ステップ121で検出した登録対象語の前後の文字情報において、第1の連続文字、開括弧、第2の連続文字、閉じ括弧の文字列の構成で、第1と第2の連続文字の一方は登録対象語で、他方は仮名文字列かどうかをチェックする。この条件に対応する場合はステップ108へ進み、そうでない場合はステップ121へ戻る。
ステップ103またはステップ119の後ステップ120へ進んだ場合は、文章解析部12は、読み上げ情報を文字情報とともに提供情報データベース15に格納させる。
ステップ120で、一連の取り込んだ文字情報の読み上げ情報への変換を終了する。
このように、文章解析部12において、図6の(a)に示すような文字情報が読み上げ情報に変換されるとき、「裴容浚」という漢字文字列が文章解析辞書13に含まれていない場合は、「裴容浚」に続く「(ペ・ヨンジュン)」から読み仮名を見つけ出すので、従来のように文章解析辞書13に含まれる単漢字に対する読み仮名を用いて、(c)のような読み上げ情報「エイガ/スキャンダルノ/ハイヨーシュン/ペヨンジュン/ガ/エイガ/コウカイニ/サキダチ/ライニチシ/カイケンヲ/オコナッタ/」に変換することなく(b)に示すような読み上げ情報に変換される。
本実施の形態のフローチャートにおける登録処理部21のステップ106〜108またはステップ121〜123、108の機能部分は本発明の登録対象語抽出手段を、登録処理部21のステップ109の機能部分は読み仮名読み上げ手段を、登録処理部21のステップ110〜117の機能部分は登録手段を構成する。
また、ステップ106、107、108またはステップ121〜123と、108は、本発明の文字情報取得過程と登録対象語抽出過程に、ステップ109は読み仮名読み上げ過程に、ステップ112、114〜117は登録過程に、ステップ111、113はスコア過程に対応する。
以上のように本実施の形態によれば、文章解析部12においてウエブサイトなどからのニューステキストなどの文字情報を読み上げ情報に変換中に、文章解析辞書13に未登録の登録対象語、例えば漢字文字列を検出したとき、登録処理部21は、変換中の文字情報、または別のウエブサイトの文字情報中の当該未登録の漢字文字列を含む、第1の連続文字、開括弧、第2の連続文字、閉じ括弧で構成された文字列で、さらに第1の連続文字または第2の連続文字の一方が当該未登録の漢字文字列であり、他方が仮名文字列のものを検索する。
通常、人名漢字、地名漢字など読みが難しい場合は、漢字文字列に続く( )内に読み仮名を付することが多いことから、登録処理部21は、( )の前の第1の連続文字である漢字文字列(当該の漢字文字列にスペースが含まれていれば漢字文字列からスペースを削除したもの)を登録対象語とし、第2の連続文字である仮名文字列を読み仮名とする。
登録処理部21は、読み仮名を読み上げ語に変換して、登録対象語とその読み上げ語を文章解析辞書13に登録する。
したがって、文章解析辞書13に登録されていない漢字文字列に対する読み上げ語を、人手を介さず自動的に登録することができる。
また、文章解析辞書13に新規登録した登録対象語に対しては、登録処理部21は、新規登録フラグを立て、さらに登録対象語データベース23に登録対象語に対する読み上げ語、読み仮名のスコア表を生成する。
文章解析部12が、別の機会に文字情報から読み上げ情報への変換中に、新規登録フラグの立っている登録対象語を検出した場合、登録処理部21は、変換中の文字情報、または別のウエブサイトの文字情報中の新規登録の登録対象語を含む、第1の連続文字、開括弧、第2の連続文字、閉じ括弧で構成された文字列を検索し、新規登録の登録対象語に対応する仮名文字列から読み仮名と読み上げ語を得て、スコア表の対応する読み上げ語、読み仮名のスコアをそれぞれ加点する。
そして、文章解析辞書13に登録されている読み上げ語よりもスコアの多い最大スコアの読み上げ語があれば、それを文章解析辞書13に読み上げ語として登録し直す。
したがって、新規登録の登録対象語に対する読み上げ語が、文字情報のソース間で安定していない場合も、出現頻度の高い読み上げ語を採用して文章解析辞書13に登録することにより、辞書の信頼度が向上する。
なお、本実施の形態のフローチャートの説明では、第1の文字列、開括弧、第2の文字列、閉じ括弧から漢字文字列とその読み上げ語を取得して文章解析辞書に登録する方法について説明したが、原語で表記した外国語固有名詞などを含む漢字仮名混じり文の文字情報における原語で表記した外国語の読み上げ情報への変換に対しても、漢字文字列の代わりにアルファベット文字列と置き直すことにより適用できる。
たとえば、第1の文字列または第2の文字列の一方が外国語の連続する(全角または半角スペース、カンマを含む)アルファベット文字であって、他方が(半角または全角のスペース、カンマ、ハイフンなどの区切り記号を含む)片仮名文字列の場合、アルファベット文字で表記された外国語に対する読み仮名として取得して、読み仮名を読み上げ語に変換する。その後、アルファベットの文字列とその読み上げ語を文章解析辞書に登録すればよい。
本発明の実施の形態の構成を示す図である。 音声読み上げ装置における単語登録の流れを示すフローチャートである。 音声読み上げ装置における単語登録の流れを示すフローチャートである。 音声読み上げ装置における単語登録の流れを示すフローチャートである。 音声読み上げ装置における単語登録の流れを示すフローチャートである。 文字情報を読み上げ情報に変換する例を説明する図である。 登録対象語データベースに格納するスコア表を説明する図である。
符号の説明
1 情報センタ
3 車両
5 インターネット
7 音声読み上げ装置
11 テキスト入力部
12 文章解析部
13 文章解析辞書
15 提供情報データベース
16 情報提供制御部
17 音声合成装置
18 通信装置
21 登録処理部
23 登録対象語データベース

Claims (7)

  1. 文字情報を音声合成用の読み上げ情報に変換するための文章解析辞書の登録方法であって、
    文字情報を取得する文字情報取得過程と、
    前記文字情報の中から登録対象語とその読み仮名の所定の組み合わせの文字列を抽出する登録対象語抽出過程と、
    前記抽出された読み仮名を読み上げ語に変換する読み仮名読み上げ過程と、
    前記登録対象語とその前記読み上げ語とを、前記文章解析辞書に登録する登録過程とを有することを特徴とする文章解析辞書の登録方法。
  2. 前記所定の組み合わせの文字列は、第1の連続文字と、それに続く開括弧と、第2の連続文字と、閉じ括弧とから構成された文字列であり、前記第1または第2の連続文字の一方が前記登録対象語を構成する漢字文字列、他方が仮名文字列であることを特徴とする請求項1に記載の文章解析辞書の登録方法。
  3. 前記漢字文字列とは、スペースを除く、その他の記号を含まない漢字によって構成された文字列であり、
    前記仮名文字列とは、スペース、濁点、半濁点および句読点を除く、その他の記号を含まない仮名文字によって構成された文字列であることを特徴とする請求項2に記載の文章解析辞書の登録方法。
  4. 前記読み仮名読み上げ過程は、前記仮名文字列の内の濁点、半濁点以外の記号を省いたものにもとづき前記登録対象語の漢字に対する読み上げ語とすることを特徴とする請求項3に記載の文章解析辞書の登録方法。
  5. 前記所定の組み合わせの文字列は、第1の連続文字と、それに続く開括弧と、第2の連続文字と、閉じ括弧とから構成された文字列であり、前記第1または第2の連続文字の一方が前記登録対象語を構成するアルファベット文字列、他方が仮名文字列であることを特徴とする請求項1に記載の文章解析辞書の登録方法。
  6. 前記読み仮名読み上げ過程の次に、前記登録対象語の読み上げ語の出現頻度をスコア表に記録するスコア過程を有し、
    該スコア過程は、前記登録対象語抽出過程において前記スコア表に記録されている登録対象語を抽出したときは、前記登録対象語とともに抽出した前記仮名文字列から前記読み仮名読み上げ過程において変換した読み上げ語の出現頻度を1回加算し、前記スコア表に記録し、
    前記登録過程は、前記スコア表に記憶されている登録対象語の最もスコアの高い読み上げ語を、前記登録対象語の読み上げ語として前記文章解析辞書に登録することを特徴とする請求項2から5のいずれか1に記載の文章解析辞書の登録方法。
  7. 文章解析辞書を用いて文字情報を音声合成用の読み上げ情報に変換する音声読み上げ装置において、
    文字情報を取得するテキスト入力部と、
    前記文字情報の中から登録対象語とその読み仮名の所定の組み合わせの文字列を抽出する登録対象語抽出手段と、
    前記抽出された登録対象語の読み仮名を読み上げ語に変換する読み仮名読み上げ手段と、
    前記抽出された登録対象語とその前記読み上げ語を前記文章解析辞書に登録する登録手段とを備え、
    前記所定の組み合わせの文字列は、第1の連続文字と、それに続く開括弧と、第2の連続文字と、閉じ括弧とから構成された文字列であり、前記第1または第2の連続文字の一方が前記登録対象語、他方が仮名文字列であることを特徴とする音声読み上げ装置。
JP2005003712A 2005-01-11 2005-01-11 音声合成用の文章解析辞書の登録方法およびこれを用いた音声読み上げ装置 Pending JP2006194952A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005003712A JP2006194952A (ja) 2005-01-11 2005-01-11 音声合成用の文章解析辞書の登録方法およびこれを用いた音声読み上げ装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005003712A JP2006194952A (ja) 2005-01-11 2005-01-11 音声合成用の文章解析辞書の登録方法およびこれを用いた音声読み上げ装置

Publications (1)

Publication Number Publication Date
JP2006194952A true JP2006194952A (ja) 2006-07-27

Family

ID=36801103

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005003712A Pending JP2006194952A (ja) 2005-01-11 2005-01-11 音声合成用の文章解析辞書の登録方法およびこれを用いた音声読み上げ装置

Country Status (1)

Country Link
JP (1) JP2006194952A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003717A (ja) * 2007-06-21 2009-01-08 Yahoo Japan Corp ふり仮名収集利用装置及びふり仮名収集利用方法
JP2010020638A (ja) * 2008-07-11 2010-01-28 Canon Inc 言語処理装置および言語処理方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01300334A (ja) * 1988-05-30 1989-12-04 Fujitsu Ltd 文章読み上げ装置
JPH07244491A (ja) * 1994-03-03 1995-09-19 Oki Electric Ind Co Ltd テキスト音声変換システム
JPH096378A (ja) * 1995-06-21 1997-01-10 Oki Electric Ind Co Ltd テキスト音声変換装置
JPH11212586A (ja) * 1998-01-22 1999-08-06 Nec Corp 音声合成装置
JP2001013981A (ja) * 1999-07-02 2001-01-19 Nec Corp 音声合成用辞書登録装置及び方法
JP2003036088A (ja) * 2001-07-23 2003-02-07 Canon Inc 音声変換の辞書管理装置
JP2003302989A (ja) * 2002-04-11 2003-10-24 Denso Corp 情報端末、サーバ及びプログラム
JP2004301968A (ja) * 2003-03-31 2004-10-28 Clarion Co Ltd 発話処理装置、発話処理方法及び発話処理用プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01300334A (ja) * 1988-05-30 1989-12-04 Fujitsu Ltd 文章読み上げ装置
JPH07244491A (ja) * 1994-03-03 1995-09-19 Oki Electric Ind Co Ltd テキスト音声変換システム
JPH096378A (ja) * 1995-06-21 1997-01-10 Oki Electric Ind Co Ltd テキスト音声変換装置
JPH11212586A (ja) * 1998-01-22 1999-08-06 Nec Corp 音声合成装置
JP2001013981A (ja) * 1999-07-02 2001-01-19 Nec Corp 音声合成用辞書登録装置及び方法
JP2003036088A (ja) * 2001-07-23 2003-02-07 Canon Inc 音声変換の辞書管理装置
JP2003302989A (ja) * 2002-04-11 2003-10-24 Denso Corp 情報端末、サーバ及びプログラム
JP2004301968A (ja) * 2003-03-31 2004-10-28 Clarion Co Ltd 発話処理装置、発話処理方法及び発話処理用プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003717A (ja) * 2007-06-21 2009-01-08 Yahoo Japan Corp ふり仮名収集利用装置及びふり仮名収集利用方法
JP2010020638A (ja) * 2008-07-11 2010-01-28 Canon Inc 言語処理装置および言語処理方法

Similar Documents

Publication Publication Date Title
WO2018097091A1 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム
US20120072204A1 (en) Systems and methods for normalizing input media
JP2000514218A (ja) コンピュータシステムによる日本語テキストの単語の識別
JPH1125098A (ja) 情報処理装置、リンク先ファイルの取得方法および記憶媒体
KR20160029587A (ko) 단위 또는 약어의 풀네임 음성출력 방법 및 장치
Scherrer et al. Word-based dialect identification with georeferenced rules
Scherrer et al. Natural Language Processing for the Swiss German Dialect Area.
JP4675691B2 (ja) コンテンツ情報提供装置
JP2006194952A (ja) 音声合成用の文章解析辞書の登録方法およびこれを用いた音声読み上げ装置
JP2011008784A (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
JP5094835B2 (ja) 意味属性推定装置、方法及びプログラム
JP2009150988A (ja) 音声認識辞書作成装置
JP3725470B2 (ja) 統計的言語モデルを作成するためのコーパス処理装置及び方法並びにプログラム
JP2007264858A (ja) 人名性別判定プログラム、機械翻訳プログラム、人名性別判定装置、機械翻訳装置、人名性別判定処理方法および機械翻訳処理方法
JP2010211004A (ja) 辞書作成装置、辞書作成システム、辞書作成方法および辞書作成プログラム
JP5445244B2 (ja) 音声合成装置、音声合成方法、及び音声合成プログラム
JP2005234219A (ja) 音声合成用辞書登録方法および装置
JP2006338155A (ja) 文字列変換コンピュータプログラム及び変換規則を記録した記録媒体
JP2004185641A (ja) 対訳例文検索装置
JP2005044071A (ja) 電子辞書
JP2005018241A (ja) 情報処理装置、リンク先ファイル取得方法、リンク先ファイル取得プログラム、及びプログラム記録媒体
JP3916947B2 (ja) 音声認識機能付き表示装置
JP2002297587A (ja) 言語解析用データ作成方法、言語解析方法及び前記方法に用いるプログラム
JP2004086272A (ja) 位置情報処理装置、方法及びコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071128

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080912

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100603

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100709

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100810

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101214