JP4208819B2 - 音声合成辞書登録方法および装置 - Google Patents

音声合成辞書登録方法および装置 Download PDF

Info

Publication number
JP4208819B2
JP4208819B2 JP2004315837A JP2004315837A JP4208819B2 JP 4208819 B2 JP4208819 B2 JP 4208819B2 JP 2004315837 A JP2004315837 A JP 2004315837A JP 2004315837 A JP2004315837 A JP 2004315837A JP 4208819 B2 JP4208819 B2 JP 4208819B2
Authority
JP
Japan
Prior art keywords
character string
pronunciation information
receiving
dictionary
registration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004315837A
Other languages
English (en)
Other versions
JP2006126575A (ja
Inventor
雅章 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004315837A priority Critical patent/JP4208819B2/ja
Publication of JP2006126575A publication Critical patent/JP2006126575A/ja
Application granted granted Critical
Publication of JP4208819B2 publication Critical patent/JP4208819B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声合成のための辞書登録方法に関わるものである。
従来より、入力されたテキストを解析し合成音声に変換するテキスト音声合成の技術が存在する。
テキスト音声合成の処理は、大まかに言語処理・音響処理の2段階に分けられる。まず、言語処理では、入力されたテキストを解析し、読みやアクセントといった発音情報が抽出される。このために、言語的な知識すなわち辞書や文法規則が用いられる。次に、音響処理において、前記発音情報に則した合成音声が生成される。
前記言語処理で用いられる辞書は各単語の発音を記録したものであり、各エントリには、入力テキストとのマッチングに用いられる表記、音韻情報に変換するために用いられる読み、および韻律情報に変換するためのアクセントが登録されている。さらに、実装の形態によっては、品詞等の付随的情報が辞書に含まれることもある。
ところで、上記のような辞書を用いた言語解析を行なう場合、辞書未登録語の問題が生じる。すなわち、任意のテキストを音声合成しようとした場合、辞書に無い語が現れ、正確な言語解析が行なわれないという問題がある。
これに対処するため、従来より、辞書にない語に関する情報をユーザが指示するための手段が用いられている。例えば、最初から用意されている辞書(基本語辞書)に加えてユーザ辞書を用いる方法がある。入力テキストがユーザの意図通りに読まれない場合、ユーザは該当箇所の表記を意図する読みと共にユーザ辞書に登録し、意図した合成音声を得るようにすることができる。
ユーザ辞書登録に関する先行技術として、例えば特許文献1がある。特許文献1では、見出し語に対する読みを入力し、その読みの文字列の中でアクセントの高い(低い)区間をポインティングデバイスなどで設定することにより、辞書登録を行なう。
特開平5−281986号公報
しかしながら、上記従来例には、以下の様な問題があった。
音声合成のユーザとして、必ずしも音声合成技術に習熟していない一般のユーザを想定した場合、アクセントを正確に指示(入力)することは容易ではない。これは、アクセントが1音(モーラ)毎の上下というよりも、語あるいは句全体におけるパターンとして知覚されることによる。例えば、音高が「低高低」と推移することは分かっても、何モーラ目で上がり、何モーラ目で下がるのかを正しく指示するのは容易ではない。特に、語中に促音や撥音がある場合、困難の度合いが増す。
前記課題を解決するために、本発明では、発音情報登録対象の第1の文字列を受信する第1受信工程と、前記第1の文字列に関連付けて登録するための発音情報を抽出する対象として指定された、漢字仮名混じり表記である第2の文字列を受信する第2受信工程と、前記第2の文字列を解析して前記第2の文字列に対応する発音情報を抽出する抽出工程と、前記第1の文字列と前記抽出工程で抽出した発音情報とを関連付けて登録する登録工程とを備える。
以上説明したように、本発明によれば、音声合成技術に習熟していない一般のユーザにとっても容易にアクセント等の発音情報を指示することが可能となる。
以下、図面を参照しながら本発明の好適な実施例を説明する。
図1は本発明の一実施例におけるハードウェア構成である。1は数値演算・制御等の処理を行なう中央処理装置であり本発明の手順に従って演算を行なう。2はユーザに対して音声を提示する音声出力装置である。3はユーザに対して情報を提示する出力装置である。出力装置の典型例として、液晶ディスプレイのような画像出力装置が考えられる。4はタッチパネルやキーボード・マウス・ボタン等の入力装置であり、ユーザが本装置に対して動作の指示を与えたり文字を入力するために用いられる。5はディスク装置や不揮発メモリ等の記憶装置であり、音声合成に使用される言語解析辞書501やユーザ辞書502、音響処理辞書503等が保持される。さらに、外部記憶装置5には、RAM7に保持される各種情報のうち、恒久的に使用されるべき情報も保持される。また、外部記憶装置5は、CD−ROMやメモリカードといった可搬性のある記憶装置であっても良く、これによって利便性を高めることもできる。
6は読み取り専用のメモリであり、本発明を実現するためのプログラムコード601や図示しない固定的データ等が格納される。もっとも、本発明において、外部記憶装置5とROM6の使用には任意性がある。例えば、プログラムコード601は、ROM6ではなく外部記憶装置5にインストールされるものであっても良い。7はRAM等の一時情報を保持するメモリであり、表記バッファ701や発音バッファ702およびその他の一時的なデータや各種フラグ等が保持される。上記中央処理装置1〜RAM7は、バスで接続されている。
以下、本発明における処理フローを図2に則して説明する。なお、本実施例はイベント駆動型の処理として説明する。
まず、ステップS1で、ユーザ辞書登録画面を出力装置3に表示する。ユーザ辞書登録画面の例を、図3に示す。次に、ステップS2で、ユーザ操作等のイベントを取得する。イベントが発生するまでは本ステップ中でイベント待ちの状態になる。
次に、ステップS3で、前記ステップS2で取得したイベントの種別に基づいて処理を分岐する。前記ステップS2で取得したイベントの種別が、「表記入力領域選択」(表記入力領域801がユーザによって選択されたことを示す)であれば、ステップS4に処理を移し、「発音入力領域選択」(発音入力領域802がユーザによって選択されたことを示す)であれば、ステップS5に処理を移し、「文字入力」(選択された領域に文字が入力されたことを示す)であれば、ステップS6に処理を移し、「音声確認ボタン押下」であれば、ステップS7に処理を移し、「設定ボタン押下」であれば、ステップS10に処理を移し、「キャンセルボタン押下」であれば、ステップS12に処理を移す。
ステップS4では、文字入力の対象となる対象バッファを、表記バッファ701に設定し、その後、ステップS2に処理を戻す。
ステップS5では、文字入力の対象となる対象バッファを、発音バッファ702に設定し、その後、ステップS2に処理を戻す。
ステップS6では、入力された文字列を対象バッファ(表記バッファ701もしくは発音バッファ702)に転記する。例えば、図4の状態では、発音入力領域802が選択されているので、入力された文字列「高梨」が発音バッファ702に転記される。その後、ステップS2に処理を戻す。
ステップS7では、発音バッファ702の内容を言語解析し、読みやアクセント等の音声合成に必要な情報を抽出する。この際、言語解析辞書501のみを用いる実装でも良いし、言語解析辞書501に加えてユーザ辞書502を用いる実装でも良い。
次に、ステップS8において、前記ステップS7の結果得られた情報に基づいて合成音声を生成する。
次に、ステップS9において、前記ステップS8で得られた合成音声を音声出力装置2に出力し、その後、ステップS2に処理を戻す。
ステップS10では、発音バッファ702の内容を言語解析し、読みやアクセント等のユーザ辞書に登録する発音情報を抽出する。この際、言語解析辞書501のみを用いる実装でも良いし、言語解析辞書501に加えてユーザ辞書502を用いる実装でも良い(ステップS7に合わせる)。
次に、ステップS11において、前記ステップS10で抽出された発音情報を、表記バッファ701中の表記と合わせてユーザ辞書502に登録し、ステップS12に処理を移す。
ステップS12では、ユーザ辞書登録画面を非表示にし、ユーザ辞書登録の処理を終了する。
このような構成としたことで、表記入力領域に入力した文字列を音声合成するのに必要な情報(読みやアクセント等)を、該文字列と同じ発音となる文字列を指定することで設定できるようになり、音声合成技術に習熟していない一般のユーザにとっても容易にアクセント等の発音情報を指示することが可能となる。
前記実施例において、ユーザの入力した発音情報が全て仮名で構成されている場合、従来例によるアクセント入力に移行しても良い。
この場合の実施例を図5、6に則して説明する。
まず、図5の処理フローは、基本的には実施例1と同様である。1点異なるのは、ステップS10の前に、ステップS101が加わっている点である。ステップS101では、発音バッファの内容が全て仮名であるか判定し、発音バッファの内容が全て仮名であれば処理をステップS201(図6)に移し、そうでなければステップS10に移す。
ステップS201では、従来の技術に則したアクセント入力画面を表示する。アクセント入力画面の例を図7に示す。
次に、ステップS202で、従来の技術に則して発音バッファ702中の発音に対応するアクセントを取得する。
次に、ステップS203において、前記ステップS202で取得したアクセント情報を表記バッファ701中の表記および発音バッファ702中の発音(読み)と合わせてユーザ辞書502に登録する。
次に、ステップS204において、アクセント入力画面を非表示にし、ユーザ辞書登録の処理を終了する。
(その他の実施例)
前記実施例において、発音情報として読み・アクセントを挙げたが、これに限定されるものではない。例えば、本発明を英語等に適用した場合には、ストレスの位置が発音情報に含まれる。あるいは、隣接する単語によって発音が変形する現象における、変形の傾向等も発音情報に含まれる。
なお、本発明の目的は、前述した実施例の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
実施例1におけるハードウェア構成を示したブロック図である。 実施例1における処理フローを示すフローチャートである。 実施例1におけるユーザ辞書登録画面のイメージを示した図である。 実施例1における辞書登録例を示す図である。 実施例2における処理フローの一部を示すフローチャートである。 実施例2における処理フローの一部を示すフローチャートである。 実施例2における、従来例に基づいたアクセント入力画面のイメージを示した図である。

Claims (12)

  1. 発音情報登録対象の第1の文字列を受信する第1受信工程と、
    前記第1の文字列に関連付けて登録するための発音情報を抽出する対象として指定された第2の文字列を受信する第2受信工程と、
    前記第2の文字列を解析して前記第2の文字列に対応する発音情報を抽出する抽出工程と、
    前記第1の文字列と前記抽出工程で抽出した発音情報とを関連付けて登録する登録工程とを備え、
    前記第2の文字列は漢字仮名混じり表記であることを特徴とする辞書登録方法。
  2. 発音情報登録対象の第1の文字列を受信する第1受信工程と、
    前記第1の文字列に関連付けて登録するための発音情報を抽出する対象として指定された第2の文字列を受信する第2受信工程と、
    発音情報の記録された辞書を用いて前記第2の文字列を解析することによって前記第2の文字列に対応する発音情報を抽出する抽出工程と、
    前記第1の文字列と前記抽出工程で抽出した発音情報とを関連付けて登録する登録工程とを備えたことを特徴とする辞書登録方法。
  3. 前記第2受信工程で受信した第2の文字列を音声合成する合成工程と、
    前記合成工程で合成した合成音声を出力する出力工程とを更に備えたことを特徴とする請求項1又は2に記載の辞書登録方法。
  4. 前記第2受信工程で受信した第2の文字列が全て仮名で構成されているか判定する判定工程と、
    前記判定工程で全て仮名で構成されていると判定された場合に、前記第2の文字列に対応するアクセントを設定するための設定画面を表示するよう制御する表示制御工程とを更に備える請求項2に記載の辞書登録方法。
  5. 前記第2の文字列は、前記第1の文字列と同じ発音となる文字列であることを特徴とする請求項1又は2に記載の辞書登録方法。
  6. 請求項1乃至5のいずれかに記載の辞書登録方法をコンピュータに実行させるための制御プログラム。
  7. 請求項6記載の制御プログラムを記憶したコンピュータ読み取り可能な記憶媒体。
  8. 発音情報登録対象の第1の文字列を受信する第1受信手段と、
    前記第1の文字列に関連付けて登録するための発音情報を抽出する対象として指定された第2の文字列を受信する第2受信手段と、
    前記第2の文字列を解析して前記第2の文字列に対応する発音情報を抽出する抽出手段と、
    前記第1の文字列と前記抽出手段で抽出した発音情報とを関連付けて登録する登録手段とを備え、
    前記第2の文字列は漢字仮名混じり表記であることを特徴とする辞書登録装置。
  9. 発音情報登録対象の第1の文字列を受信する第1受信手段と、
    前記第1の文字列に関連付けて登録するための発音情報を抽出する対象として指定された第2の文字列を受信する第2受信手段と、
    発音情報の記録された辞書を用いて前記第2の文字列を解析することによって前記第2の文字列に対応する発音情報を抽出する抽出手段と、
    前記第1の文字列と前記抽出手段で抽出した発音情報とを関連付けて登録する登録手段とを備えたことを特徴とする辞書登録装置。
  10. 前記第2受信手段で受信した第2の文字列を音声合成する合成手段と、
    前記合成手段で合成した合成音声を出力する出力手段とを更に備えたことを特徴とする請求項8又は9に記載の辞書登録装置。
  11. 前記第2受信手段で受信した第2の文字列が全て仮名で構成されているか判定する判定手段と、
    前記判定手段で全て仮名で構成されていると判定された場合に、前記第2の文字列に対応するアクセントを設定するための設定画面を表示するよう制御する表示制御手段とを更に備える請求項9に記載の辞書登録装置。
  12. 前記第2の文字列は、前記第1の文字列と同じ発音となる文字列であることを特徴とする請求項8又は9に記載の辞書登録方法。
JP2004315837A 2004-10-29 2004-10-29 音声合成辞書登録方法および装置 Expired - Fee Related JP4208819B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004315837A JP4208819B2 (ja) 2004-10-29 2004-10-29 音声合成辞書登録方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004315837A JP4208819B2 (ja) 2004-10-29 2004-10-29 音声合成辞書登録方法および装置

Publications (2)

Publication Number Publication Date
JP2006126575A JP2006126575A (ja) 2006-05-18
JP4208819B2 true JP4208819B2 (ja) 2009-01-14

Family

ID=36721382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004315837A Expired - Fee Related JP4208819B2 (ja) 2004-10-29 2004-10-29 音声合成辞書登録方法および装置

Country Status (1)

Country Link
JP (1) JP4208819B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008268478A (ja) * 2007-04-19 2008-11-06 Hitachi Business Solution Kk アクセント調整可能な音声合成装置

Also Published As

Publication number Publication date
JP2006126575A (ja) 2006-05-18

Similar Documents

Publication Publication Date Title
JP4473193B2 (ja) 混合言語テキスト音声合成方法および音声合成装置
EP1071074A2 (en) Speech synthesis employing prosody templates
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
JP5535238B2 (ja) 情報処理装置
KR20170057623A (ko) 언어장애인을 위한 다언어 어휘의 발음 합성 및 문자화 장치
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP2004326367A (ja) テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置
JP4208819B2 (ja) 音声合成辞書登録方法および装置
JP2005031150A (ja) 音声処理装置および方法
JPH06282290A (ja) 自然言語処理装置およびその方法
JP6232724B2 (ja) 音声合成装置及び言語辞書登録方法
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
JP5975033B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム
JP2580565B2 (ja) 音声情報辞書作成装置
JP5125404B2 (ja) 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP6142632B2 (ja) 単語辞書登録用コンピュータプログラム、音声合成装置及び単語辞書登録登録方法
JP7243418B2 (ja) 歌詞入力方法およびプログラム
JP2004258561A (ja) 歌唱合成用データ入力プログラムおよび歌唱合成用データ入力装置
JP2000003355A (ja) 中国語入力変換処理装置、同装置に用いられる新語登録方法及び記録媒体
JP2006098552A (ja) 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法
JPH11259094A (ja) 規則音声合成装置
JP4319851B2 (ja) 読み上げ装置、読み上げ方法及び読み上げ処理用プログラム
JPH02238494A (ja) 音声合成装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080924

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081021

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121031

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131031

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees