JP5245737B2 - 音声読み上げ文生成装置、音声読み上げ文生成方法および音声読み上げ文生成プログラム - Google Patents

音声読み上げ文生成装置、音声読み上げ文生成方法および音声読み上げ文生成プログラム Download PDF

Info

Publication number
JP5245737B2
JP5245737B2 JP2008290315A JP2008290315A JP5245737B2 JP 5245737 B2 JP5245737 B2 JP 5245737B2 JP 2008290315 A JP2008290315 A JP 2008290315A JP 2008290315 A JP2008290315 A JP 2008290315A JP 5245737 B2 JP5245737 B2 JP 5245737B2
Authority
JP
Japan
Prior art keywords
format type
speech
character string
unit
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008290315A
Other languages
English (en)
Other versions
JP2010117529A (ja
Inventor
拓也 野田
伸之 片江
健太郎 村瀬
一宏 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008290315A priority Critical patent/JP5245737B2/ja
Publication of JP2010117529A publication Critical patent/JP2010117529A/ja
Application granted granted Critical
Publication of JP5245737B2 publication Critical patent/JP5245737B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本願は、音声読み上げ技術に関し、特に、入力情報を音声で読み上げるための読み上げ文を生成する技術に関する。
文字情報を音声で読み上げる音声読み上げ技術(音声合成技術)は、ユニバーサルデザインの1つとして、視覚障害者(全盲、弱視、老眼等)への有効な情報提示手段となっている。一般に、音声読み上げ技術は、メール読み上げ、Webコンテツ読み上げ等、テキスト文章を読み上げることを前提としている。
ところが、表形式の情報を音声で読み上げた場合、ユーザにとってその情報を理解するのが困難となることが多い。例えば、Webコンテンツで提供される公共交通機関の時刻表の情報は、その大半が「時」と「分」を示す数字の羅列などで表現されるため、時刻表を音声読み上げすると、数字の読み上げ音声が「時」と「分」のいずれを示すのかユーザは理解しにくい。また、行き先が「大阪」であることを示す略字「大」のような、略字1字を音声読み上げした場合、行き先が何処であるのか、ユーザは理解できない。
こうした課題に対し、表形式の入力情報を、予め用意された表形式に適合するテンプレートに当てはめて読み上げ文を生成する技術が開示されている(例えば、下記特許文献1および2参照)。
特開平11−134166号公報 特開2004−334369号公報
しかしながら、上記従来の技術では、定型の表種の音声読み上げは実現できるものの、次のような課題が存在する。すなわち、入力情報の表形式に対して固定されたテンプレートが用いられるために、冗長な読み上げ文が生成される場合がある。例えば、表形式の入力情報から抽出された文字情報を、予め決められたテンプレートに当てはめて音声読み上げを行うと、文字情報の読み上げ優先順がユーザの希望する優先順に一致しないことがある。その場合、ユーザにとって早急に知りたい情報にたどり着くまでに不要な情報が延々と音声読み上げられる。
ゆえに、本発明は、冗長読み上げを回避し、迅速にユーザの望む情報を音声読み上げ行うことを可能にする読み上げ文生成装置、読み上げ文生成方法および読み上げ文生成プログラムを提供することを目的とする。
本願に開示する音声読み上げ文生成装置は、読み上げ対象となり得る情報の表現形式の種類である形式種毎に、各形式種に含まれるキーワードおよび当該キーワードに対応する読み上げ要否または優先度を記録している形式種データ記録部にアクセス可能であり、入力情報を入力する入力部と、該入力された入力情報に含まれる文字列の集合と該文字列の位置を表す情報を抽出する文字抽出部と、前記文字抽出部が抽出した文字列の集合と、前記形式種データ記録部に記録された前記キーワードとを比較することにより、前記入力情報の形式種を判定する形式種判定部と、前記文字列の位置を表す情報に基づき、前記文字抽出部が抽出した文字列の集合を、前記形式種判定部が判定した前記入力情報の形式種に含まれる各キーワードに対応する文字列に分類する文字列分類部と、前記文字列分類部が分類した各キーワードに対応する文字列を、前記形式種データ記録部に各キーワードに対応して記録されている読み上げの要否または読み上げの優先順に基づいて配置することにより、音声読み上げ用のテキスト文を生成する読み上げ文生成部とを備える。
上記構成において、形式種データ記録部には、各形式種に含まれるキーワードとキーワードに対応する文字列の読み上げの優先度が記録されている。そのため、形式種判定部は、各形式種のキーワードと、入力情報から抽出された文字列の集合とを比較することで、入力情報の形式種を判定することができる。文字列分類部は、前記抽出された文字列の位置を表す情報を用いて、前記文字列の集合を、入力情報の形式種に含まれる各キーワードに対応する文字列に分類する。これにより、文字列の集合がキーワードごとに分類される。すなわち、文字列の集合は、各キーワードに対応する文字列群に分類される。読み上げ文生成部は、形式種データ記録部に記録されている各キーワードに対応する読み上げ要否はまたは読み上げ優先度に基づいて、各キーワードごとに分類された文字列を配置することにより、テキスト文を生成する。
上記構成によれば、形式種ごとに記録されたキーワードを用いて、入力情報の形式種が判定され、形式種に応じた文字列の分類、形式種に応じた文字列の読み上げ要否または優先順決定設定が行われる。そのため、形式種に応じて読み上げが必要な文字列または、形式種に応じた適切な優先順を考慮した読み上げ用のテキスト文を生成することが可能になる。その結果、例えば、入力情報の不要な部分も含む全体が読み上げられたり、優先度の低い情報が先に読み上げられたりするような事態が回避される。すなわち、冗長な読み上げを回避し、迅速にユーザの望む情報を音声読み上げすることができる。
本願開示によれば、冗長読み上げを回避し、迅速にユーザの望む情報を、音声合成装置を用いて、音声読み上げ行うことを可能にするテキスト文を生成することが可能になる。
本発明の実施形態において、ユーザから前記形式種データの更新情報の入力を受け付ける更新情報入力部と、前記更新情報に基づいて、前記形式種データ記録部のデータに対して追加、更新または削除を行う形式種データ更新部をさらに備えてもよい。
これにより、ユーザは、形式種データ記録部に対して、例えば、新たな形式種の登録、あるいは既存の形式種のキーワードおよび優先度の追加、変更または削除等をすることができる。その結果、ユーザの要求に応じた読み上げ用のテキスト文生成が可能になる。
本発明の実施形態において、前記形式種データ更新部は、ユーザから前記形式種データの更新情報の入力を受け付ける場合に、前記文字抽出部が前記入力情報から抽出した文字列をユーザに対して出力してもよい。これにより、ユーザは、文字抽出部が抽出した文字列を基にして、入力情報に適した形式種、キーワードあるいは優先度を入力し、形式種データ記録部に記録することができる。
本発明の実施形態において、前記形式種データ更新部は、前記文字抽出部が抽出した前記文字列の集合を言語解析する言語処理部をさらに有し、前記言語処理部による言語解析の結果を用いて、前記文字列の集合のうちキーワード候補となる文字列を選択してユーザに対して出力してもよい。これにより、文字抽出部が抽出した文字列の集合のうち、適切な文字列を選択してユーザに出力することができる。
本発明の実施形態において、前記形式種データ更新部は、前記入力情報に含まれる文字列の集合と、前記形式種データ記録部に記録された前記各形式種に含まれるキーワードとを比較することで、新たな形式種を登録するか否かを判断し、新たに登録する場合は、前記入力情報に含まれる文字列を新たな形式種のキーワードおよび関連キーワードとして新たに表種データ記録部に追加する態様とすることができる。これにより、自動的に、入力情報に応じた形式種を自動的に追加することができる。その結果、キーワード抽出や読み上げ文作成の精度が向上する。
本発明の実施形態において、音声読み上げ文生成装置は、前記入力情報とともに、ユーザの環境情報を入力する環境情報取得部をさらに備えてもよく、前記形式種判定部、文字列分類部および優先順設定部の少なくとも1つが、前記環境情報に応じて、前記形式種の判定、前記文字列の分類あるいは前記優先順の設定を実行してもよい。
これにより、ユーザの環境に応じた適切な読み上げを可能にするテキスト文を生成することできる。なお、ユーザの環境情報は、入力情報が入力される際のユーザの環境を示す情報であり、例えば、ユーザの位置、場所、時間、またはユーザが利用しているハードウエア等に関するデータがユーザの環境情報に含まれる。
本発明の実施形態において、前記形式種判定部は、ユーザからの形式種の指定を受け付け、前記指定に応じて形式種を判定してもよい。これにより、形式種判定処理にかかる時間を抑え、さらに、形式種判定誤りを抑制することができる。
本発明の実施形態において、音声読み上げ文生成装置は、前記読み上げ文生成部が生成した前記テキスト文を読み上げる音声合成部をさらに備えてもよい。
本発明の実施形態において、前記形式種データ記録部は、前記形式種に含まれるキーワードに対応する文字列選択基準を示すデータをさらに記録し、前記文字列分類部は、前記形式種データ記録部における、前記入力情報に含まれるキーワードに対応する文字列選択基準を参照して、前記入力情報に含まれるキーワードに対応する文字列を選択することにより前記分類を行う態様であってもよい。これにより、文字列分類部は、形式種に応じた適切な文字列の分類が可能になる。
本発明の実施形態において、前記文字抽出部は、少なくとも1つの方向に配列可能な文字列の集合を、前記入力情報から抽出し、前記文字列分類部は、前記入力情報の形式種に含まれるキーワードに一致または部分一致する文字列、またはこの文字列と同じ方向に配置されている文字列を、前記入力情報の形式種に含まれるキーワードに対応する文字列として選択することにより前記分類を行う態様であってもよい。
これにより、文字列分類部は、入力情報の形式種に含まれるキーワードまたはそれに関連する文字列を、読み上げに必要な文字列をして選択することができる。
本発明の実施形態において、前記形式種データ記録部は、前記形式種に含まれる前記キーワードに対応する単位をさらに記録し、前記読み上げ文生成部は、音声読み上げ用のテキスト文を生成する際に、前記文字列分類部が分類した文字列に対して、当該文字列に対応するキーワードに対応する単位を、前記文字列に付加する態様であってもよい。
上記構成により、読み上げる文字列に対応する単位を付加することができ、ユーザにとって分かりやすい読み上げ用テキスト文が生成される。
上記音声読み上げ文生成装置を含む音声合成装置も、本発明の実施形態に含まれる。コンピュータを上記音声読み上げ文生成装置として機能させるプログラムも本発明の実施形態に含まれる。また、上記音声読み上げ文生成装置により実行される音声読み上げ文生成方法も、本発明の実施形態に含まれる。
[第1の実施形態]
[装置構成]
図1は、第1の実施形態における音声読み上げ文生成装置を含む音声合成装置の構成を表す機能ブロック図である。図1に示す音声読み上げ文生成装置1は、入力部20、文字抽出部2、形式種判定部3、文字列分類部4、優先順設定部5、読み上げ文生成部6および記録部8を備える。記録部8には、形式種データベース9が記録されている。また、ここでは、音声読み上げ文生成装置1は、音声合成装置10に含まれている。音声合成装置10は、音声読み上げ文生成装置1に加えて、音声合成部7を備える。なお、図示しないが、音声合成装置10は、スピーカ等の読み上げ音声を出力するための出力部、並びに、マウス、キーボード、タブレット、ボタン、スキャナまたはカメラ等の入力情報を入力するための入力デバイスを備えてもよい。入力部20は、例えば、これら入力デバイスから受け取った入力音声を音声読み上げ文生成装置1で使用可能な状態にする。
音声読み上げ文生成装置1を含む音声合成装置10は、例えば、パーソナルコンピュータやサーバマシン等の汎用コンピュータによって構成されてもよい。また、汎用コンピュータに限らず、例えば、車載情報端末、携帯電話、PDA(Personal Digital Assistant)、家電製品等の電子機器に組み込まれたコンピュータによって音声合成装置10が構成されてもよい。あるいは、コンピュータを内蔵した専用機器で音声合成装置10が構成されてもよい。
入力部20、文字抽出部2、形式種判定部3、文字列分類部4、優先順設定部5、読み上げ文生成部6および音声合成部7の各機能は、CPUが所定のプログラムを実行することによって実現される。したがって、上記の各機能をコンピュータで実現するためのプログラムまたはそれを記録した記録媒体も本発明の一実施態様である。また、記録部8は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。
なお、音声読み上げ文生成装置1を含む音声合成装置10の構成は、図1に示す例に限られない。例えば、音声合成部7は、音声読み上げ文生成装置1と通信可能な別のコンピュータで構成されてもよい。音声合成部7は、音声読み上げ文生成装置1からアクセス可能であれば、例えば、ネットワーク上にあってもよい。また、記録部8は、音声読み上げ文生成装置1の外部に設けられた記憶媒体で構成されてもよい。
[形式種データベース9]
形式種データベース9は、形式種毎に、形式種に含まれるキーワードおよび優先度を少なくとも記録する。形式種は、読み上げ対象となり得る情報の表現形式(あるいは表現形態)の種類である。本実施形態では、一例として、読み上げ対象となり得る表の種類(表種)が形式種となっている。読み上げ対象となり得る情報は、所定の形式で文字列等の情報が表現されていれば、必ずしも表形式である必要はない。例えば、レシートや公共料金の請求書、領収書、銀行の通帳なども読み上げ対象の情報となり得る。
本実施形態では、形式種データベース9に記録される各形式種は、少なくとも1つキーワードを含み、各形式種のキーワードごとに優先度、単位および文字列選択基準等のデータが対応付けられる。キーワードは、例えば、読み上げる情報に含まれる各項目を表す言葉とすることができる。例えば、形式種が「時刻表」である場合には、「時間」、「分」、「方面」、「特急」、「各駅停車」等が項目が読み上げる情報に含まれる項目となる。例えば、キーワードが「時間」または「分」のように、数字が読み上げられる項目を表す場合、「時」「分」等、数字の後に読み上げる言葉も、キーワードに対応付けて記録されてもよい。
本実施形態では、1つの形式種は、その形式種に含まれるキーワードにより他の形式種と区別される。各形式種は独自のキーワードを持つ。すなわち、形式種に含まれるキーワードが形式種の識別子となっている。なお、形式種は、ユーザが任意に定義したものであってもよい。
図2は、形式種データベース9に記録されるデータの内容の一例を示す図である。図2に示す例では、形式種ごとに、出現するキーワードが記録される。各キーワードには、優先度、単位、関連キーワードおよび文字列選択基準が対応付けられて記録されている。
図2に示す形式種データベース9には、予め形式種に出現する文字がキーワードとして登録され、加えてキーワードに関連する文字や、異表記同義語等が関連キーワードとして登録される。例えば、形式種=「レシート」におけるキーワード「現金」の関連キーワードとして「お預かり」が登録されている。また、形式種は可能な限り形式種データベースに予め登録しておくことが好ましい。なお、形式種データベース9は、形式種データの一例であり、形式種データの形式や内容はこれに限られない。形式種の例としては、図2に示す「レシート」および「時刻表」の他に、レストランのメニュー、公共料金の請求書、領収書、銀行・郵便局などの通帳、学校の時間割表などが挙げられる。その他、日常生活で提供される紙ベースで特定の形式(または形態)で表現されている情報の、表現形式(または表現形態)の種類は、形式種になり得る。
[文字抽出部2]
文字抽出部2は、入力部20から入力した入力情報から、文字情報(文字列)を抽出する。入力情報は、読み上げ対象となる情報を含むデータである。
入力情報は、入力情報自体が表形式となっている必要はなく、表形式に加工され得る情報も、表形式で表現可能な入力情報に含まれる。例えば、文字列や数値列を含むデータの他、OCR技術を用いて文字列や数値列を抽出できるような画像データ、および解析により文字や数値等の情報が得られるバーコードデータ等が入力情報となり得る。
入力情報のデータ形式は、特に限定されず、例えば、HTML、XML、CSV等のテキストデータ、バーコード、表形式のデータを扱う特定のソフトウエア・アプリケーション用フォーマットのデータ、あるいは画像データ(静止画像または動画像)等が含まれる。
文字抽出部2は、例えば、入力情報がWebコンテンツ等のハイパーテキスト形式であれば、タグ情報の中に含まれる文字列を抽出することができる。また、入力情報が、空白、罫線またはコンマ等で区切られた文字列や数値を含むデータである場合は、当該空白、罫線またはコンマ等文字列や数値がある領域から、文字列の集合を抽出することができる。さらに、入力情報が画像データであれば、文字抽出部2は、OCR技術などを用いて、画像データから文字列を抽出することができる。
文字抽出部2は、抽出した文字列の集合の各文字列の位置を表す情報も抽出する。位置を表す情報は、例えば、文字列の集合におけるある文字列と他の文字列との相対的な位置関係を示す情報が含まれる。具体的には、各文字列を示すデータを、リスト構造、ツリー構造またはリレーショナルモデル等を用いて内部メモリ等に格納することで、文字列の集合を、各文字列の位置を表す情報とともに格納することができる。 このように、文字列抽出部2は、抽出した文字列の集合を、文字列の位置を表す情報とともに音声合成装置10の内部メモリに格納する。例えば、文字抽出部2で抽出された文字列は、表形式として表現可能な状態で音声合成装置10の内部メモリに保持されることが好ましい。一例として、行方向と列方向の2方向に配置された文字列の集合を示すデータとして、前記抽出された文字列を保持することができる。このような2方向に配置された文字列の集合は、少なくとも1方向に配列可能な文字列の集合の一例である。
[形式種判定部3]
形式種判定部3は、文字抽出部2が抽出した文字列の集合と、形式種データベース9に記録されたキーワードとを比較することにより、入力情報の形式種を判定する。例えば、形式種判定部3は、抽出された文字列の集合と、形式種データベース9のキーワードまたは関連キーワードとの一致数または一致率が最も高くなる形式種を入力情報の形式種と判定することができる。このように、形式種判定部3は、抽出された文字列の集合と、キーワードまたは関連キーワードとの一致の度合いに基づいて形式種を判定することができる。
また、レシートに店名が入っている場合などは、店名をキーワードとして形式種データベースに記録することにより、形式種を確定することもできる。
なお、形式種の判定方法は、上記例に限られない。例えば、形式種データベース9にキーワードの出現パターンを示すデータ(例えば、文法データまたは規則データ等)をさらに記録しておき、このキーワードの出現パターンと抽出された文字列の集合とを比較することにより、形式種を判定することもできる。
[文字列分類部4]
文字列分類部4は、形式種判定部3が判定した形式種に応じて、文字抽出部2が抽出した文字列の集合から読み上げに必要な文字列をキーワードごとに選択する。ある1つのキーワードについて選択された文字列は、そのキーワードの文字列として分類される。例えば、文字列分類部4は、形式種判定部3が判定した形式種のキーワードおよび関連キーワードと一致、または部分一致する文字列と、その文字列の付帯文字列を選択することができる。例えば、抽出された文字列が、行方向および列方向の2方向に配置されている場合、キーワードまたは関連キーワードと一致または部分一致した文字列の行方向または列方向の文字列が付帯文字列として選択される。行方向または列方向のどちらを付帯文字列として選択するかは、例えば、形式種データベース9の選択文字列基準データに基づいて決定することができる。 すなわち、付帯文字列を示すデータを、選択文字列基準として、形式種データベース9のキーワードに対応付けて予め記録しておき、文字列分類部4がそのデータに基づいて付帯文字列を選択することができる。これにより、形式種に含まれるキーワードごとに、選択すべき付帯文字列を制御することができる。
これは、入力情報から抽出された文字列の情報の位置に基づいて、キーワードごとに分類する処理の一例である。上記例では、キーワードに一致する文字列と、同じ方向に配置されている文字列が付帯文字列として選択されて、そのキーワードの文字列に分類されることになる。
キーワードと一致する文字列の行方向または列方向の文字列を付帯文字列として選択する例としては、時刻表の数字が挙げられる。通常、時刻表は縦(行)方向に「時」を、横(列)方向に「分」を配置する。そのため、図2に示す例のように、形式種=「時刻表」における文字列選択基準として、「時」の場合は、行方向の数字を、「分」の場合は列方向の数字を付帯文字列として選択するように設定することができる。
また、図2に示す形式種=「レシート」においては、キーワード「現金」の一致する文字列が選択された場合、通常、その列方向に金額が表記されていることから、列方向の数字(金額)を付帯文字列として選択するように設定されている。
また、文字列選択基準として、読み方のルールが記録されてもよい。例えば、読み上げ対象が数字だと、時刻、金額、電話番号、数字などの読みのルールを文字列選択基準で指定するようにしてもよい。
例えば、形式種に出現するキーワードと部分一致した文字列を選択する例としては、図2に示す形式種=「時刻表」におけるキーワード「方面」の場合が挙げられる。通常、時刻表にはキーワード「方面」が存在するが、文字列「方面」だけ読み上げても、ユーザには、どの方面かが不明である。この場合、例えば「○○方面」と、一致部分の前の文字「○○」を含んだ文字列を選択することが好ましい。
なお、付帯文字列の選択方法は、上記例のように、形式種データベース9を参照する方法に限られない。例えば、形式種ごとに、付帯文字列を選択する処理を行うプログラムを記録部8に記録しておき、文字列分類部4がこのプログラムを実行してもよい。
また、文字列分類部4は、形式種のキーワードまたは関連キーワードと一致または部分一致していない文字列であっても、所定の条件を満たす文字列は選択するようにしてもよい。例えば、文字列が2列以上で構成される場合、それらの文字列は表形式の一部であると判断し、読み上げ対象の文字列として選択することができる。
例えば、図3に示すレシートにおいては、中央付近には、「○△□ 2コ \300」と「△□○ 1コ \1,200」が記載されている。この部分には、3列の文字列による表記で、商品名、その個数と値段が記載されている。しかし、一般に、レシートには、「商品名」などのキーワードとなる記載は無い。そのため、レシートにおける商品名の記載に対応するキーワード「商品名」が、形式種データベース9に記録されていても、実際のレシートにおける商品名の標記(「△□○」、「○△□」)に一致しないため、文字列分類部4において読み上げ対象の文字列として選択されない。この場合、文字列分類部4は、文字列が2列以上で構成される場合は、読み上げに必要な文字列として選択することが好ましい。これにより、形式種のキーワードまたは関連キーワードに関連する文字列でなくても、重要な情報を含む部分(例えば、表形式であり、その形式が2列以上の文字列で構成されている部分)を、読み上げ対象の文字列として選択することができる。
[優先順設定部5]
優先順設定部5は、形式種データベース9に記録された優先度を用いて、文字列分類部4が選択した文字列と付帯文字列に対して音声で読み上げる優先順を設定する。優先順設定部5は、例えば、文字列分類部4が選択した文字列のキーワードに対応して記録された優先度を、当該文字列の優先順に設定することができる。図2に示す例のように、形式種データベース9には、予め各キーワードに対応する優先度を記録しておくことで、優先順設定部5は、選択した文字列および付帯文字列に、対応する優先順を設定することができる。また、形式種データベース9において、重要な情報、すなわちユーザができる限り早く知り得たい情報を表すキーワードの優先度を高く設定しておくことが好ましい。また、反対に、不要な情報は優先度を設定しないか、あるいは、優先度をゼロ「0」にすることにより、読み上げ不要な情報は、読みとばすようにしてもよい。
なお、本実施形態では、機能ブロックとして、優先順位設定部5を設け、キーワードごとに分類された文字列に対して、優先順を設定する処理を説明しているが、優先順の設定機能は、後述する読み上げ文生成部6の機能の一部とすることができる。例えば、キーワードとキーワードに対応する入力情報の文字列を記録しておき、読み上げ文生成部6が、形式種データベース9の優先順を参照しながら、前記キーワードに対応する文字列を読み上げ順に配置することもできる。
[読み上げ文生成部6]
読み上げ文生成部6は、文字列分類部4が選択した文字列および付帯文字列を、優先順設定部5で設定された優先順に従って配置し、必要に応じて、形式種データベース9に記録された単位を付加したテキスト文を生成する。例えば、読み上げ文生成部6は、文字列および付帯文字列に対して、形式種データベース9における対応するキーワードの単位を付加することができる。これにより、読み上げられるテキスト文がユーザにとって分かりやすいものとなる。
例えば、図2に示す形式種データベース9のキーワード「分」に関連して選択された数字を表す文字列には、単位「分」が付加される。このように、読み上げ文生成部6は、形式種データベース9のキーワードに対応する単位を参照することにより、適切な単位を付加することができる。
なお、テキスト文生成時に付加されるデータは、上記単位に限られず、その他の必要な情報(例えば、アクセント情報等)が付加されてもよい。
[音声合成部7]
音声合成部7は、読み上げ文生成部6が生成したテキスト文に基づいて、音声波形信号を合成してスピーカ(図示せず)に出力する。スピーカは、音声合成部7から出力された音声波形信号を音声に変換する。これにより、音声合成装置10に入力された入力情報が音声として読み上げられる。音声合成部7の、テキスト文から音声波形信号を生成する機能には、例えば、波形編集方式(コーパスベース方式)、LPC方式、PARCOR方式、LSP方式など公知の技術を用いることができる。
[動作例]
次に、音声読み上げ文生成装置1の動作例を説明する。ここでは、一例として、図3に示すレシートの画像データが入力情報として入力される場合の動作を説明する。
まず、文字抽出部2は、OCR技術を用いて、レシートの画像データをテキストデータに変換する。文字抽出部2は、変換されたテキストデータから、改行またはスペースで区切られた文字列の集合を抽出する。
ここでは、文字列「※※※※」、「〇〇店」、「電話XX-XXXX-XXXX」、「〇〇〇〇年〇〇月〇〇日」、「△△:△△」、「お買い上げ・・・ます」、「012-345-678」、「〇△□」、「2コ」、「¥300」、「012-345-679」、「△□〇」、「1コ」、「¥1,200」、「小計」、「¥1,500」、「外税」、「¥75」、「合計」、「¥1,575」、「現金」、「¥2,000」、「お釣」および「¥425」が抽出される。
次に、形式種判定部3は、これらの抽出された文字列と、形式種データベース9に記録された各形式種のキーワードとを比較して、最も一致度が高い形式種を入力情報の形式種に決定する。一例として、上記の抽出された文字列それぞれについて、図2に示す形式種データベース9のキーワードおよび関連キーワードと一致または部分一致する文字列を検索する。この場合、「小計」、「外税」、「合計」、「現金」、「お釣」が一致する文字列として得られる。形式種判定部3は、入力情報の形式種を、これら5つのキーワードが一致する「レシート」に決定することができる。
次に、文字列分類部4は、文字抽出部2が抽出した文字列の集合のうち、形式種データベース9における形式種=「レシート」のキーワードおよび関連キーワードに一致または部分一致する文字列に対応するキーワードであって、優先度が存在する(優先度=“−”でない)キーワードを選択する。ここでは、キーワード「合計」、「現金」および「お釣り」が選択される。
文字列分類部4は、さらに、上記キーワードの付帯文字列も選択する。このとき、文字列分類部4は、各キーワードにおける文字列選択基準に従って付帯文字列を選択することができる。すなわち、キーワード「合計」については、文字列選択基準が示す「列方向の数字」(=「¥1,575」)、「現金」については「列方向の数字」(=「¥2,000」)、「お釣り」については「列方向の数字」(=「¥425」)が付帯文字列として選択される。
また、文字列分類部4は、形式種データペース9のキーワードと一致しない文字列であって、2列以上で構成される文字列の組、すなわち(「〇△□」、「2コ」、「¥300」)および(「△□〇」、「1コ」、「¥1,200」)も選択する。
優先順設定部5は、文字列分類部4が選択した文字列(以下、選択文字列と称する)に優先順を示すデータを対応付けて記録する。ここでは、文字列分類部4で選択された各キーワードおよび2列以上で構成される文字列の各組に対して、優先順が設定される。図4は、優先順が設定された選択文字列データの一例を示す図である。図4に示す例では、それぞれの選択文字列は、M[i][j]で表される。i(=1、2、3,4,・・・,I)は優先順を表し、j(=1、2、3,4,・・・,J)は各キーワードまたは文字列の組における選択文字列の順番を表す。
文字列分類部4が選択したキーワード(「合計」、「現金」および「お釣り」)にはそれぞれ、形式種データベース9でこれらのキーワードに対応して記録された優先度「1」、「2」、「3」がそのまま優先順として設定される。2列以上で構成される文字列の各組(「〇△□」、「2コ」、「¥300」)および(「△□〇」、「1コ」、「¥1,200」)には、上記3つのキーワードの優先順に続く優先順「4」、「5」がそれぞれ順に設定される。なお、ここでは、形式種データベース9の優先度をそのまま優先順とする場合について説明したが、必ずしも、優先度=優先順である必要はない。
次に、読み上げ文生成部6は、優先順iに従って、選択文字列を配置し音声読み上げ用のテキスト文を生成する。読み上げ文生成部6は、一例として、図4に示す選択文字列M[i][j](i=1,2,・・・5)から、図5に示すテキスト文T[i](i=1,2,・・・5)を生成することができる。以下に、その生成処理の具体例を説明する。
図6は、読み上げ文生成部6が、上記のM[i][j]で表される選択文字列を基に、テキスト文を生成する処理を示すフローチャートである。まず、読み上げ文生成部6は、変数i、jを初期化する(Op1、Op2)。そして、M[i][j]が存在する場合(Op3でYes)は、優先順iのテキスト文T[i]に選択文字M[i][j]を追加する(Op4)。すなわち、T[i]=T[i]+M[i][j]とする。そして、jに1加算する(Op5)。これらのOp4、5の処理は、M[i][j]が存在する限り繰り返され、M[i][j]が存在しなくなると(Op3でNo)、テキスト文[i]が出力される(Op6)。テキスト文[i]が出力されると、iに1加算し(Op7)、i≦Iであれば(Op8でYes)、jを初期化して(Op2)、上記したOp3〜6の処理を実行し、テキスト文T[i]を出力する。このようにして、全ての優先順(i=1,2,・・・I)について、それぞれテキスト文T[i]が出力される。すなわち、全ての優先順、全ての選択文字情報を含むテキスト文T[1],T[2],・・・,T[I]が生成される。
上記の処理により、「合計」、「現金」、「お釣り」の3種の選択されたキーワードは、各々1つの付帯文字列をもつため、生成されるテキスト文T[1]、T[2]およびT[3]は、図5に示すように各々2種の文字列を配置したテキスト文となる。「○△□」と「△□○」の2種の文字列は、各々2つの付帯文字列を持つと考えられるため、生成されるテキスト文T[4]、T[5]は各々3種の文字列を配置したテキスト文となる。
音声合成部7は、読み上げ文生成部6が生成したテキスト文から合成音声を生成する。
[本実施形態による効果等]
以上、本実施形態によれば、入力情報に含まれる文字列の中で、必要な文字列のみ選択し、選択された文字列を優先順の高い順に配置したテキスト文が生成され、読み上げられる。その結果、音声読み上げ情報の冗長性を回避し、かつ、ユーザが所望する情報を迅速に音声読み上げにより伝達することができる。
例えば、図4に示したレシートでは、入力情報の中に、店名、支店名、日付、時刻、電話番号、商品名、各種金額等の文字情報が多数存在する。音声合成装置10は、この入力情報の中から、優先順の与えられた文字情報のみを選択することによって読み上げ対象を必要な文字情報のみに限定する。さらに、音声合成装置10は、その限定された文字情報の中でも優先順の高い選択文字情報をテキスト文の前の方に配置する。これにより、音声読み上げ情報の冗長性を回避し、かつ所望の情報を迅速に伝えることができる音声読み上げ用のテキスト文が生成される。
このように、スーパーなどでの買い物時にユーザが受け取るレシートは店によって表形式が異なる。従来の音声読み上げ文生成技術では、既知でない表形式の入力情報は、表形式ではなく通常のテキスト文章として扱われる。そのため、レシート内のテキスト文字は、すべて音声読み上げ対象となってしまう。その結果、従来技術では、ユーザの望まないテキスト情報の読み上げや、数字が羅列した商品コードなど、ユーザにとって意味不明な音声読み上げを行うため、冗長読み上げが回避していた。
本実施形態の音声合成装置10は、形式種判定部3が形式種データベース9のキーワードを用いて形式種を判定し、判定された形式種に応じた文字列が選択され、優先順を付与される。そのため、形式種データベース9にキーワードおよび優先度を設定するという簡単な準備により様々な形式種に対応することが可能になる。その結果、様々な形式種に対して、読み上げ文字列の選択、および優先順の付与ができるので、様々な形式種に対して冗長読み上げの回避が可能になる。
特に近年では、携帯端末にカメラが搭載される傾向にある。そのため、携帯端末で撮影した画像からOCR技術を用いて文字情報を抽出し、音声読み上げする機能が開発されている。本実施形態の音声合成装置10により、買い物時の商品タグ(値札)や、レシートなど多様な表形式の紙媒体上の表記を撮影してそれを読み上げさせることができれば、例えば、視覚障害者のQOL向上に貢献できる。
また、上記実施形態では、文字列分類部4がキーワードに一致する文字列とともに、当該選択した文字列に関連する付帯文字列も選択する。優先順設定部5は、文字列および付帯文字列の組それぞれに対して優先順を設定し、読み上げ文生成部6は、優先順に従って、文字列および付帯文字列の組を配置してテキスト文を生成する。この構成により、読み上げ対象として選択される文字列の数や文法(並び方の規則)が特に制限されることなく、柔軟にテキスト文を生成することができる。
表形式の入力情報をテンプレートに当てはめてテキスト文を生成する従来の方法では、表形式の入力情報から抽出された文字情報の数が、テンプレートの文字挿入位置の数と必ずしも一致するとは限らない。この場合であっても、正しく音声読み上げするためには、文字情報数と順序(例えば優先順)を考慮した数のテンプレートを事前に用意しなければならず、1つの表形式に対し、膨大なテンプレートを予め設定しなければならなかった。一方、本実施形態によれば、膨大なテンプレートを用意しなくても、入力情報に応じて、読み上げ対象となる文字列を柔軟に選択することができ、様々な形式種の入力情報に対して柔軟に対応し、ユーザにとって分かりやすい音声読み上げをすることができる。
(第2の実施形態)
図7は、第2の実施形態にかかる音声読み上げ文生成装置1aを含む音声合成装置10aの構成を示す機能ブロック図である。図7において、図1と同じ機能ブロックには、同じ番号を付す。図7に示す音声合成装置10aは、図1に示す構成に対して、形式種データ更新部11を更に備える構成である。
形式種データ更新部11は、ユーザから形式種データベース更新情報の入力を受け付けることで、形式種データベース9を更新する。例えば、形式種データベース9のキーワード、関連キーワード、優先度、単位および文字列選択基準を、ユーザにより更新可能とすることができる。形式種データベース更新情報には、例えば、形式種、キーワード、関連キーワード、優先度、単位および文字列選択基準を示すデータが含まれる。形式種データ更新部11は、ユーザが外部から情報を入力するためのユーザインタフェースを含んでもよい。ユーザインタフェースは、GUIでもよいし、スピーカおよびマイクを用いた音声インターフェース(音声IF)でもよい。
これにより、ユーザは、様々な表の種類を、自由にかつ簡便に登録することができる。さらに、ユーザは、登録した表の種類における情報の読み上げ優先度も指定することができる。これにより、ユーザの希望に応じた表形式の読み上げテキストを生成することができる。
上記のとおり、本実施形態によれば、文字情報全てをテキスト文字として読み上げる、あるいは、ユーザの意に反して、優先度の高い情報より、優先度の低い情報を先に読み上げてしまうといった冗長読み上げを回避することができる。さらに、ユーザは、様々な形式種を形式種データベース9へ登録することができる。また、ユーザは、形式種データベース9に登録されている形式種における情報の読み上げ優先度を指定することもできる。その結果、ユーザの希望に応じた形式種の読み上げテキスト文生成することが可能となる。ひいては、冗長読み上げを回避し、迅速にユーザの望む情報を音声読み上げによって伝達することができる。
[変形例1]
形式種データ更新部11は、文字抽出部2が抽出した文字列の集合を参照し、当該文字列の集合の中から必要な文字列を選択して、形式種データベースのキーワードとして登録し、合わせて関連キーワード、優先度、単位、形式種名および文字列選択基準を登録することができる。この際、文字列の集合からのキーワードの選択や、関連キーワード、優先度、単位、形式種名および文字列選択基準の登録は、ユーザからの入力を基に実行してもよいし、形式種データ更新部11が自動的に実行することもできる。
ユーザからの入力を基に、キーワードの選択や、形式種に関する情報の登録を行う場合、形式種データ更新部11は、文字抽出部2が抽出した文字列の集合をユーザに対して出力することが好ましい。これにより、ユーザは、文字抽出部2が抽出した文字列の集合の中から必要とする文字列をキーワードとして形式種データベース9に登録することが可能となる。また、ユーザは、キーワードの登録に合わせて、関連キーワード、優先度、単位、形式種名または文字列選択基準なども、形式種データベース9に登録することが可能となる。
また、主な形式種のパターンは、装置の開発時に予め形式種データベース9に入れておきくことが好ましい。例えば、ユーザに、既存の形式種の情報を出力し、ユーザがそれを修正して新たな形式種として形式種データベース9に登録できるようにしてもよい。
なお、形式種データ更新部11は、音声IFを介してユーザと情報をやり取りすることで、ユーザが視覚障害者であっても、上記の効果を得ることができる。例えば、視覚障害者であるユーザが、入力情報の前提無しに、形式種データベース9を更新して新規に形式種を登録することは難しい場合が多い。当該変形例によれば、文字抽出部2が入力情報に含まれる文字列の集合を抽出し、形式種データ更新部11が音声IF等を介して文字列の集合をユーザに伝えることができる。そのため、ユーザは、対象の入力情報の種類を推測することができるので、文字列の集合から必要とする文字列を選択し、キーワードとして形式種データベースに登録することが可能となる。
形式種データ更新部11が自動的に、新たな形式種のキーワードを抽出して、新しい形式種を形式種データベース9に登録することも可能である。例えば、形式種データ更新部11は、表種データベースに登録済みの既存の形式種やキーワード、関連キーワードを参照し、入力情報に含まれる文字列の語彙と比較することで、新たな形式種を登録するか否かを判断し、新たに登録する場合は、入力情報に含まれる文字列を新たな形式種のキーワードおよび関連キーワードとして新たに表種データベース9に追加することができる。
例えば、入力情報の文字列と一致する既存キーワード、既存関連キーワードを所定の数より多い既存形式種を、新たな設定する形式種とすることができる。この場合、入力情報の文字列を新たな形式種のキーワードに追加することができる。
例えば、レシートは、各店によって記載事項が異なり、表記が同義異音語(例:「現金」と「お預かり」など)になる場合が多い。そのため、上述の自動更新を利用すれば、各店に特化した形式種の情報が自動的に形式種データベース9に追加される。その結果、キーワード抽出や読み上げ文作成の精度が向上する。
[変形例2]
図8は、形式種データ更新部の構成の変形例を示す機能ブロック図である。図8に示す形式種データ更新部11aは、ユーザインタフェース部12(以下、UI部12と称する)、言語処理部13、キーワード候補選択部14および形式種データベース制御部15を有する。
言語処理部13は、文字抽出部2が抽出した文字列の集合を言語解析する。キーワード候補選択部14は、言語処理部13の言語解析結果に基づいて、文字列の集合の中からキーワード候補を選択する。UI部12は、キーワード候補選択部14が選択したキーワード候補を形式種データベース更新情報として外部へ出力、または形式種データベース更新情報を外部から入力する。形式種データベース制御部15は、形式種データベース9の情報を読み込む処理、あるいは、形式種データベース更新情報に基づいて、形式種データベース9を更新する処理を実行する。
言語処理部13は、例えば、形態素解析により、各文字列の品詞を解析することが好ましい。これにより、キーワード候補選択部14は、各文字列の品詞を、キーワード候補の選定指標として採用することができる。なお、言語処理部13の機能は、音声合成部7が備える機能の一部を兼用することができる。すなわち、通常、音声合成部7は、言語解析機能を備えるので、この機能を形式種データ更新部11aで利用することができる。
キーワード候補選択部14は、各文字列の言語解析結果から、キーワード候補としてふさわしくない文字情報をマスクすることができる。例えば、ある文字列を言語解析した結果、その文字列の品詞が、固有名詞、数詞または未知語(言語解析が持つ言語辞書に未登録の語彙)である場合は、キーワード候補から除外することができる。図3に示すレシートを例に挙げると、「○○店」の「○○」は店名で、一般には地名などの固有名詞のみ表示されるので、これをキーワードとして登録するのは好ましくない場合が多い。同様に、レシート中に含まれる数字は、日時、金額等を示すものであり、これをキーワードとして登録するのも好ましくない。したがって、キーワード候補選択部14が、固有名詞、数詞または未知語をキーワード候補から除外することによって、レシート中の「〇〇店」や日時、金額などがキーワードとして登録するのを防ぐことができる。
なお、例えば、著名なサプライヤのチェーン店等のレシートに記載される店名の前に、サプライヤの著名な名称がついている場合は、多くのレシートの表現形式が同じ場合が多いので、その場合にはサプライヤの名称をキーワードとして登録することが好ましい。
UI部12は、キーワード候補選択部14が選択したキーワード候補を、ユーザに出力する機能、ユーザがキーワード候補から選択したキーワードを入力する機能、ユーザが選択したキーワードに付帯する関連キーワード、優先度、単位、形式種または文字列選択基準などを入力する機能を備えることが好ましい。
以上の本変形例によれば、入力情報が未登録の形式種であっても、入力情報中に含まれる文字列のうち、キーワード候補としてふさわしい文字列のみをユーザ提示することが可能になる。その結果、未登録の形式種データベースの作成、更新を簡便に行うことが可能となる。
なお、本変形例では、キーワード候補の選択方法は、上記した文字列の品詞を用いる方法に限られない。例えば、言語処理部13は、言語解析結果として文節境界や係り受けなどの情報を提供し、キーワード候補選択部14は、これらの情報をキーワード候補の選択基準に採用することができる。
例えば、キーワード候補選択部14は、言語処理部13の言語解析結果である、文節境界と品詞の情報を利用すれば、文字列が「単語」であるのか、文章の一部である「フレーズ」であるのかを判定できる。一般に、形式種部分の文字は単語単位で形成され、文章となるケースは稀である。文章となるのは、例えば、レシートの中の「お買い上げ・・・」などのメッセージだったり、広告だったりする場合が大半である。したがって、キーワード候補選択部14は、文字列が単語であればキーワード候補とし、フレーズであればキーワード候補から外す、という判断をすることができる。
(第3の実施形態)
図9は、第3の実施形態にかかる音声読み上げ文生成装置1bを含む音声合成装置10bの構成を示す機能ブロック図である。図9において、図1と同じ機能ブロックには、同じ番号を付す。図9に示す音声合成装置10bは、図1に示す構成に対して、環境情報取得部16を更に備える構成である。
環境情報取得部16は、ユーザの環境情報を入力し、形式種判定部3、文字列分類部4および優先順設定部5に通知する。前記形式種判定部、文字列分類部および優先順設定部は、通知された環境情報を用いて、それぞれ処理を行う。
環境情報取得部16は、例えば、ユーザの位置情報および現在の時刻情報を取得する。ユーザの位置情報は、環境情報取得部16がGPSを搭載すること取得することができる。
形式種判定部3は、環境情報取得部16が取得したユーザの位置情報を、形式種の判定に用いることができる。形式種判定部3は、例えば、ユーザが位置する場所により、形式種データベース9における形式種の探索順を制御することができる。具体的には、形式種判定部3は、ユーザの位置情報と探索順とを予め対応付けて記録したデータを参照することにより、探索順を決定することができる。
一例として、現在のユーザ位置情報が、スーパーを示していれば、入力情報の形式種は、時刻表よりもレシートである可能性が高いので、形式種判定部3は、形式種データベース9における形式種の探索順を、レシート、時刻表とする。また、現在のユーザ位置情報が駅を示している場合は、時刻表を先に検索し、その後、レシートを検索することができる。これにより、形式種判定にかかる時間コストを抑えることができる上、形式種判定の精度向上が見込める。
なお、形式種判定部3による環境情報の利用は、上記の形式種の探索順の決定に限られない。例えば、文字抽出部2が抽出した文字列の集合と形式種データベース9のキーワードとの一致度合いに加えて、環境情報を形式種の判定基準に加えることができる。また、形式種判定部3は、現在時刻を形式種の判定に使用することができる。
文字列分類部4は、環境情報取得部16が取得したユーザの位置情報および現在時刻を、文字列の選択に用いることができる。例えば、ユーザ位置情報が駅を示しており、入力情報の形式種が時刻表と判定された場合、これから電車にのる可能性が高いと判断できる。そのため、文字列分類部4は、選択する文字列を、現在時刻より後の時刻表を表す文字列に限定することができる。これにより、現在時刻より前の無駄な時刻表情報を音声で冗長読み上げすることが無くなり、ユーサが必要な情報のみを迅速に知ることが可能となる。なお、現在時刻に限らず、日時に関する情報も、環境情報として利用されてもよい。このように、文字列分類部4は、ユーザの位置情報や時間情報等の環境情報を用いて選択する文字列を決定することにより、ユーザの環境に応じた適切な文字列を読み上げ対象として選択することができる。
優先順設定部5は、優先順の設定に、環境情報を用いることができる。例えば、ユーザの位置情報に基づいて、各キーワードの優先順を変更することができる。一例として、形式種がレシートの場合、レシートを受け取ってすぐにその内容を音声読み上げする場合は、ユーザは店舗内にいるので、通常、位置情報は「店舗」を示すことになる。形式種がレシートで、位置情報が「店舗」を示す場合に、優先順設定部5は、レシートに記載された店舗名や日時などの読み上げ優先順位を低くするか、あるいは、読み上げ不要と判断することができる。これに対し、自宅に戻ってからレシートを確認する場合、位置情報は「自宅」を示すことになる。このように、位置情報が店舗以外(例えば、自宅)を示す場合、レシートに記載された店舗名や日時をまず先に知る必要があるため、優先順設定部5は、店舗名や日時に関する情報の読み上げ優先順位を上げることができる。その結果、ユーザの環境に応じて、必要な情報を音声読み上げることが可能になる。
本実施形態によれば、ユーザの環境情報を、形式種の判定、読み上げ対象文字列の選択、優先順の設定に用いることができるので、ユーザの環境に応じた適切な読み上げが可能になる。なお、本実施形態では、形式種判定部3、文字列分類部4および優先順設定部5が環境情報を用いて処理を行う例を説明したが、これらのうち、少なくとも1つが環境情報を用いて処理を行ってもよい。
(第4の実施形態)
図10は、第4の実施形態にかかる音声読み上げ文生成装置1cを含む音声合成装置10cの構成を示す機能ブロック図である。図10において、図1と同じ機能ブロックには、同じ番号を付す。図10に示す音声合成装置10cは、図1に示す構成に対して、形式種設定部17を更に備える構成である。
形式種設定部17は、ユーザから形式種の指定を受け付け、形式種判定部3にユーザが指定する形式種を通知する。形式種判定部17は、例えば、GUIまたは音声IF等のユーザインタフェースの機能を用いてユーザから形式種の指定を受け付けることができる。形式種判定部17は、例えば、入力情報が音声合成装置10cに入力された場合に、ユーザに対して形式種の指定を促すメッセージを出力してもよい。これにより、入力情報に対応する形式種の指定をより確実に取得することができる。
上記構成により、ユーザが音声合成装置10cに入力された入力情報の内容を知っている場合に、その入力情報の形式種を予め設定することができる。そのため、形式種判定にかかる時間コストを抑え、かつ形式種判定の誤りを抑制することが可能となる。
以上、本発明の実施形態を、第1〜第4の実施形態として例示したが、本発明の適用可能な範囲は、上記の実施形態に限定されない。また、上記第1〜4の実施形態のうち少なくとも2つの実施形態の組み合わせも、本発明の実施形態に含まれる。
以上の第1〜第4の実施形態に関し、さらに以下の付記を開示する。
(付記1)
読み上げ対象となり得る情報の表現形式の種類である形式種毎に、各形式種に含まれるキーワードおよび当該キーワードに対応する読み上げ要否または優先度を記録している形式種データ記録部にアクセス可能であり、
入力情報を入力する入力部と、
該入力された入力情報に含まれる文字列の集合と該文字列の位置を表す情報を抽出する文字抽出部と、
前記文字抽出部が抽出した文字列の集合と、前記形式種データ記録部に記録された前記キーワードとを比較することにより、前記入力情報の形式種を判定する形式種判定部と、
前記文字列の位置を表す情報に基づき、前記文字抽出部が抽出した文字列の集合を、前記形式種判定部が判定した前記入力情報の形式種に含まれる各キーワードに対応する文字列に分類する文字列分類部と、
前記文字列分類部が分類した各キーワードに対応する文字列を、前記形式種データ記録部に各キーワードに対応して記録されている読み上げの要否または読み上げの優先順に基づいて配置することにより、音声読み上げ用のテキスト文を生成する読み上げ文生成部とを備える、音声読み上げ文生成装置。
(付記2)
ユーザから前記形式種データの更新情報の入力を受け付ける更新情報入力部と、
前記更新情報に基づいて、前記形式種データ記録部のデータに対して追加、更新または削除を行う形式種データ更新部をさらに備える、付記1に記載の音声読み上げ文生成装置。
(付記3)
前記形式種データ更新部は、ユーザから前記形式種データの更新情報の入力を受け付ける場合に、前記文字抽出部が前記入力情報から抽出した文字列をユーザに対して出力する、付記2に記載の音声読み上げ文生成装置。
(付記4)
前記形式種データ更新部は、前記文字抽出部が抽出した前記文字列の集合を言語解析する言語処理部をさらに有し、前記言語処理部による言語解析の結果を用いて、前記文字列の集合のうちキーワード候補となる文字列を選択してユーザに対して出力する、付記3に記載の音声読み上げ文生成装置。
(付記5)
前記形式種データ更新部は、前記入力情報に含まれる文字列の集合と、前記形式種データ記録部に記録された前記各形式種に含まれるキーワードとを比較することで、新たな形式種を登録するか否かを判断し、新たに登録する場合は、前記入力情報に含まれる文字列を新たな形式種のキーワードおよび関連キーワードとして新たに表種データ記録部に追加する、付記2に記載の音声読み上げ文生成装置。
(付記6)
前記入力情報とともに、ユーザの環境情報を入力する環境情報取得部をさらに備え、
前記形式種判定部、文字列分類部および優先順設定部の少なくとも1つが、前記環境情報に応じて、前記形式種の判定、前記文字列の分類あるいは前記優先順の設定を実行する、付記1〜5のいずれかに記載の音声読み上げ文生成装置。
(付記7)
前記形式種判定部は、ユーザからの形式種の指定を受け付け、前記指定に応じて形式種を判定する、付記1〜6のいずれか1項に記載の音声読み上げ文生成装置。
(付記8)
前記読み上げ文生成部が生成した前記テキスト文を読み上げる音声合成部をさらに備える、付記1〜7のいずれか1項に記載の音声読み上げ文生成装置。
(付記9)
前記形式種データ記録部は、前記形式種に含まれるキーワードに対応する文字列選択基準を示すデータをさらに記録し、
前記文字列分類部は、前記形式種データ記録部における、前記入力情報に含まれるキーワードに対応する文字列選択基準を参照して、前記入力情報に含まれるキーワードに対応する文字列を選択することにより前記分類を行う、付記1〜8のいずれか1項に記載の音声読み上げ文生成装置。
(付記10)
前記文字抽出部は、少なくとも1つの方向に配列可能な文字列の集合を、前記入力情報から抽出し、
前記文字列分類部は、前記入力情報の形式種に含まれるキーワードに一致または部分一致する文字列、またはこの文字列と同じ方向に配置されている文字列を、前記入力情報の形式種に含まれるキーワードに対応する文字列として選択することにより前記分類を行う、付記1〜9のいずれか1項に記載の音声読み上げ文生成装置。
(付記11)
前記形式種データ記録部は、前記形式種に含まれる前記キーワードに対応する単位をさらに記録し、
前記読み上げ文生成部は、音声読み上げ用のテキスト文を生成する際に、前記文字列分類部が分類した文字列に対して、当該文字列に対応するキーワードに対応する単位を、前記文字列に付加する、付記1〜10のいずれか1項に記載の音声読み上げ文生成装置。
(付記12)
前記コンピュータは、読み上げ対象となり得る情報の表現形式の種類である形式種毎に、形式種に含まれるキーワードおよび当該キーワードに対応する読み上げ要否または優先度を記録している形式種データ記録部にアクセス可能なコンピュータに、音声読み上げ文の生成処理を実行させる音声読み上げ文の生成プログラムであって、
入力情報を入力する入力部と、
当該入力された入力情報に含まれる文字列の集合と該文字列の位置を表す情報を抽出する文字抽出処理と、
前記文字抽出処理で抽出された文字列の集合と、前記形式種データ記録部に記録された前記キーワードとを比較することにより、前記入力情報の形式種を判定する形式種判定処理と、
前記文字列の位置を表す情報に基づき、前記文字抽出処理で抽出された文字列の集合を、前記形式種判定処理で判定された前記入力情報の形式種に含まれる各キーワードに対応する文字列に分類する文字列分類処理と、
前記文字列分類処理で分類された各キーワードに対応する文字列を、各キーワードに対応して記録されている前記読み上げの要否または前記読み上げの優先順に基づいて配置することにより、音声読み上げ用のテキスト文を生成する読み上げ文生成処理とをコンピュータに実行させる、音声読み上げ文生成プログラム。
(付記13)
コンピュータによって実行される音声読み上げ文の生成方法であって、
前記コンピュータは、読み上げ対象となり得る情報の表現形式の種類である形式種毎に、各形式種に含まれるキーワードおよび当該キーワードに対応する読み上げ要否または優先度を記録している形式種データ記録部にアクセス可能であり、
前記コンピュータが、入力情報を入力する入力工程と、
前記コンピュータが、前記入力された入力情報に含まれる文字列の集合と該文字列の位置を表す情報を抽出する文字抽出工程と、
前記コンピュータが、前記文字抽出工程で抽出された文字列の集合と、前記形式種データ記録部に記録された前記キーワードとを比較することにより、前記入力情報の形式種を判定する形式種判定工程と、
前記コンピュータが、前記文字列の位置を表す情報に基づき、前記文字抽出工程で抽出された文字列の集合を、前記形式種判定工程で判定された前記入力情報の形式種に含まれる各キーワードに対応する文字列に分類する文字列分類工程と、
前記コンピュータが、前記文字列分類処理で分類された各キーワードに対応する文字列を、前記形式種データ記録部に各キーワードに対応して記録されている読み上げの要否または読み上げの優先順に基づいて配置することにより、音声読み上げ用のテキスト文を生成する読み上げ文生成工程と含む、音声読み上げ文生成方法。
第1の実施形態における音声読み上げ文生成装置を含む音声合成装置の構成を表す機能ブロック図 形式種データベースに記録されるデータの内容の一例を示す図 レシートの一例を示す図 優先順が設定された選択文字列データの一例を示す図 読み上げ文生成部により生成されるテキスト文の例を示す図 読み上げ文生成部が、テキスト文を生成する処理を示すフローチャート 第2の実施形態にかかる音声合成装置の構成を示す機能ブロック図 形式種データ更新部の構成の変形例を示す機能ブロック図 第3の実施形態にかかる音声合成装置の構成を示す機能ブロック図 第4の実施形態にかかる音声読み上げ文生成装置を含む音声合成装置の構成を示す機能ブロック図
符号の説明
1、1a、1b、1c 文生成装置
2 文字抽出部
3 形式種判定部
4 文字列分類部
5 優先順設定部
6 文生成部
7 音声合成部
8 記録部
9 形式種データベース
10、10a、10b、10c 音声合成装置
11、11a 形式種データ更新部
12 ユーザインタフェース部
13 言語処理部
14 キーワード候補選択部
15 形式種データベース制御部
16 環境情報取得部
17 形式種設定部

Claims (7)

  1. 読み上げ対象となり得る情報の表現形式の種類である形式種毎に、各形式種に含まれるキーワードおよび当該キーワードに対応する読み上げ要否または優先度を記録している形式種データ記録部にアクセス可能であり、
    入力情報を入力する入力部と、
    該入力された入力情報に含まれる文字列の集合と該文字列の位置を表す情報を抽出する文字抽出部と、
    前記文字抽出部が抽出した文字列の集合と、前記形式種データ記録部に記録された前記キーワードとの一致の度合いが最も高くなる形式種を、前記入力情報の形式種判定する形式種判定部と、
    前記文字列の位置を表す情報に基づき、前記文字抽出部が抽出した文字列の集合を、前記形式種判定部が判定した前記入力情報の形式種に含まれる各キーワードに対応する文字列に分類する文字列分類部と、
    前記文字列分類部が分類した各キーワードに対応する文字列を、各キーワードに対応して記録されている前記読み上げの要否または前記読み上げの優先順に基づいて配置することにより、音声読み上げ用のテキスト文を生成する読み上げ文生成部とを備える、音声読み上げ文生成装置。
  2. ユーザから前記形式種データの更新情報の入力を受け付ける更新情報入力部と、
    前記更新情報に基づいて、前記形式種データ記録部のデータに対して追加、更新または削除を行う形式種データ更新部をさらに備える、請求項1に記載の音声読み上げ文生成装置。
  3. 前記形式種データ更新部は、ユーザから前記形式種データの更新情報の入力を受け付ける場合に、前記文字抽出部が前記入力情報から抽出した文字列をユーザに対して出力する、請求項2に記載の音声読み上げ文生成装置。
  4. 前記形式種データ更新部は、前記文字抽出部が抽出した前記文字列の集合を言語解析する言語処理部をさらに有し、前記言語処理部による言語解析の結果を用いて、前記文字列の集合のうちキーワード候補となる文字列を選択してユーザに対して出力する、請求項3に記載の音声読み上げ文生成装置。
  5. 前記入力情報とともに、ユーザの環境情報を入力する環境情報取得部をさらに備え、
    前記形式種判定部、文字列分類部および優先順設定部の少なくとも1つが、前記環境情報に応じて、前記形式種の判定、前記文字列の分類あるいは前記優先順の設定を実行する、請求項1〜4のいずれかに記載の音声読み上げ文生成装置。
  6. み上げ対象となり得る情報の表現形式の種類である形式種毎に、形式種に含まれるキーワードおよび当該キーワードに対応する読み上げ要否または優先度を記録している形式種データ記録部にアクセス可能なコンピュータに、音声読み上げ文の生成処理を実行させる音声読み上げ文の生成プログラムであって、
    入力情報を入力する入力部と、
    当該入力された入力情報に含まれる文字列の集合と該文字列の位置を表す情報を抽出する文字抽出処理と、
    前記文字抽出処理で抽出された文字列の集合と、前記形式種データ記録部に記録された前記キーワードの一致の度合いが最も高くなる形式種を、前記入力情報の形式種判定する形式種判定処理と、
    前記文字列の位置を表す情報に基づき、前記文字抽出処理で抽出された文字列の集合を、前記形式種判定処理で判定された前記入力情報の形式種に含まれる各キーワードに対応する文字列に分類する文字列分類処理と、
    前記文字列分類処理で分類された各キーワードに対応する文字列を、各キーワードに対応して記録されている前記読み上げの要否または前記読み上げの優先順に基づいて配置することにより、音声読み上げ用のテキスト文を生成する読み上げ文生成処理とをコンピュータに実行させる、音声読み上げ文生成プログラム。
  7. コンピュータによって実行される音声読み上げ文の生成方法であって、
    前記コンピュータは、読み上げ対象となり得る情報の表現形式の種類である形式種毎に、各形式種に含まれるキーワードおよび当該キーワードに対応する読み上げ要否または優先度を記録している形式種データ記録部にアクセス可能であり、
    前記コンピュータが、入力情報を入力する入力工程と、
    前記コンピュータが、前記入力された入力情報に含まれる文字列の集合と該文字列の位置を表す情報を抽出する文字抽出工程と、
    前記コンピュータが、前記文字抽出工程で抽出された文字列の集合と、前記形式種データ記録部に記録された前記キーワードとの一致の度合いが最も高くなる形式種を、前記入力情報の形式種判定する形式種判定工程と、
    前記コンピュータが、前記文字列の位置を表す情報に基づき、前記文字抽出工程で抽出された文字列の集合を、前記形式種判定工程で判定された前記入力情報の形式種に含まれる各キーワードに対応する文字列に分類する文字列分類工程と、
    前記コンピュータが、前記文字列分類処理で分類された各キーワードに対応する文字列を、前記形式種データ記録部に各キーワードに対応して記録されている前記読み上げの要否または前記読み上げの優先順に基づいて配置することにより、音声読み上げ用のテキスト文を生成する読み上げ文生成工程と含む、音声読み上げ文生成方法。
JP2008290315A 2008-11-12 2008-11-12 音声読み上げ文生成装置、音声読み上げ文生成方法および音声読み上げ文生成プログラム Active JP5245737B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008290315A JP5245737B2 (ja) 2008-11-12 2008-11-12 音声読み上げ文生成装置、音声読み上げ文生成方法および音声読み上げ文生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008290315A JP5245737B2 (ja) 2008-11-12 2008-11-12 音声読み上げ文生成装置、音声読み上げ文生成方法および音声読み上げ文生成プログラム

Publications (2)

Publication Number Publication Date
JP2010117529A JP2010117529A (ja) 2010-05-27
JP5245737B2 true JP5245737B2 (ja) 2013-07-24

Family

ID=42305237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008290315A Active JP5245737B2 (ja) 2008-11-12 2008-11-12 音声読み上げ文生成装置、音声読み上げ文生成方法および音声読み上げ文生成プログラム

Country Status (1)

Country Link
JP (1) JP5245737B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2010109575A1 (ja) * 2009-03-23 2012-09-20 パイオニア株式会社 音声情報出力装置
JP6417686B2 (ja) * 2014-03-18 2018-11-07 富士通株式会社 音声出力順制御プログラム、音声出力順制御方法及び音声出力順制御装置
CN111459448A (zh) * 2020-01-19 2020-07-28 托普朗宁(北京)教育科技有限公司 一种辅助阅读的方法、装置、存储介质及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11134166A (ja) * 1997-10-30 1999-05-21 Nippon Telegr & Teleph Corp <Ntt> 読み上げ文生成方法および装置と読み上げ文生成プログラムを記録した記録媒体
JP3992642B2 (ja) * 2003-05-01 2007-10-17 日本電信電話株式会社 音声シナリオ生成方法、音声シナリオ生成装置、音声シナリオ生成プログラム

Also Published As

Publication number Publication date
JP2010117529A (ja) 2010-05-27

Similar Documents

Publication Publication Date Title
JP4050755B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
CN102549652B (zh) 信息检索装置
US9280967B2 (en) Apparatus and method for estimating utterance style of each sentence in documents, and non-transitory computer readable medium thereof
US8719027B2 (en) Name synthesis
CN102483883B (zh) 电子阅读装置
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
US7987093B2 (en) Speech synthesizing device, speech synthesizing system, language processing device, speech synthesizing method and recording medium
JP2009140466A (ja) 使用者製作問答データに基づいた会話辞書サービスの提供方法及びシステム
JP2014240884A (ja) コンテンツ作成支援装置、方法およびプログラム
JP4738847B2 (ja) データ検索装置および方法
van Heuven et al. Analysis and synthesis of speech: strategic research towards high-quality text-to-speech generation
JP5245737B2 (ja) 音声読み上げ文生成装置、音声読み上げ文生成方法および音声読み上げ文生成プログラム
CN110431546B (zh) 发音者检索装置、发音者检索方法以及发音者检索程序
JP4618045B2 (ja) 範囲情報抽出装置、範囲情報抽出方法及び範囲情報抽出プログラム
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
Núñez et al. Phonetic normalization for machine translation of user generated content
CN111968619A (zh) 控制语音合成发音的方法及装置
JP2009104475A (ja) 類似文書検索装置、類似文書検索方法およびプログラム
JP2009230173A (ja) 同義語変換システム、同義語変換方法および同義語変換用プログラム
JP4677869B2 (ja) 音声出力機能付き情報表示制御装置およびその制御プログラム
JP4934819B2 (ja) 情報抽出装置、その方法及びプログラム
JP2005099741A (ja) 音声辞書作成装置、音声辞書作成方法、及びプログラム
JP2007086404A (ja) 音声合成装置
Sunitha et al. VMAIL voice enabled mail reader
JP3154875B2 (ja) 漢字変換学習装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110808

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130325

R150 Certificate of patent or registration of utility model

Ref document number: 5245737

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160419

Year of fee payment: 3