JP5334716B2 - 文字情報提示制御装置及びプログラム - Google Patents
文字情報提示制御装置及びプログラム Download PDFInfo
- Publication number
- JP5334716B2 JP5334716B2 JP2009158780A JP2009158780A JP5334716B2 JP 5334716 B2 JP5334716 B2 JP 5334716B2 JP 2009158780 A JP2009158780 A JP 2009158780A JP 2009158780 A JP2009158780 A JP 2009158780A JP 5334716 B2 JP5334716 B2 JP 5334716B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- information
- timing
- word
- character information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
(1)原稿を理想的なタイミングで読み上げたときの音声信号を事前に録音しておき、その音声信号、及び原稿が電子化されたテキスト情報に基づいて、原稿中の単語が発話された時間情報(発話開始時刻及び発話時間長)を生成する。
(2)単語が発話された時間情報及び原稿のテキスト情報に基づいて、文節等のまとまった単位の時間情報(発話開始時刻及び発話時間長)を生成する。
(3)発話者が原稿を発話する際には、文節等のまとまった単位の時間情報によるタイミングにて、その発話タイミングを反映した文字情報と共に、原稿を構成する連続した文字情報を逐次提示する。
(4)前記(2)において生成した文節等のまとまった単位の時間情報を、予め指定された時間尺に基づいて変換する。すなわち、発話開始時刻及び発話時間長を、予め指定された時間尺を基準にした比率で伸縮させることにより、新たな時間情報に変換する。
(5)発話者が原稿を発話する際には、前記(4)において生成された、文節等のまとまった単位の新たな時間情報によるタイミングにて、その発話タイミングを反映した文字情報と共に、原稿を構成する連続した文字情報を逐次提示する。
まず、本発明の実施形態による文字情報提示制御装置の構成について説明する。図1は、文字情報提示制御装置1の構成を示すブロック図である。この文字情報提示制御装置1は、タイミング設定部2、タイミング変換部3及び文字情報提示部4を備えている。
次に、図1に示した文字情報提示制御装置1のタイミング設定部2について詳細に説明する。図2は、タイミング設定部2の構成を示すブロック図である。このタイミング設定部2は、音声認識手段10、分割手段20、DP(Dynamic Programming)マッチング手段30及びタイミング情報生成手段40を備えている。前述したとおり、タイミング設定部2は、原稿の音声信号及びテキスト情報を入力し、原稿を構成する文字情報を単語単位及び文節単位に分割し、文節単位の時間情報をタイミング情報として生成し出力する。
次に、図1に示した文字情報提示制御装置1の処理について説明する。図3は、文字情報提示制御装置1の処理を説明するフローチャートである。ステップS201〜ステップS209はタイミング設定部2により実行され、ステップS210はタイミング変換部3により実行され、ステップS211は文字情報提示部4により実行される。以下、図2及び図3を参照して説明する。
まず、発話者により発話される原稿を準備する。原稿は、読上者により読み上げられて音声信号として文字情報提示制御装置1へ入力される。また、原稿は、単語分割及び文節分割等の処理のために予め電子化され、テキスト情報として文字情報提示制御装置1へ入力される。
図3に戻って、タイミング設定部2の分割手段20が、原稿のテキスト情報を入力すると(ステップS201)、分割手段20の単語分割手段21は、原稿のテキスト情報を単語単位に区切った分割データに変換し、単語情報としてDPマッチング手段30に出力する(ステップS202)。そして、ステップS203及びステップS206へ移行する。具体的には、単語分割手段21は、形態素解析手法により、日本語辞書23に登録された単語情報を参照して、入力したテキスト情報を、最小単位の形態素(単語)に分割し、分割した複数の単語からなる単語列を生成する。ここで、日本語辞書23には、単語毎に、名詞、動詞等の品詞情報が登録されており、少なくとも、原稿のテキスト情報を構成する単語に関する品詞情報が登録されているものとする。単語分割手段21として、例えば、形態素解析器(「ChaSen」、<http://chasen-legacy.sourceforge.jp/>を参照)が用いられる。
図3に戻って、タイミング設定部2の音声認識手段10は、読上者により読み上げられた原稿の音声信号を入力し、図示しない記録部に録音する(ステップS204)。尚、発話者は、本番時にはこの録音された音声の再現を目指すことになるため、ここでは、理想的な発話となるように丹念に読み上げられた音声信号が入力されることが望ましい。すなわち、理想的な発話を得るため、本番時の発話者とは異なり、発話訓練を受けた発話者(アナウンサー等)が原稿を読み上げることが望ましい。
まず、音声認識手段10は、音声分析手段11によって、外部から入力された音声信号(入力音声)を分析し、その音声信号の特徴量を特徴ベクトルとして抽出する(ステップS204)。そして、音声認識手段10は、探索手段12によって、言語モデル13から得られる確率値(言語スコア)をもとに、接続される出力系列(単語)の候補を順次リストアップする。また、音声認識手段10は、探索手段12によって、リストアップした出力系列の探索候補毎に、発音辞書15で示される発音に対応する各音素の音響モデル14における特徴量と、入力音声の特徴量との間の類似度(確率値)を音響スコアとして算出する。また、音声認識手段10は、探索手段12によって、音響スコアと言語スコアとの積が最大となる出力系列(単語列)を認識結果として出力する。この認識結果に付随して、各単語が発話された開始点の時刻(発話開始時刻)、及びその単語が発話された時間長(発話時間長)を含む時間情報を生成し、その時間情報を認識結果としてDPマッチング手段30に出力する(ステップS205)。
(1)上坂吉則、尾関和彦著、「パターン認識と学習のアルゴリズム」、文一総合出版、pp.91−108
(2)“DPマッチングとは?”、[online]、インターネット<URL:http://sail.i.ishikawa-nct.ac.jp/pattern/dp/dp.html>
タイミング変換部3は、タイミング設定部2のタイミング情報生成手段40からタイミング情報を入力し、予め指定された時間尺に合うように、タイミング情報に含まれる発話開始時刻及び発話時間長を変換し、変換したタイミング情報を文字情報提示部4に出力する(ステップS210)。具体的には、タイミング変換部3は、発話者による発話時間が、予め指令された時間尺内に収まるようにするため、タイミング情報における最後の単語の発話開始時刻をtendword、最後の単語の発話時間長をdendwordとした場合、以下の式により、原稿全体が発話されたときの時間長Ttotalを算出する。
図3に戻って、文字情報提示部4は、タイミング設定部2またはタイミング変換部3からタイミング情報を入力し、タイミング情報が示す文節単位の発話時間及び発話時間長に応じた発話タイミングを、原稿中の文字情報の形態に反映し、原稿を構成する文字情報及び発話タイミングが反映された形態の文字情報を表示装置へ出力する(ステップS211)。
2 タイミング設定部
3 タイミング変換部
4 文字情報提示部
10 音声認識手段
11 音声分析手段
12 探索手段
13 言語モデル
14 音響モデル
15 発音辞書
20 分割手段
21 単語分割手段
22 文節分割手段
23 日本語辞書
30 DPマッチング手段
40 タイミング情報生成手段
Claims (3)
- 発話者により発話される原稿の文字情報を表示装置へ提示する文字情報提示制御装置において、
前記原稿の音声信号に基づいて、前記原稿の文字情報を構成する単語単位の発話開始時刻を算出し、前記原稿の文字情報を提示するタイミングを示す発話開始時刻及び発話時間長を設定するタイミング設定部と、
前記タイミング設定部により設定された発話開始時刻及び発話時間長に基づいて、前記原稿の文字情報を前記表示装置へ提示する文字情報提示部と、
を備え、
前記タイミング設定部は、前記原稿が読み上げられた際の音声信号に基づいて、前記原稿の文字情報を構成する単語単位の発話開始時刻及び発話時間長を算出し、前記原稿が電子化された際のテキスト情報に基づいて、前記原稿の文字情報を単語に分割し、前記単語単位の発話開始時刻及び発話時間長と前記分割した単語とから、前記原稿の連続した文字情報を所定長に区切った場合の前記区切られた文字情報毎の発話開始時刻及び発話時間長を算出し、前記区切られた文字情報毎の発話開始時刻及び発話時間長をタイミング情報として設定し、
前記文字情報提示部は、前記タイミング設定部により設定されたタイミング情報の発話開始時刻及び発話時間長に基づいて、前記タイミング情報に含まれる前記区切られた文字情報を、前記発話者により発話されるタイミングであることを示す形態で前記表示装置へ提示する、ことを特徴とする文字情報提示制御装置。 - 請求項1に記載の文字情報提示制御装置において、
前記タイミング設定部は、
前記音声信号と予め記憶された音声周波数パターンとの間で周波数マッチングを行い、予め記憶された単語の辞書を用いて、単語単位の発話開始時刻及び発話時間長を認識結果として生成する音声認識手段と、
単語の形態素解析により、前記テキスト情報を単語及び文節に分割し、前記分割した複数の単語からなる単語情報及び複数の文節からなる文節情報を生成する分割手段と、
前記音声認識手段により生成された認識結果に含まれる単語と、前記分割手段により生成された単語情報に含まれる単語とを比較し、一致しないと判定した場合、前記認識結果に含まれる一致しない単語の代わりに前記単語情報に含まれる単語を用いて、単語単位の発話開始時刻及び発話時間長をマッチング結果として生成するマッチング手段と、
前記マッチング手段により生成された単語単位の発話開始時刻及び発話時間長のマッチング結果を、前記分割手段により生成された文節情報を用いて、文節単位の発話開始時刻及び発話時間長に変換し、前記文節単位の発話開始時刻及び発話時間長をタイミング情報として生成するタイミング情報生成手段と、を備え、
前記文字情報提示部は、
前記タイミング情報生成手段により生成されたタイミング情報に含まれる発話開始時刻になると、前記発話開始時刻に対応する文節の文字情報を、前記発話開始時刻に対応する発話時間長の間、前記原稿における他の文字情報とは異なる形態で前記表示装置へ提示する、ことを特徴とする文字情報提示制御装置。 - コンピュータを、請求項1または2に記載の文字情報提示制御装置として機能させるための文字情報提示制御プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009158780A JP5334716B2 (ja) | 2009-07-03 | 2009-07-03 | 文字情報提示制御装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009158780A JP5334716B2 (ja) | 2009-07-03 | 2009-07-03 | 文字情報提示制御装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011014021A JP2011014021A (ja) | 2011-01-20 |
JP5334716B2 true JP5334716B2 (ja) | 2013-11-06 |
Family
ID=43592818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009158780A Expired - Fee Related JP5334716B2 (ja) | 2009-07-03 | 2009-07-03 | 文字情報提示制御装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5334716B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102237088B (zh) * | 2011-06-17 | 2013-10-23 | 盛乐信息技术(上海)有限公司 | 语音识别多信息文本获取装置及方法 |
JP2015219735A (ja) * | 2014-05-19 | 2015-12-07 | 日本電信電話株式会社 | 文書表示装置、文書表示方法及びプログラム |
JP6459818B2 (ja) * | 2015-07-22 | 2019-01-30 | ブラザー工業株式会社 | テキスト対応付け装置、テキスト対応付け方法、及びプログラム |
CN113781988A (zh) * | 2021-07-30 | 2021-12-10 | 北京达佳互联信息技术有限公司 | 字幕显示方法、装置、电子设备及计算机可读存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3298254B2 (ja) * | 1993-08-24 | 2002-07-02 | ソニー株式会社 | アナウンサー用原稿表示システム |
GB9716690D0 (en) * | 1997-08-06 | 1997-10-15 | British Broadcasting Corp | Spoken text display method and apparatus for use in generating television signals |
JP4210723B2 (ja) * | 1999-03-17 | 2009-01-21 | 独立行政法人情報通信研究機構 | 自動字幕番組制作システム |
JP2001282779A (ja) * | 2000-03-30 | 2001-10-12 | Telecommunication Advancement Organization Of Japan | 電子化テキスト作成システム |
JP2003186491A (ja) * | 2001-12-13 | 2003-07-04 | Telecommunication Advancement Organization Of Japan | 電子化テキスト作成支援システム |
JP2003216200A (ja) * | 2002-01-28 | 2003-07-30 | Telecommunication Advancement Organization Of Japan | 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム |
JP3945778B2 (ja) * | 2004-03-12 | 2007-07-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 設定装置、プログラム、記録媒体、及び設定方法 |
JP4459077B2 (ja) * | 2005-02-08 | 2010-04-28 | 株式会社東芝 | ナレーション支援装置、その原稿編集方法およびプログラム |
GB2437782B (en) * | 2006-04-12 | 2010-06-23 | Sysmedia Ltd | Speech driven prompt system |
-
2009
- 2009-07-03 JP JP2009158780A patent/JP5334716B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011014021A (ja) | 2011-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7974844B2 (en) | Apparatus, method and computer program product for recognizing speech | |
JP4481035B2 (ja) | 単語間音素情報を利用した連続音声認識方法および装置 | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
Kasuriya et al. | Thai speech corpus for Thai speech recognition | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
JP2001296880A (ja) | 固有名の複数のもっともらしい発音を生成する方法および装置 | |
US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
US20080027725A1 (en) | Automatic Accent Detection With Limited Manually Labeled Data | |
JPH0922297A (ja) | 音声‐テキスト変換のための方法および装置 | |
Mache et al. | Review on text-to-speech synthesizer | |
Ekpenyong et al. | Statistical parametric speech synthesis for Ibibio | |
JPWO2011064829A1 (ja) | 情報処理装置 | |
JP2008243080A (ja) | 音声を翻訳する装置、方法およびプログラム | |
JP4811557B2 (ja) | 音声再生装置及び発話支援装置 | |
JP5334716B2 (ja) | 文字情報提示制御装置及びプログラム | |
JP2006243673A (ja) | データ検索装置および方法 | |
JP5451982B2 (ja) | 支援装置、プログラムおよび支援方法 | |
JP2000029492A (ja) | 音声翻訳装置、音声翻訳方法、音声認識装置 | |
JP5819147B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
Aida–Zade et al. | The main principles of text-to-speech synthesis system | |
JP2010169973A (ja) | 外国語学習支援システム、及びプログラム | |
JP2004271895A (ja) | 複数言語音声認識システムおよび発音学習システム | |
JP2021009253A (ja) | プログラム、情報処理装置、及び情報処理方法 | |
JP6849977B2 (ja) | テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法 | |
JP2000172289A (ja) | 自然言語処理方法,自然言語処理用記録媒体および音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130704 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130730 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5334716 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |