JP2004347786A - Speech display output controller, image display controller, and speech display output control processing program, image display control processing program - Google Patents

Speech display output controller, image display controller, and speech display output control processing program, image display control processing program Download PDF

Info

Publication number
JP2004347786A
JP2004347786A JP2003143499A JP2003143499A JP2004347786A JP 2004347786 A JP2004347786 A JP 2004347786A JP 2003143499 A JP2003143499 A JP 2003143499A JP 2003143499 A JP2003143499 A JP 2003143499A JP 2004347786 A JP2004347786 A JP 2004347786A
Authority
JP
Japan
Prior art keywords
image
pronunciation
accent
display
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003143499A
Other languages
Japanese (ja)
Other versions
JP4370811B2 (en
Inventor
Yoshiyuki Murata
嘉行 村田
Takashi Koshiro
孝 湖城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2003143499A priority Critical patent/JP4370811B2/en
Publication of JP2004347786A publication Critical patent/JP2004347786A/en
Application granted granted Critical
Publication of JP4370811B2 publication Critical patent/JP4370811B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To make the distinct expression of the timing of an accent possible in display of an image synchronized with speech output with a speech display output controller for outputting data, such as speech, text and image, in synchronization. <P>SOLUTION: In synchronization with the pronunciation speech output of a retrieval key word "low", identification displays HL of the key word "low" and the pronunciation and phonetic symbol are sequentially performed in a window W 1, and pronunciation mouth-shaped images 12e (No 36 to No 9 to No 8) corresponding to the respective pronunciation and phonetic symbols are sequentially switched, synthesized and displayed based on a set character image 12d (No 3) for that mouth image area in a window W 2. Even more, at the time of of the switching, synthesizing and displaying of the identification displays HL and the mouth-shaped image 12e (No 9) in synchronization with the pronunciation speech output for the accent character "o", the synthesis destination image l2d (No 3) thereof is changed and displayed to the face image 12d (No 3') corresponding to the accent expressing the strong pronunciation by, for example, the sweating at the head and the oscillation at the mouth. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、音声,テキスト,画像などのデータを同期して出力するための音声表示出力制御装置、画像表示制御装置、および音声表示出力制御処理プログラム、画像表示制御処理プログラムに関する。
【0002】
【従来の技術】
従来、例えば言語学習装置として、言語の音声を出力しその口型を表示させるものがある。
【0003】
この言語学習装置では、マイクとカメラによって、母国語使用者の音声情報と口型のイメージデータを予めサンプルデータメモリに記録する。そして、学習者の音声情報と口型のイメージデータを前記マイクとカメラによって記録し、この学習者と前記サンプルデータメモリに予め記録された母国語使用者とのそれぞれの音声情報の波形とこれに対応する各口型のイメージデータとを対比しチャート形式で表示する。
【0004】
これにより、母国語使用者と学習者との言語発音の差異を明確に分析し表示しようとするものである(例えば、特許文献1参照。)。
【0005】
【特許文献1】
特開2001−318592号公報
【0006】
【発明が解決しようとする課題】
このような、従来の言語学習装置を用いると、手本である母国語使用者の発音音声とその口型イメージを知ることができるが、各言語のアクセントについては、主にアクセント部分の発音音声が強調されることで知らされるだけであって、口型イメージそのものには明確な違いが現れないため、各学習言語におけるアクセントのタイミングが分かり辛い問題がある。
【0007】
本発明は、前記のような問題に鑑みてなされたもので、音声出力に同期した画像の表示において、アクセントのタイミングを明確に現すことが可能になる音声表示出力制御装置、画像表示制御装置、および音声表示出力制御処理プログラム、画像表示制御処理プログラムを提供することを目的とする。
【0008】
【課題を解決するための手段】
本発明の請求項1に係る音声表示出力制御装置では、音声データ出力手段により音声データを出力し、テキスト同期表示制御手段により前記音声データの出力に同期してテキストを表示させ、画像表示制御手段により少なくとも口の部分を含む画像を表示させ、口画像表示制御手段により前記表示画像に含まれる口の部分について、前記音声出力される音声データに同期して当該音声データに対応した口型の画像を表示させる。そして、アクセント検出手段により前記音声データまたは前記テキストのアクセントの有無を検出し、画像変化表示制御手段により前記アクセントの有りの検出に応じて前記画像表示制御手段により表示される口型の画像を変化させる。
【0009】
これによれば、音声データの出力に同期したテキストと画像の表示および画像に含まれる口部分で音声データに対応した口型の画像を表示できるだけでなく、音声データまたはテキストのアクセント検出に応じて口型の表示画像を変化でき、アクセントのタイミングを明確に表現できることになる。
【0010】
本発明の請求項2に係る音声表示出力制御装置では、前記請求項1に係る音声表示出力制御装置にあって、さらに、辞書検索手段により入力された見出語に対応した辞書データを検索し、辞書データ表示制御手段により前記辞書検索された見出語に対応した辞書データを表示させる。そして、前記音声データは辞書検索手段により検索された見出語の発音音声データで、前記テキストは辞書検索手段により検索された見出語のテキストであり、前記音声データ出力手段による見出語発音音声データの出力、および前記テキスト同期表示制御手段による前記見出語発音音声データに同期した見出語テキストの表示、および前記画像表示制御手段による画像の表示は、前記辞書データ表示制御手段による検索見出語に対応した辞書データの表示状態において行う。
【0011】
これによれば、入力した見出語に対応した辞書データの検索表示に伴い、当該見出語発音音声データの出力、これに同期した見出語テキストの表示および画像の表示と口型画像の同期表示ができ、しかもアクセント検出に応じた表示画像の変化により見出語アクセントのタイミングを明確に表現できることになる。
【0012】
本発明の請求項3に係る音声表示出力制御装置では、単語記憶手段により複数の単語と当該各単語それぞれの正しいアクセント付き発音記号と誤りアクセント付き発音記号とを対応付けて記憶し、音声データ出力手段により前記記憶した単語の正しいアクセントの発音音声データまたは誤りアクセントの発音音声データを出力し、テキスト同期表示制御手段により前記音声出力される単語の発音音声データに同期して当該単語のテキストを表示させ、画像表示制御手段により少なくとも口の部分を含む画像を、前記音声データ出力手段により正しいアクセントの発音音声データが出力される場合と誤りアクセントの発音音声データが出力される場合とで異なる表示形態にして表示させ、さらに、口画像表示制御手段により前記表示画像に含まれる口の部分について、前記音声データ出力手段により出力される発音音声データに同期して当該発音音声データに対応した口型の画像を表示させる。そして、アクセント検出手段により前記テキスト同期表示制御手段による単語テキストの同期表示に伴い、前記単語記憶手段により記憶した該当単語のアクセント付き発音記号から該単語のアクセントを検出し、画像変化表示制御手段により前記アクセント検出に応じて前記画像表示制御手段により表示される画像を変化させる。
【0013】
これによれば、単語記憶手段により記憶される単語について正しいアクセントの発音音声データと誤りアクセントの発音音声データとを出力できるだけでなく、この発音音声データに同期した単語テキストの表示および表示画像に含まれる口部分についての発音音声データに対応した口型画像を表示でき、しかも単語アクセントの検出に応じて表示画像を変化できるので、単語についての正しいアクセントと誤りアクセントを容易かつ明確なタイミングで学習できることになる。
【0014】
本発明の請求項4に係る音声表示出力制御装置では、前記請求項3に係る音声表示出力制御装置にあって、さらに、正誤アクセント表示制御手段により前記単語記憶した単語と当該単語に対応付けられた正しいアクセント付き発音記号と誤りアクセント付き発音記号とを並べて表示させ、正誤アクセント選択手段により前記並べて表示された単語の正しいアクセント付き発音記号か誤りアクセント付き発音記号かの何れかを選択する。すると、音声データ出力手段は、前記正誤アクセント選択手段による単語アクセントの正誤選択に応じて、該当単語の正しいアクセントの発音音声データまたは誤りアクセントの発音音声データを出力する。
【0015】
これによれば、さらに、単語記憶手段により記憶される単語について正しいアクセント付き発音記号か誤りアクセント付き発音記号かを選択してその発音音声データを出力でき、しかも、この発音音声データに同期した単語テキストの表示および表示画像に含まれる口部分についての発音音声データに対応した口型画像を表示でき、単語アクセントの検出に応じて表示画像を変化できるので、単語についての正しいアクセントと誤りアクセントをさらに容易かつ明確なタイミングで学習できることになる。
【0016】
本発明の請求項5に係る音声表示出力制御装置では、記憶手段により複数の見出語と当該各見出語それぞれの少なくとも2以上の地域の発音音声データとを対応付けて記憶し、地域指定手段により前記記憶した見出語の2以上の地域の発音音声データのうち何れかの地域を指定する。すると、音声データ出力手段により前記発音音声データの地域指定に応じて、該当見出語の指定地域の発音音声データを出力し、テキスト同期表示制御手段により前記音声出力される見出語の指定地域の発音音声データに同期して当該見出語のテキストを表示させ、画像表示制御手段により少なくとも口の部分を含む画像を、前記指定地域に応じて異なる表示形態にして表示させ、口画像表示制御手段により前記表示画像に含まれる口の部分について、前記音声出力される発音音声データに同期して当該発音音声データに対応した口型の画像を表示させる。そして、アクセント検出手段により前記見出語テキストの同期表示に伴い、当該見出語のアクセントを検出し、画像変化表示制御手段により前記アクセントの検出に応じて前記画像表示制御手段により表示される画像を変化させる。
【0017】
これによれば、同一の見出語で異なる地域方言のある発音音声データを指定して出力できると共に、この発音音声データの出力に同期して当該見出語テキストおよび表示画像中口部分の口型画像を表示でき、しかも指定地域に応じて異なる表示形態の画像を表示でき、アクセント検出によって当該画像の変化表示もできるので、指定地域の発音音声データとアクセントのタイミングを容易かつ明確に学習できることになる。
【0018】
本発明の請求項6に係る画像表示制御装置では、単語の見出語を含む一連の発音対象データの発音順の表示に従って、口または表情を備えた顔画像を変更制御する画像表示制御装置であって、第1の記憶手段により前記発音対象データとアクセント記号付き発音記号を含む発音記号とを対応付けて複数組み記憶し、第2の記憶手段によりアクセント記号付き発音記号を含む発音記号とその音声および顔画像を対応付けて複数組み記憶する。そして、第1の制御手段により前記一連の発音対象データの発音順の表示に伴い、この発音対象データに対応する発音記号を前記第1の記憶手段から読み出し、この読み出された発音記号に対応する音声と顔画像とを前記第2の記憶手段から読み出し、この読み出された音声を外部へ出力すると共に、読み出された顔画像を表示するように制御し、第2の制御手段により前記第1の制御によって音声を外部に出力する際に、前記読み出された発音記号の中にアクセント記号付き発音記号が含まれているか否かを判別し、アクセント記号が含まれていると判別された際は、このアクセント記号付き発音記号に対応する音声と顔画像とを前記第2の記憶手段から読み出し、この読み出された音声を外部へ出力すると共に、読み出された顔画像を表示するように制御する。
【0019】
これによれば、単語の見出し語などの発音対象データの発音順の表示に伴い、当該発音対象データの発音記号に対応する音声出力と顔画像表示ができると共に、そのアクセント部分では該アクセント記号付き発音記号に対応する音声出力と顔画像表示ができ、容易かつ明確に単語などの発音音声とこの発音に伴う顔の表現およびそのアクセント部分での発音音声とこのアクセント部分の発音に伴う顔の表現を学習できることになる。
【0020】
本発明の請求項7に係る画像表示制御装置では、前記請求項6に係る画像表示制御装置にあって、前記第2の記憶手段に記憶されているアクセント記号付き発音記号を含む発音記号は、アクセント記号が付いている発音記号とアクセント記号が付いていない発音記号とからなり、前記アクセント記号が付いている発音記号に対応付けて記憶されている音声および顔画像と前記アクセント記号が付いていない発音記号に対応付けて記憶されている音声および顔画像とは異なっている。
【0021】
これによれば、単語の見出し語などの発音対象データのアクセント記号の無い部分での発音音声とこれに伴う顔の表現、そしてアクセント記号がある部分での発音音声とこれに伴う顔の表現の相異をより明確に学習できることになる。
【0022】
また、本発明の請求項8に係る画像表示制御装置では、単語の見出語を含む一連の発音対象データの発音順の表示に従って、口または表情を備えた顔画像を変更制御する画像表示制御装置であって、記憶手段により前記発音対象データとその音声および顔画像を対応付けて複数組み記憶し、検出手段により前記記憶されている音声の信号波形のうち、前記発音対象データのアクセント部分に対応する信号波形のピーク部分を検出し、表示制御手段により前記検出されたアクセント部分の音声に対応する顔画像を前記記憶手段から読み出しこの読み出された顔画像を、アクセント部分以外の他の信号波形部分の音声に対応する顔画像と異なる表示形態で表示するように制御する。
【0023】
これによれば、単語の見出語などの発音対象データの発音順の表示に伴い、その発音音声に対応する顔画像を表示でき、しかも音声信号波形のピーク部分によって検出されるアクセント部分では異なる表示形態にした顔画像を表示でき、アクセント部分での発音に伴う顔の表現をより明確に学習できることになる。
【0024】
また、本発明の請求項9に係る画像表示制御装置では、前記請求項8に係る画像表示制御装置にあって、前記表示制御手段は、前記検出手段により検出されたアクセント部分に対応する発音対象データの部分の表示を、アクセント部分以外の他の信号波形部分に対応する発音対象データの部分の表示と異なる表示形態で表示するように制御するテキスト表示制御手段を備えている。
【0025】
これによれば、発音対象データの発音音声に対応する顔画像の表示に加え、さらに、発音対象データのアクセント部分の表示を、該アクセント部分以外の発音対象データの表示と異なる表示形態にして表示できるので、発音対象データのアクセント部分およびその発音音声の発声に伴う顔の表現をより明確に学習できることになる。
【0026】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について説明する。
【0027】
(第1実施形態)
図1は本発明の音声表示出力制御装置(画像表示制御装置)の実施形態に係る携帯機器10の電子回路の構成を示すブロック図である。
【0028】
この携帯機器(PDA:personal digital assistants)10は、各種の記録媒体に記録されたプログラム、又は、通信伝送されたプログラムを読み込んで、その読み込んだプログラムによって動作が制御されるコンピュータによって構成され、その電子回路には、CPU(central processing unit)11が備えられる。
【0029】
CPU11は、メモリ12内のFLASHメモリ12Aに予め記憶されたPDA制御プログラム、あるいはROMカードなどの外部記録媒体13から記録媒体読取部14を介して前記メモリ12に読み込まれたPDA制御プログラム、あるいはインターネットなどの通信ネットワークN上の他のコンピュータ端末(30)から電送制御部15を介して前記メモリ12に読み込まれたPDA制御プログラムに応じて、回路各部の動作を制御するもので、前記メモリ12に記憶されたPDA制御プログラムは、スイッチやキーからなる入力部17aおよびマウスやタブレットからなる座標入力装置17bからのユーザ操作に応じた入力信号、あるいは電送制御部15に受信される通信ネットワークN上の他のコンピュータ端末(30)からの通信信号、あるいはBluetooth(R)による近距離無線接続や有線接続による通信部16を介して受信される外部の通信機器(PC:personal computer)20からの通信信号に応じて起動される。
【0030】
前記CPU11には、前記メモリ12、記録媒体読取部14、電送制御部15、通信部16、入力部17a、座標入力装置17bが接続される他に、LCDからなる表示部18、マイクを備え音声を入力する音声入力部19a、左右チャンネルのスピーカL,Rを備え音声を出力するステレオ音声出力部19bなどが接続される。
【0031】
また、CPU11には、処理時間計時用のタイマが内蔵される。
【0032】
この携帯機器10のメモリ12は、FLASHメモリ(EEP−ROM)12A、RAM12Bを備えて構成される。
【0033】
FLASHメモリ(EEP−ROM)12Aには、当該携帯機器10の全体の動作を司るシステムプログラムや電送制御部15を介して通信ネットワークN上の各コンピュータ端末(30)とデータ通信するためのネット通信プログラム、通信部16を介して外部の通信機器(PC)20とデータ通信するための外部機器通信プログラムが記憶される他に、スケジュール管理プログラムやアドレス管理プログラム、そして辞書の見出語検索や検索見出語に対応する音声・テキスト・顔画像(含む口型合成画像)などの各種データの同期再生、および当該顔画像(キャラクタ)の種類設定、および見出語アクセントの出題テストを行うための辞書処理プログラム12aなど、種々のPDA制御プログラムが記憶される。
【0034】
また、FLASHメモリ(EEP−ROM)12Aにはさらに、辞書データベース12b(図2参照)、辞書音声データ12c、キャラクタ画像データ12d(図3参照)、音声別口(型)画像データ12e(図4参照)、および辞書タイムコードファイル12f(図5・図6参照)が記憶される。
【0035】
辞書データベース12bとしては、英和辞書、和英辞書、国語辞書など、各種の辞書のデータが記憶されると共に、図2に示すように、辞書内の全ての見出語についてそれぞれその見出語No、音声・テキスト・画像の同期再生を簡単に行うためのタイムコードファイルのNoと格納先アドレス、画像再生ウインドウを設定するためのHTMLファイルのNoと格納先アドレス、テキストファイルのNoと格納先アドレス、テキストの各文字,発音記号,口型番号を対応付けたテキスト口同期ファイルのNoと格納先アドレス、音声データであるサウンドファイルのNoと格納先アドレス、辞書内容のデータ番号と格納先アドレスが、それぞれリンク付けられて記憶される。
【0036】
なお、各実施形態において、明細書上で記載される発音記号については、正式な発音記号の入力が困難なため類似の文字を代用し、正式な発音記号については図面上にて記載する。
【0037】
図2は前記携帯機器10のメモリ12に記憶される辞書データベース12bのうち1つの見出語「low」についての同期再生用リンクデータを示す図であり、同図(A)は各ファイルNoと格納先アドレスを示すテーブル、同図(B)は当該テキストファイルNoに従い格納されているテキストデータ「low」を示す図、同図(C)はテキスト口同期ファイルNoに従い格納されているテキストの文字,発音記号,口型番号を示す図である。
【0038】
辞書音声データ12cとしては、前記辞書データベース12bにおける各見出語毎の発音のための音声データがそのサウンドファイルNoとアドレスに対応付けられて記憶される。
【0039】
図3は前記携帯機器10のメモリ12に記憶され、辞書の見出語検索における発音口型画像の同期表示のためにユーザ設定により選択的に使用されるキャラクタ画像データ12dを示す図である。
【0040】
キャラクタ画像データ12dとしては、本実施形態の場合、3種類のキャラクタ画像(顔画像)No1〜No3が用意され、個々のキャラクタ画像No1,No2,No3には、その口型画像の合成矩形領域を対角する2点の座標として指定するための口画像エリアデータ(X1,Y1,X2,Y2)が対応付けられて記憶される。
【0041】
なお、この3種類のキャラクタ画像(顔画像)No1〜No3には、それぞれさらに、辞書検索された見出語のアクセントのタイミングで発音の強調を表現するためのアクセント顔画像No1′〜No3′(図12(C)▲2▼,図13(B)▲2▼参照)が記憶され、さらには、米語または英語の発音音声が指定された場合の米語用キャラクタ画像No1US〜No3US(図15参照)や英語用キャラクタ画像No1UK〜No3UK(図16参照)、およびそのアクセント顔画像No1US′〜No3US′(図15(B)▲2▼参照)やNo1UK′〜No3UK′(図16(B)▲2▼参照)が記憶される。
【0042】
図4は前記携帯機器10のメモリ12に記憶され、辞書の見出語検索における発音口型画像の同期表示のためにキャラクタ画像(12d:No1〜No3)の口画像エリア(X1,Y1,X2,Y2)に合成表示される音声別口画像データ12eを示す図である。
【0043】
音声別口(型)画像データ12eとしては、前記辞書データベース12bに記憶された全ての見出し語の発音に要する各発音記号に対応付けた口型画像12e1,12e2,…がそれぞれその口番号No.nに対応付けられて記憶される。
【0044】
また、前記携帯機器10のメモリ12に記憶される辞書タイムコードファイル12fは、辞書検索された見出語に対応する音声・テキスト・顔画像(含む口型合成画像)の同期再生を行うための指令ファイル(図5参照)であり、全ての見出語毎ではなく、文字数と発音記号数およびその発音タイミングが同じである複数の見出語毎に用意され、所定のアルゴリズムにより圧縮・暗号化されている。
【0045】
図5は前記携帯機器10のメモリ12に格納された辞書タイムコードファイル12fにおける見出語「low」に対応付けられたファイルNo23のタイムコードファイル12f23(12i)を示す図である。
【0046】
タイムコードファイル12fnには、予めヘッダ情報Hとして記述設定される一定時間間隔の基準処理単位時間(例えば25ms)で各種データ(音声・テキスト・画像)を同期再生するコマンド処理を行うためのタイムコードが記述配列されるもので、この各タイムコードは、命令を指示するコマンドコードと、当該コマンドに関わるデータ内容(テキストファイル/サウンドファイル/イメージファイルなど)を対応付けするための参照番号や指定数値からなるパラメータデータとの組み合わせにより構成される。
【0047】
例えば図5で示す見出語「low」のタイムコードファイル12f23によるファイル再生時間は、予め設定された基準処理単位時間が25msである場合、40ステップのタイムコードからなる再生処理を経て1秒間となる。
【0048】
図6は前記携帯機器10の辞書タイムコードファイル12fn(図5参照)にて記述される各種コマンドのコマンドコードとそのパラメータデータに基づき解析処理される命令内容を対応付けて示す図である。
【0049】
タイムコードファイル12fnに使用されるコマンドとしては、標準コマンドと拡張コマンドがあり、標準コマンドには、LT(i番目テキストロード).VD(i番目テキスト文節表示).BL(文字カウンタリセット・i番目文節ブロック指定).HN(ハイライト無し・文字カウンタカウントアップ).HL(i番目文字までハイライト・文字カウント).LS(1行スクロール・文字カウンタカウントアップ).DH(i番目HTMLファイル表示).DI(i番目イメージファイル表示).PS(i番目サウンドファイルプレイ).CS(クリアオールファイル).PP(基本タイムi秒間停止).FN(処理終了).NP(無効)の各コマンドがある。
【0050】
また、メモリ12内のRAM12Bには、辞書データベース12bの検索処理に伴う見出語がその見出語番号に従い読み出されて記憶される検索見出語メモリ12g、検索された見出語に対応する意味内容などの辞書データが前記辞書データベース12bからその辞書データ番号に従い読み出されて記憶される見出語対応辞書データメモリ12h、検索された見出語に対応した音声・テキスト・画像の同期再生を行うためのタイムコードファイル12fn(図5参照)が前記辞書データベース12b内のタイムコードファイルNoに従い辞書タイムコードファイル12fの中から読み出され伸張・復号化されて記憶される再生タイムコードファイルメモリ12iが用意される。
【0051】
さらに、このメモリ12内のRAM12Bには、見出語検索画面G2上でテキスト・画像の同期再生用ウインドウW1,W2(図12・図13参照)を設定するためのHTMLファイルが、前記辞書データベース12bからHTMLファイルNoに従い読み出されて記憶される同期用HTMLファイルメモリ12j、検索見出語のテキストデータが前記辞書データベース12bからそのテキストファイルNoに従い読み出されて記憶される同期用テキストファイルメモリ12k、検索見出語の発音音声データが前記辞書データベース12b内のサウンドファイルNoに従い前記辞書音声データ12cの中から読み出されて記憶される同期用サウンドファイルメモリ12m、検索見出語の発音画像表示用としてユーザ設定されたキャラクタ画像が前記キャラクタ画像データ12d(図3参照)の中から読み出されて記憶される同期用イメージファイルメモリ12n、この同期用イメージファイルメモリ12nに記憶されたキャラクタ画像における口型画像の合成領域を示す口画像エリアデータ(X1,Y1;X2,Y2)が記憶される口画像エリアメモリ12p、そして、前記タイムコードファイルメモリ12iに記憶された検索見出語に対応するタイムコードファイル12fnに従い音声・テキストに同期再生すべきキャラクタ画像と口型画像とが展開合成されて記憶される画像展開バッファ12qなどが用意される。
【0052】
すなわち、この携帯機器(PDA)10のFLASHメモリ12Aに記憶されている辞書処理プログラム12aを起動させて検索された見出語が「low」であり、これに対応して辞書タイムコードファイル12f内から読み出されて再生タイムコードファイルメモリ12iに記憶されたタイムコードファイル12fが、例えば図5で示したタイムコードファイル12f23であり、設定処理単位時間毎のコマンド処理に伴い3番目のコマンドコード“DI”およびパラメータデータ“00”が読み込まれた場合には、このコマンド“DI”はi番目のイメージファイル表示命令であるため、パラメータデータi=00からリンク付けられる同期用イメージファイル12nに記憶されたキャラクタ画像12dnが読み出されて表示される。
【0053】
また、設定処理単位時間毎のコマンド処理に伴い4番目のコマンドコード“PS”およびパラメータデータ“00”が読み込まれた場合には、このコマンド“PS”はi番目のサウンドファイル再生命令であるため、パラメータデータi=00からリンク付けられる同期用サウンドファイル12mに記憶された音声データ12cnが読み出されて出力される。
【0054】
また、設定処理単位時間毎のコマンド処理に伴い6番目のコマンドコード“VD”およびパラメータデータ“00”が読み込まれた場合には、このコマンド“VD”はi番目のテキスト文節表示命令であるため、パラメータデータi=00に従い、テキストの0番目の文節(この場合は、同期用テキストファイルメモリ12kに記憶された検索見出語のテキストファイル「low」が表示される。
【0055】
さらに、設定処理単位時間毎のコマンド処理に伴い9番目のコマンドコード“NP”およびパラメータデータ“00”が読み込まれた場合には、このコマンド“NP”は無効命令であるため、現状のファイル出力状態が維持される。
【0056】
なお、この図5で示したファイル内容のタイムコードファイル12f23(12i)に基づいた検索見出語に対応する発音音声・テキスト・画像(口型画像)の同期再生についての詳細な動作は、後述にて改めて説明する。
【0057】
次に、前記構成の携帯機器10による各種の動作について説明する。
【0058】
図7は前記携帯機器10の辞書処理プログラム12aに従ったメイン処理を示すフローチャートである。
【0059】
図8は前記携帯機器10のメイン処理に伴う見出語同期再生処理を示すフローチャートである。
【0060】
図9は前記携帯機器10の見出語同期再生処理に伴う各見出語文字のハイライト表示に応じて割り込みで実行されるテキスト対応口表示処理を示すフローチャートである。
【0061】
図10は前記携帯機器10のメイン処理内のキャラクタ設定処理に伴う同期再生用キャラクタ画像の設定表示状態を示す図である。
【0062】
入力部17aの「設定」キー17a1およびカーソルキー17a2の操作によりキャラクタ画像の設定モードに切り替えられると(ステップS1→S2)、FLASHメモリ12Aに記憶されている例えば3種類のキャラクタ画像データ12d1(No1),12d2(No2),12d3(No3)[図3参照]が読み出され、図10に示すように、キャラクタ画像の一覧選択画面G1として表示部18に表示される(ステップS3)。
【0063】
このキャラクタ画像の一覧選択画面G1において、カーソルキー17a3の操作により各キャラクタ画像の選択フレームXが移動操作されてユーザ所望のキャラクタ画像(例えば12d3(No3))が選択されると共に、「訳/決定(音声)」キー17a4による決定操作により当該キャラクタ画像の選択が検知されると(ステップS4)、この選択検知されたキャラクタ画像12dnが読み出され、RAM12B内の同期用イメージファイルメモリ12nに転送格納される(ステップS5)。また、この選択検知されたキャラクタ画像12dnの口型画像の合成領域を示す口画像エリアデータ(X1,Y1;X2,Y2)も読み出され、RAM12B内の口画像エリアメモリ12pに転送格納される(ステップS6)。
【0064】
これにより、見出語検索に伴い、当該見出語の発音音声に同期表示させるべき口型画像合成対象のキャラクタ画像が選択設定される。
【0065】
図11は前記携帯機器10のメイン処理内の見出語検索処理に伴う検索見出語表示画面G2を示す図である。
【0066】
辞書データベース12bに記憶されている例えば英和辞書の辞書データに基づいて見出語検索を行うのに、入力部17aの「英和」キー17a5の操作により英和辞書の検索モードに設定した後に、検索対象の見出語(例えば「low」)を入力すると(ステップS7→S8)、当該入力された見出語と一致及び一致文字を先頭に含む複数の見出語が前記英和辞書の辞書データから検索されて読み出され、検索見出語の一覧(図示せず)として表示部18に表示される(ステップS9)。
【0067】
この検索見出語の一覧画面において、ユーザ入力した検索対象の見出語と一致する見出語(この場合「low」)がカーソルキーにより選択指示されて「訳/決定(音声)」キー17a4が操作されると(ステップS10)、当該選択検知された見出語「low」がRAM12B内の見出語メモリ12gに記憶されると共に、この見出語「low」に対応する発音/品詞/意味内容などの辞書データが読み出されてRAM12B内の見出語対応辞書データメモリ12hに記憶され、図11に示すように、検索見出語表示画面G2として表示部18に表示される(ステップS11)。
【0068】
ここで、前記検索表示された見出語「low」について、その発音音声を出力させるのと同時に、当該見出語の文字,発音記号と発音の口型画像を同期表示させるために、「訳/決定(音声)」キー17a4が操作されると(ステップS12)、図8における同期再生処理に移行される(ステップSA)。
【0069】
図12は前記携帯機器10の見出語検索処理における同期再生処理に伴いキャラクタ画像No3の設定状態において検索見出語表示画面G2上にウインドウ表示される見出語文字表示ウインドウW1および発音口型表示ウインドウW2の表示状態を示す図であり、同図(A)は検索見出語表示画面G2に対する見出語文字表示ウインドウW1および発音口型表示ウインドウW2の設定表示状態を示す図、同図(B)は発音音声の出力に同期した見出語文字表示ウインドウW1およびアクセント未対応の発音口型表示ウインドウW2の変化状態を示す図、同図(C)は発音音声の出力に同期した見出語文字表示ウインドウW1およびアクセント対応の発音口型表示ウインドウW2の変化状態を示す図である。
【0070】
前記検索見出語表示画面G2が表示されている状態での「訳/決定(音声)」キー17a4の操作に伴い、図8における同期再生処理(ステップSA)が起動されると、RAM12B内の各ワークエリアのクリア処理などのイニシャライズ処理が行われ(ステップA1)、まず、辞書データベース12bに記憶されている今回の検索見出語「low」についての同期再生用リンクデータ(図2参照)に基づき、見出語検索画面G2上でテキスト・画像の同期再生用ウインドウW1,W2(図12参照)を設定するためのHTMLファイルがそのHTMLファイルNo3に従い読み出され同期用HTMLファイルメモリ12jに書き込まれる。また、検索見出語のテキストデータ「low(発音記号付)」がそのテキストファイルNo4222に従い読み出され同期用テキストファイルメモリ12kに書き込まれる。また、検索見出語の発音音声データがそのサウンドファイルNo4222に従い読み出され同期用サウンドファイルメモリ12mに書き込まれる(ステップA2)。
【0071】
なお、検索見出語の発音画像表示用としてユーザ設定されたキャラクタ画像(この場合、12d3(No3))は、前記キャラクタ設定処理に伴うステップS5に従って、既にキャラクタ画像データ12d(図3参照)の中から読み出されて同期用イメージファイルメモリ12nに書き込まれ、さらに当該キャラクタ画像12d3(No3)における発音口型画像合成エリアである口画像エリアデータ(X1,Y1;X2,Y2)も前記キャラクタ設定処理に伴うステップS6に従って、既に口画像エリアメモリ12pに書き込まれている。
【0072】
すると、FLASHメモリ12A内に辞書タイムコードファイル12fとして記憶されている各種見出語対応の暗号化された音声・テキスト・画像の同期再生用タイムコードファイル12fnの中から、今回の検索見出語「low」に対応するタイムコードファイル12f23(図5参照)が、前記同期再生用リンクデータ(図2参照)に記述されたタイムコードファイルNo23に従い解読復号化されて読み出され、RAM12B内のタイムコードファイルメモリ12iに転送されて格納される(ステップA3)。
【0073】
こうして、前記検索見出語「low」に対応する発音音声・テキスト・発音口型画像の同期再生用の各種ファイルのRAM12Bへの読み込み設定、およびこれらのファイルを同期再生するためのタイムコードファイル12f23のRAM12Bへの転送設定が完了すると、タイムコードファイルメモリ12iに格納されたタイムコードファイル(CASファイル)12f23(図5参照)のCPU11による処理単位時間(例えば25ms)が当該タイムコードファイル12f23のヘッダ情報Hとして設定される(ステップA4)。
【0074】
そして、前記タイムコードファイルメモリ12iに格納されたタイムコードファイル12f23の先頭に読み出しポインタがセットされると共に、各同期用ファイルメモリ12j,12k,12m,12nに書き込まれた各種ファイルの先頭に読み出しポインタがセットされ(ステップA5)、当該各同期ファイルの再生処理タイミングを計時するためのタイマがスタートされる(ステップA6)。
【0075】
このステップA6において、処理タイマがスタートされると、前記ステップA4にて設定された今回のタイムコードファイル12f23に応じた処理単位時間(25ms)毎に、前記ステップA5にて設定された読み出しポインタの初期位置の当該タイムコードファイル12f23(図5参照)のコマンドコードおよびそのパラメータデータが読み出される(ステップA7)。
【0076】
そして、前記タイムコードファイル12f23(図5参照)から読み出されたコマンドコードが、“FN”か否か判断され(ステップA8)、“FN”と判断された場合には、その時点で当該同期再生処理の停止処理が指示実行される(ステップA8→A9)。
【0077】
一方、前記タイムコードファイル12f23(図5参照)から読み出されたコマンドコードが、“FN”ではないと判断された場合には、当該コマンドコードの内容(図6参照)に対応する処理が実行される(ステップA10)。
【0078】
そして、前記タイマによる計時時間が次の処理単位時間(25ms)に到達したと判断された場合には、RAM12Bに格納されたタイムコードファイル12f23(図5参照)に対する読み出しポインタが次の位置に移動セットされ(ステップA11→A12)、前記ステップA7における当該読み出しポインタの位置のタイムコードファイル12f23(図5参照)のコマンドコードおよびそのパラメータデータ読み出しからの処理が繰り返される(ステップA12→A7〜A10)。
【0079】
ここで、図5で示す検索見出語「low」のタイムコードファイル12f23に基づいた、発音音声・テキスト・発音口型画像ファイルの同期再生出力動作について詳細に説明する。
【0080】
すなわち、このタイムコードファイル12f23は、そのヘッダHに予め記述設定された(基準)処理単位時間(例えば25ms)毎にコマンド処理が実行されるもので、まず、タイムコードファイル12f23(図5参照)の第1コマンドコード“CS”(クリアオールファイル)およびそのパラメータデータ“00”が読み出されると、全ファイルの出力をクリアする指示が行われ、テキスト・音声・画像ファイルの出力がクリアされる(ステップA10)。
【0081】
第2コマンドコード“DH”(i番目HTMLファイル表示)およびそのパラメータデータ“00”が読み出されると、当該コマンドコードDHと共に読み出されたパラメータデータ(i=0)に応じて、RAM12B内の同期用HTMLファイルメモリ12jからHTMLデータの見出語テキスト・画像フレームデータが読み出され、図12(A)に示すように、表示部18に対する見出語検索画面G2上でのテキスト・画像の同期再生用ウインドウW1,W2が設定される(ステップA10)。
【0082】
第3コマンドコード“DI”(i番目イメージファイル表示)およびそのパラメータデータ“00”が読み出されると、当該コマンドコードDIと共に読み出されたパラメータデータ(i=0)に応じて、RAM12B内の同期用イメージファイルメモリ12nから前記キャラクタ設定処理(ステップS2〜S6)にて設定記憶されたキャラクタ画像12d(この場合No3)が読み出され、図12(A)に示すように、前記見出語検索画面G2上でHTMLファイルで設定された画像の同期再生用ウインドウW2に表示される(ステップA10)。
【0083】
第4コマンドコード“PS”(i番目サウンドファイルプレイ)およびそのパラメータデータ“00”が読み出されると、当該コマンドコードPSと共に読み出されたパラメータデータ(i=0)に応じて、RAM12B内の同期用サウンドファイルメモリ12mから前記ステップA2にて設定記憶された検索見出語「low」に対応する発音音声データが読み出され、ステレオ音声出力部19bからの音声出力が開始される(ステップA10)。
【0084】
第5コマンドコード“LT”(i番目テキストロード)およびそのパラメータデータ“00”が読み出されると、当該コマンドコードLTと共に読み出されたパラメータデータ(i=0)に応じて、RAM12B内の同期用テキストファイルメモリ12kに前記ステップA2にて設定記憶された検索見出語「low」に対応する1文節のテキストデータ「l」「o」「w」(含む発音記号)が指定される(ステップA10)。
【0085】
第6コマンドコード“VD”(i番目テキスト文節表示)およびそのパラメータデータ“00”が読み出されると、当該コマンドコードVDと共に読み出されたパラメータデータ(i=0)に応じて、前記第5コマンドコード“LT”に従い指定された1文節のテキストデータ「l」「o」「w」(含む発音記号)が読み出され、図12(A)に示すように、前記見出語検索画面G2上のテキスト同期再生用ウインドウW1に表示される(ステップA10)。
【0086】
第7コマンドコード“BL”(文字カウンタリセット・i番目文節ブロック指定)およびそのパラメータデータ“00”が読み出されると、前記テキスト同期再生用ウインドウW1で表示中の検索見出語「low」の文字カウンタがリセットされる(ステップA10)。
【0087】
そして、第8コマンドコード“HL”(i番目文字までハイライト・文字カウント)およびそのパラメータデータ“01”が読み出されると、当該コマンドコードHLと共に読み出されたパラメータデータ(i=1)に応じて、図12(A)に示すように、テキスト同期再生用ウインドウW1に表示されている検索見出語「low」(含む発音記号)のうち1番目の文字「l」およびこれに対応する発音記号まで、色替え表示,反転表示,下線表示などによるハイライト(識別)表示HLが行われ、文字カウンタが同2番目の文字およびこれに対応する発音記号までカウントアップされる(ステップA10)。
【0088】
このタイムコードファイル12f23による検索見出語「low」の各文字およびこれに対応する発音記号に対するハイライト(識別)表示に際しては、図9におけるテキスト対応口表示処理の割り込みが行われる。
【0089】
すなわち、今回ハイライト(識別)表示HLされた検索見出語「low」の文字「l」が検知されると(ステップB1)、この検知文字「l」に対応する発音口型画像が、辞書データベース12b内のテキスト口同期ファイル(図2(C)参照)により示されるテキスト「l」に対応する口番号「36」に従い、音声別口画像データ12e(図4参照)の中から発音口型画像12e2(No36)として読み出される(ステップB2)。そして、このハイライト(識別)表示された検索見出語「low」の文字「l」に対する発音口型画像12e2(No36)は、図12(A)(図12(B)▲1▼)に示すように、見出語検索画面G2上の画像同期再生用ウインドウW2に表示されているキャラクタ画像12d(No3)の口画像合成領域に対して、RAM12B内の口画像エリアメモリ12pに記憶されている口画像エリア(X1,Y1;X2,Y2)に従い合成されて表示される(ステップB3)。
【0090】
ここで、前記テキスト口同期ファイル(図2(C)参照)により示される今回のハイライト(識別)表示テキスト「l」の発音記号に対するアクセントマークの有無が判断される(ステップB4)。このハイライト(識別)表示テキスト「l」の発音記号[l]の場合にはアクセントマーク無しと判断されるので、キャラクタ画像12d(No3)はその通常の顔画像のままの表示が維持される(ステップB4→B5)。
【0091】
なお、ここでアクセントマーク有りと判断された場合には、前記キャラクタ画像12d(No3)は、発音強調表現用のアクセント顔画像No3′(図12(C)▲2▼参照)に変更表示される(ステップB4→B6)。
【0092】
そして、前記第4コマンドコード“PS”に応じてステレオ音声出力部19bから出力開始されている検索見出語「low」に対応する発音音声データの出力タイミングと、本タイムコードファイル12f23による処理単位時間(25ms)に応じた検索見出語「low」の1文字毎の識別表示タイミングとは、予め対応付けされて当該タイムコードファイル12f23が作成されているので、当該検索見出語「low」の1文字目「l」の識別表示とその発音口型画像12e(No36)の同期合成表示の際には、これに対応する発音記号を読み上げるところの発音音声が同期出力されることになる。
【0093】
これにより、検索見出語「low」の第1文字目「l」の識別表示、その発音口型画像12e3(No36)の設定キャラクタ画像12d(No3)への合成表示、ならびにその発音音声の出力が同期して行われる。
【0094】
そして、第9コマンドコード“NP”が読み出されると、現在の検索見出語「low」に対応するキャラクタ画像およびテキストデータの同期表示画面および発音音声データの同期出力状態が維持される。
【0095】
この後、第12コマンドコード“HL”、第35コマンドコード“HL”に従い、図12(C)▲2▼、図12(C)▲3▼に示すように、テキスト同期再生用ウインドウW1では、検索見出語のテキストデータ「low」とその発音記号が、順次、2番目の文字「o」と発音記号[o]、3番目の文字「w」と発音記号[u]というように、ハイライト(識別)表示HLされて行く(ステップA10)。そして、これと共に、画像同期再生用ウインドウW2では、前記図9におけるテキスト対応の口表示処理に応じて、設定キャラクタ画像12d(No3)の口画像エリア(X1,Y1;X2,Y2)に合成すべき発音口型画像も、前記テキスト口同期ファイル(図2(C)参照)に従い、口番号9に対応する発音口型画像12e(No9)、口番号8に対応する発音口型画像12e(No8)として音声別口画像12eの中から読み出され、順次合成されて同期表示される(ステップB1〜B3)。
【0096】
さらに、前記第4コマンドコード“PS”に応じてステレオ音声出力部19bから出力されている検索見出語「low」の発音音声データも、同テキスト「low」とその発音記号のハイライト(識別)表示部分を読み上げるところの音声が順次同期出力される。
【0097】
なお、前記検索見出語「low」の各文字「l」「o」「w」毎のハイライト(識別)表示HLに同期させたテキスト対応口表示処理による各発音口型画像12e(No36)→12e(No9)→12e(No8)の設定キャラクタ画像12d(No3)に対する合成切り替え表示(ステップB1〜B5)に際し、図12(B)▲2▼で示したように、2番目の文字「o」とその発音記号のハイライト(識別)表示HLに伴い発音口型画像12e(No9)を合成表示させるときには、当該ハイライト(識別)表示テキスト「o」の発音記号にはアクセントマーク有りと判断されるので、図12(C)▲2▼で示したように、このときのキャラクタ画像12d(No3)は、発音強調表現用のアクセント顔画像No3′に変更されて表示される(ステップB4→B6)。
【0098】
つまり、図12で示した検索見出語「Low」のアクセント文字「o」に対する発音音声の出力と同期したハイライト(識別)表示HL、発音口型画像12e(No9)の切り替え合成表示に際しては、当該口型画像12e(No9)の合成先である図12(B)▲2▼で示した通常の設定キャラクタ(顔)画像12d(No3)が、図12(C)▲2▼で示した例えば頭部の発汗や口元の皺によって強く発音している状態を表現するアクセント対応の顔画像12d(No3′)に変更表示されるので、ユーザは検索見出語「Low」の発音音声とその発声タイミングおよび各文字「L」「o」「w」とその発音記号の対応部分、さらには各発音口型画像12e(No36→No9→No8)を、そのそれぞれの同期再生により容易に学習できるばかりでなく、アクセントに応じて発声強調するタイミングをリアルに学習できるようになる。
【0099】
図13は前記携帯機器10の見出語検索処理における同期再生処理に伴いキャラクタ画像No1の設定状態において検索見出語表示画面G2上にウインドウ表示される見出語文字表示ウインドウW1および発音口型表示ウインドウW2の表示状態を示す図であり、同図(A)は検索見出語表示画面G2に対する見出語文字表示ウインドウW1および発音口型表示ウインドウW2の設定表示状態を示す図、同図(B)は発音音声の出力に同期した見出語文字表示ウインドウW1および発音口型表示ウインドウW2の変化状態を示す図である。
【0100】
すなわち、前記図7のステップS1〜S6によるキャラクタ設定処理において、予め記憶された3種類のキャラクタ画像データ12d(No1),12d(No2),12c(No3)[図3参照]の中からアニメ調のキャラクタ画像12d(No1)が選択設定された状態で、前記ステップS7〜SAと同様に検索対象の見出語「low」についての見出語検索処理および同期再生処理、そして図9におけるテキスト対応口表示処理が行われた場合には、図13(A)および図13(B)に示すように、検索見出語表示画面G2に対する見出語文字表示ウインドウW1には、検索見出語「low」およびその発音記号の発音音声出力に同期させたハイライト(識別)表示HLが順次行われる。これに伴い、発音口型表示ウインドウW2には、前記キャラクタ設定処理(ステップS1〜S6)において設定されたアニメ調のキャラクタ画像12d(No1)を基本の顔画像として、前記発音音声出力およびテキスト(含む発音記号)のハイライト表示HLに同期させた各発音口型画像12e(No36→No9→No8)が順次切り替え合成されて表示される。
【0101】
そして、図13(B)▲2▼で示したように、検索見出語「low」の2番目の文字「o」とその発音記号のハイライト(識別)表示HLに伴い発音口型画像12e(No9)を合成表示させるときには、当該ハイライト(識別)表示テキスト「o」の発音記号にはアクセントマーク有りと判断されるので、このときのアニメ調キャラクタ画像12d(No1)は、発音強調表現用のアクセント顔画像No1′に変更されて表示される(ステップB4→B6)。
【0102】
つまり、図13で示したアニメ調のキャラクタ画像12d(No1)を選択設定した場合の、検索見出語「Low」のアクセント文字「o」に対する発音音声の出力と同期したハイライト(識別)表示HL、発音口型画像12e(No9)の切り替え合成表示に際しても、当該口型画像12e(No9)の合成先である通常のアニメ調キャラクタ(顔)画像12d(No1)が、例えば頭部の発汗や身体の動揺によって強く発音している状態を表現するアクセント対応の顔画像12d(No1′)に変更表示されるので、ユーザは検索見出語「Low」の発音音声とその発声タイミングおよび各文字「L」「o」「w」とその発音記号の対応部分、さらには各発音口型画像12e(No36→No9→No8)を、そのそれぞれの同期再生により容易に学習できるばかりでなく、アクセントに応じて発声強調するタイミングをリアルに学習できるようになる。
【0103】
なお、前記図11〜図13を参照して説明した見出語検索に伴うテキスト・発音音声・発音口型画像の同期再生処理では、辞書データベース12bとして予め記憶される英和辞書データの内容が、米国系1国の発音にのみ対応する内容である場合について説明したが、例えば、次の図14〜図16を参照して説明するように、辞書データベース12bとして予め記憶される英和辞書データの内容が、米国系および英国系の2国の発音に対応する内容を有する場合に、米国系または英国系の何れか1国の発音形態を指定して見出語検索に伴うテキスト・発音音声・発音口型画像の同期再生処理を行うようにしてもよい。
【0104】
図14は前記携帯機器10のメイン処理内の見出語検索処理に伴い米国/英国の2国の発音形態を収録した英和辞書を利用した場合の検索見出語表示画面G2を示す図である。
【0105】
辞書データベース12bに記憶されている例えば米国/英国の2国の発音形態を収録した英和辞書の辞書データに基づいて見出語検索を行うのに、入力部17aの「英和」キー17a5の操作により英和辞書の検索モードに設定した後に、検索対象の見出語(例えば「laugh」)を入力すると(ステップS7→S8)、当該入力された見出語と一致及び一致文字を先頭に含む複数の見出語が前記英和辞書の辞書データから検索されて読み出され、検索見出語の一覧(図示せず)として表示部18に表示される(ステップS9)。
【0106】
この検索見出語の一覧画面において、ユーザ入力した検索対象の見出語と一致する見出語(この場合「laugh」)がカーソルキーにより選択指示されて「訳/決定(音声)」キー17a4が操作されると(ステップS10)、当該選択検知された見出語「laugh」がRAM12B内の見出語メモリ12gに記憶されると共に、この見出語「laugh」に対応する米国/英国の2国の発音/品詞/意味内容などの辞書データが読み出されてRAM12B内の見出語対応辞書データメモリ12hに記憶され、図14に示すように、検索見出語表示画面G2として表示部18に表示される(ステップS11)。
【0107】
ここで、前記検索表示された見出語「laugh」について、その米国式発音[laef]または英国式発音[la:f]の何れか一方の発音音声を選択的に出力させるのと同時に、これに対応した見出語の文字,発音記号と発音の口型画像を同期表示させるために、検索見出語表示画面G2上の辞書データに表示されている米国方言または英国方言の識別子[米]または[英]の何れかが指定されると共に(ステップS11a)、「訳/決定(音声)」キー17a4が操作されると(ステップS12)、図8における同期再生処理に移行される(ステップSA)。
【0108】
図15は前記携帯機器10の見出語検索処理における同期再生処理に伴い米国式発音[米]を指定した場合に検索見出語表示画面G2上にウインドウ表示される見出語文字表示ウインドウW1および発音口型表示ウインドウW2の表示状態を示す図であり、同図(A)は検索見出語表示画面G2に対する見出語文字表示ウインドウW1および発音口型表示ウインドウW2の設定表示状態を示す図、同図(B)は米国式発音音声の出力に同期した見出語文字表示ウインドウW1および発音口型表示ウインドウW2の変化状態を示す図である。
【0109】
すなわち、前記検索見出語表示画面G2上の辞書データに表示されている米国方言または英国方言の識別子[米]または[英]の何れかが指定されて、図8における同期再生処理に移行されると、当該同期再生処理のステップA2では、例えば米国方言識別子[米]が指定された場合は、キャラクタ設定処理(ステップS2〜S6)において予め設定されたアニメ調キャラクタ画像12d(No1)に対応して米語用キャラクタ画像12d(No1US)が読み出され、RAM12B内の同期用イメージファイルメモリ12nに転送される。またこれと共に、辞書データベース12bに記憶されている今回の検索見出語「laugh」についての同期再生用リンクデータ(図2参照)に基づき、見出語検索画面G2上でテキスト・画像の同期再生用ウインドウW1,W2(図15参照)を設定するためのHTMLファイルがそのHTMLファイルNoに従い読み出され同期用HTMLファイルメモリ12jに書き込まれる。また、検索見出語のテキストデータ「laugh(米国方言発音記号付)」がそのテキストファイルNoに従い読み出され同期用テキストファイルメモリ12kに書き込まれる。また、検索見出語の米国方言の発音音声データがそのサウンドファイルNoに従い読み出され同期用サウンドファイルメモリ12mに書き込まれる(ステップA2)。
【0110】
すると、FLASHメモリ12A内に辞書タイムコードファイル12fとして記憶されている各種見出語対応の暗号化された音声・テキスト・画像の同期再生用タイムコードファイル12fnの中から、今回の検索見出語「laugh」に対応するタイムコードファイル12fn(図5参照)が、前記同期再生用リンクデータ(図2参照)に記述されたタイムコードファイルNoに従い解読復号化されて読み出され、RAM12B内のタイムコードファイルメモリ12iに転送されて格納される(ステップA3)。
【0111】
そして、前記検索見出語「laugh」に対応するタイムコードファイル12fnに従った発音音声・見出語文字・発音口型画像の同期再生処理が、既に説明した検索見出語「low」の場合と同様に、ステップA7〜A12による各コマンドコードに応じた再生処理および図9におけるテキスト対応口表示処理により開始されると、検索見出語表示画面G2上のテキスト同期再生用ウインドウW1には、検索見出語「laugh」と共に米国方言の発音記号が表示され、また、画像同期再生用ウインドウW2には、設定されたアニメ調キャラクタ画像で例えば米国旗Fを持っているデザインの米語用キャラクタ画像12d(No1US)が口型画像合成の対象画像として表示される。
【0112】
これにより、検索見出語「laugh」の米国方言の発音音声出力に同期して、図15(B)▲1▼〜▲3▼に示すように、テキスト同期再生用ウインドウW1では、当該検索見出語「laugh」およびその発音記号の先頭文字からのハイライト(識別)表示HLが順次なされると共に、画像同期再生用ウインドウW2では、前記米語用キャラクタ画像12d(No1US)をベースとして、その口画像エリア(X1,Y1;X2,Y2)に対し、各発音記号の口番号に対応した発音口型画像12e(Non1→Non2→Non3)が音声別口画像データ12eの中から読み出され順次切り替え合成されて表示される。
【0113】
そして、この場合にも前記同様のテキスト対応口表示処理に従って、検索見出語「Laugh」のアクセント文字「au」に対する発音音声の出力と同期したハイライト(識別)表示HL、発音口型画像12e(Non2)の切り替え合成表示に際し、当該口型画像12e(Non2)の合成先である米語用キャラクタ(顔)画像12d(No1US)が、例えば頭部の発汗や身体の動揺によって強く発音している状態を表現するアクセント対応の顔画像12d(No1US′)に変更表示されるので、ユーザは検索見出語「Laugh」の米国方言の発音音声とその発声タイミングおよび各文字「L」「au」「gh」とその発音記号の対応部分、さらには各発音口型画像12e(Non1→Non2→Non3)を、そのそれぞれの同期再生により容易に学習できるばかりでなく、米国方言アクセントに応じて発声強調するタイミングをリアルに学習できるようになる。
【0114】
図16は前記携帯機器10の見出語検索処理における同期再生処理に伴い英国式発音[英]を指定した場合に検索見出語表示画面G2上にウインドウ表示される見出語文字表示ウインドウW1および発音口型表示ウインドウW2の表示状態を示す図であり、同図(A)は検索見出語表示画面G2に対する見出語文字表示ウインドウW1および発音口型表示ウインドウW2の設定表示状態を示す図、同図(B)は英国式発音音声の出力に同期した見出語文字表示ウインドウW1および発音口型表示ウインドウW2の変化状態を示す図である。
【0115】
すなわち、前記図14で示した検索見出語表示画面G2上の辞書データに表示されている米国方言または英国方言の識別子[米]または[英]のうち、例えば英国方言識別子[英]が指定されて(ステップS11a)、図8における同期再生処理(ステップSA)に移行されると、当該同期再生処理のステップA2では、キャラクタ設定処理(ステップS2〜S6)において予め設定されたアニメ調キャラクタ画像12d(No1)に対応して英語用キャラクタ画像12d(No1UK)が読み出され、RAM12B内の同期用イメージファイルメモリ12nに転送される。またこれと共に、辞書データベース12bに記憶されている今回の検索見出語「laugh」についての同期再生用リンクデータ(図2参照)に基づき、見出語検索画面G2上でテキスト・画像の同期再生用ウインドウW1,W2(図16参照)を設定するためのHTMLファイルがそのHTMLファイルNoに従い読み出され同期用HTMLファイルメモリ12jに書き込まれる。また、検索見出語のテキストデータ「laugh(英国方言発音記号付)」がそのテキストファイルNoに従い読み出され同期用テキストファイルメモリ12kに書き込まれる。また、検索見出語の英国方言の発音音声データがそのサウンドファイルNoに従い読み出され同期用サウンドファイルメモリ12mに書き込まれる(ステップA2)。
【0116】
すると、FLASHメモリ12A内に辞書タイムコードファイル12fとして記憶されている各種見出語対応の暗号化された音声・テキスト・画像の同期再生用タイムコードファイル12fnの中から、今回の検索見出語「laugh」に対応するタイムコードファイル12fn(図5参照)が、前記同期再生用リンクデータ(図2参照)に記述されたタイムコードファイルNoに従い解読復号化されて読み出され、RAM12B内のタイムコードファイルメモリ12iに転送されて格納される(ステップA3)。
【0117】
そして、前記検索見出語「laugh」に対応するタイムコードファイル12fnに従った発音音声・見出語文字・発音口型画像の同期再生処理が、既に説明した検索見出語「low」の場合と同様に、ステップA7〜A12による各コマンドコードに応じた再生処理および図9におけるテキスト対応口表示処理により開始されると、検索見出語表示画面G2上のテキスト同期再生用ウインドウW1には、検索見出語「laugh」と共に英国方言の発音記号が表示され、また、画像同期再生用ウインドウW2には、設定されたアニメ調キャラクタ画像で例えば英国帽M1をかぶりステッキM2を持っているデザインの英語用キャラクタ画像12d(No1UK)が口型画像合成の対象画像として表示される。
【0118】
これにより、検索見出語「laugh」の英国方言の発音音声出力に同期して、図16(B)▲1▼〜▲3▼に示すように、テキスト同期再生用ウインドウW1では、当該検索見出語「laugh」およびその発音記号の先頭文字からのハイライト(識別)表示HLが順次なされると共に、画像同期再生用ウインドウW2では、前記英語用キャラクタ画像12d(No1UK)をベースとして、その口画像エリア(X1,Y1;X2,Y2)に対し、各発音記号の口番号に対応した発音口型画像12e(Non1→Non2→Non3)が音声別口画像データ12eの中から読み出され順次切り替え合成されて表示される。
【0119】
そして、この場合にも前記同様のテキスト対応口表示処理に従って、検索見出語「Laugh」のアクセント文字「au」に対する発音音声の出力と同期したハイライト(識別)表示HL、発音口型画像12e(Non2)の切り替え合成表示に際し、当該口型画像12e(Non2)の合成先である英語用キャラクタ(顔)画像12d(No1UK)が、例えば頭部の発汗や身体の動揺によって強く発音している状態を表現するアクセント対応の顔画像12d(No1UK′)に変更表示されるので、ユーザは検索見出語「Laugh」の英国方言の発音音声とその発声タイミングおよび各文字「L」「au」「gh」とその発音記号の対応部分、さらには各発音口型画像12e(Non1→Non2→Non3)を、そのそれぞれの同期再生により容易に学習できるばかりでなく、英国方言のアクセントに応じて発声強調するタイミングをリアルに学習できるようになる。
【0120】
次に、前記構成の携帯機器10のメイン処理に伴い、例えば英単語アクセントの正解/不正解を当てるテストを行うことができるアクセントテスト処理について説明する。
【0121】
図17は前記携帯機器10のアクセントテスト処理に伴い不正解を選択した場合の操作表示状態を示す図であり、同図(A)はアクセントテスト出題表示画面G3を示す図、同図(B)は出題対象の見出語表示画面G2に対する見出語文字表示ウインドウW1および発音口型表示ウインドウW2の設定表示状態を示す図、同図(C)は誤りアクセントの発音音声の出力に同期した見出語文字表示ウインドウW1および発音口型表示ウインドウW2の変化状態を示す図である。
【0122】
図18は前記携帯機器10のアクセントテスト処理に伴い正解を選択した場合の操作表示状態を示す図であり、同図(A)はアクセントテスト出題表示画面G3を示す図、同図(B)は出題対象の見出語表示画面G2に対する見出語文字表示ウインドウW1および発音口型表示ウインドウW2の設定表示状態を示す図、同図(C)は正解アクセントの発音音声の出力に同期した見出語文字表示ウインドウW1および発音口型表示ウインドウW2の変化状態を示す図である。
【0123】
すなわち、入力部17aにおける「アクセントテスト」キー17a6が操作されアクセントテストモードに設定されると(ステップS13)、辞書データベース12cに予め記憶されている辞書データの中からランダムに見出単語が選択され(ステップS14)、図17(A)に示すように、ランダム選択された単語「low」について「o」部分にアクセントのある正しいアクセントの発音記号と「u」部分にアクセントのある誤ったアクセントの発音記号とを選択項目Et/Efとして出題したアクセントテスト出題表示画面G3が表示部18に表示される(ステップS15)。
【0124】
このアクセントテスト出題表示画面G3において、カーソルキー17a2の操作により選択フレームXを移動させ、例えば誤ったアクセントの発音記号のある選択項目Efが選択検知されると(ステップS16)、前記キャラクタ設定処理(ステップS2〜S6)において予め発音口型画像の合成先として選択設定されていたキャラクタ画像およびその関連画像(この場合はアニメ調キャラクタ画像12d(No1)およびそのアクセント対応画像(No1′))が、例えば黄色の通常色から青色のキャラクタ画像(No1BL)(No1BL′)に変更設定される(ステップS17→S18)。
【0125】
またこれと共に、出題単語「low」に対応して辞書音声データ12cの中から読み出される発音音声データが、前記ユーザ選択された誤ったアクセントの発音記号に応じた音声データに補正される(ステップS19)。
【0126】
すると、出題単語「low」がRAM12B内の見出語メモリ12gに記憶されると共に、この見出語「low」に対応する発音/品詞/意味内容などの辞書データが読み出されてRAM12B内の見出語対応辞書データメモリ12hに記憶され、図17(B)に示すように、出題単語に対応した検索見出語表示画面G2として表示部18に表示される(ステップS20)。
【0127】
ここで、前記ユーザにより選択したアクセントの出題単語「low」について、その発音音声を出力させるのと同時に、当該見出単語の文字,発音記号と発音の口型画像を同期表示させるために、「訳/決定(音声)」キー17a4が操作されると(ステップS21)、図8における同期再生処理に移行される(ステップSA)。
【0128】
すると、同期再生処理のステップA2では、前記誤ったアクセントのユーザ選択に応じて青色に変更されたアニメ調キャラクタ画像12d(No1BL)が読み出され、RAM12B内の同期用イメージファイルメモリ12nに転送される。またこれと共に、辞書データベース12bに記憶されている今回の出題単語「low」についての同期再生用リンクデータ(図2参照)に基づき、検索見出語表示画面G2上でテキスト・画像の同期再生用ウインドウW1,W2(図17(B)参照)を設定するためのHTMLファイルがそのHTMLファイルNoに従い読み出され同期用HTMLファイルメモリ12jに書き込まれる。また、出題単語のテキストデータ「low(誤り発音記号付)」が読み出され同期用テキストファイルメモリ12kに書き込まれる。また、出題単語の誤りアクセントに応じて補正した発音音声データが読み出され同期用サウンドファイルメモリ12mに書き込まれる(ステップA2)。
【0129】
すると、FLASHメモリ12A内に辞書タイムコードファイル12fとして記憶されている各種見出語対応の暗号化された音声・テキスト・画像の同期再生用タイムコードファイル12fnの中から、今回の出題単語「low」に対応するタイムコードファイル12fn(図5参照)が、前記同期再生用リンクデータ(図2参照)に記述されたタイムコードファイルNoに従い解読復号化されて読み出され、RAM12B内のタイムコードファイルメモリ12iに転送されて格納される(ステップA3)。
【0130】
そして、前記出題単語「low」に対応するタイムコードファイル12fnに従った誤りアクセントの発音音声・見出語文字・発音口型画像の同期再生処理が、既に説明した検索見出語「low」の場合と同様に、ステップA7〜A12による各コマンドコードに応じた再生処理および図9におけるテキスト対応口表示処理により開始される。すると、図17(B)に示すように、検索見出語表示画面G2上のテキスト同期再生用ウインドウW1(Ef)には、出題単語「low」と共にユーザ選択による誤ったアクセントの発音記号が表示され、また、画像同期再生用ウインドウW2には、誤りアクセントのユーザ選択により青色変更されたアニメ調キャラクタ画像12d(No1BL)が口型画像合成の対象画像として表示される。
【0131】
これにより、出題単語「low」に対応する誤ったアクセントの発音音声出力に同期して、図17(C)▲1▼〜▲3▼に示すように、テキスト同期再生用ウインドウW1(Ef)では、当該出題単語「low」およびその誤った発音記号の先頭文字からのハイライト(識別)表示HLが順次なされると共に、画像同期再生用ウインドウW2では、前記誤ったアクセントの選択により青色変更されたアニメ調キャラクタ画像12d(No1BL)をベースとして、その口画像エリア(X1,Y1;X2,Y2)に対し、各発音記号の口番号に対応した発音口型画像12e(No36→No9→No8)が音声別口画像データ12eの中から読み出され順次切り替え合成されて表示される。
【0132】
そして、この場合にも前記同様のテキスト対応口表示処理に従って、見出単語「Low」の誤ったアクセント文字「u」に対する発音音声の出力と同期したハイライト(識別)表示HL、発音口型画像12e(No8)の切り替え合成表示に際し、当該口型画像12e(No8)の合成先である青色変更されたアニメ調キャラクタ(顔)画像12d(No1BL)が、例えば頭部の発汗や身体の動揺によって強く発音している状態を表現するアクセント対応の青色顔画像12d(No1BL′)に変更表示されるので、ユーザは出題単語「Low」の誤ったアクセントの発音音声とその誤った発声タイミングおよび各対応する発音口型画像12e(No36→No9→No8)を、誤ったアクセントによるものとして明確に学習できるようになる。
【0133】
一方、図18(A)に示すように、アクセントテスト出題表示画面G3において、カーソルキー17a2の操作により選択フレームXを移動させ、例えば正しいアクセントの発音記号のある選択項目Etが選択検知されると(ステップS16)、前記キャラクタ画像12d(No1)の青色変更処理(ステップS18)や誤りアクセントに応じた発音音声の補正処理(ステップS19)が行われることなく、図8における同期再生処理に移行される(ステップS17→SA)。
【0134】
すると、前記図13を参照して前述した、アニメ調キャラクタ画像12e(No1)が設定されている状態での検索見出語「low」に対応する発音音声・テキスト・発音口型画像の同期再生処理と同様にして、図18(B)に示すように、検索見出語表示画面G2上のテキスト同期再生用ウインドウW1(Et)には、出題単語「low」と共にユーザ選択による正しいアクセントの発音記号が表示され、また、画像同期再生用ウインドウW2には、予め設定された通りの通常色のアニメ調キャラクタ画像12d(No1)が口型画像合成の対象画像として表示される。
【0135】
これにより、出題単語「low」に対応する正しいアクセントの発音音声出力に同期して、図18(C)▲1▼〜▲3▼に示すように、テキスト同期再生用ウインドウW1(Et)では、当該出題単語「low」およびその正しい発音記号の先頭文字からのハイライト(識別)表示HLが順次なされると共に、画像同期再生用ウインドウW2では、予め設定された通りの通常色のアニメ調キャラクタ画像12d(No1)をベースとして、その口画像エリア(X1,Y1;X2,Y2)に対し、各発音記号の口番号に対応した発音口型画像12e(No36→No9→No8)が音声別口画像データ12eの中から読み出され順次切り替え合成されて表示される。
【0136】
そして、この場合にも前記同様のテキスト対応口表示処理に従って、見出単語「Low」の正しいアクセント文字「o」に対する発音音声の出力と同期したハイライト(識別)表示HL、発音口型画像12e(No9)の切り替え合成表示に際し、当該口型画像12e(No9)の合成先であるアニメ調キャラクタ(顔)画像12d(No1)が、例えば頭部の発汗や身体の動揺によって強く発音している状態を表現するアクセント対応の顔画像12d(No1′)に変更表示されるので、ユーザは出題単語「Low」の正しいアクセントの発音音声とその正しい発声タイミングおよび各対応する発音口型画像12e(No36→No9→No8)を明確に学習できるようになる。
【0137】
したがって、前記構成の第1実施形態の携帯機器10による見出語検索に伴う発音音声・テキスト・発音口型画像の同期再生機能によれば、検索対象の見出語「low」を入力して当該検索見出語に対応する辞書データを検索し、検索見出語表示画面G2として表示させた状態で、「訳/決定(音声)」キー17a4を操作すると、当該検索見出語「low」のタイムコードファイル12f23に従い、ステレオ音声出力部19bから出力される発音音声に同期して、テキスト同期再生用ウインドウW1において、検索見出語「low」およびその発音記号のハイライト(識別)表示HLが順次なされると共に、画像同期再生用ウインドウW2では、予め設定されたキャラクタ画像12d(No3)をベースとして、その口画像エリア(X1,Y1;X2,Y2)に対し、各発音記号の口番号に対応した発音口型画像12e(No36→No9→No8)が音声別口画像データ12eの中から読み出され順次切り替え合成されて表示される。
【0138】
しかも、前記検索見出語「Low」のアクセント文字「o」に対する発音音声の出力と同期したハイライト(識別)表示HL、発音口型画像12e(No9)の切り替え合成表示に際しては、当該口型画像12e(No9)の合成先であるキャラクタ(顔)画像12d(No3)が、例えば頭部の発汗や口元の動揺によって強く発音している状態を表現するアクセント対応の顔画像12d(No3′)に変更表示されるので、ユーザは検索見出語「Low」の発音音声とその発声タイミングおよび各文字「L」「o」「w」とその発音記号の対応部分、さらには各発音口型画像12e(No36→No9→No8)を、そのそれぞれの同期再生により容易に学習できるばかりでなく、アクセントに応じて発声強調するタイミングをリアルに学習できるようになる。
【0139】
さらに、前記構成の第1実施形態の携帯機器10による見出語検索に伴う発音音声・テキスト・発音口型画像の同期再生機能によれば、例えば米国方言と英国方言の発音記号を有する辞書データベース12bに基づき見出語検索を行った際に、図15または図16で示したように、米音[米]または英音[英]を指定して「訳/決定(音声)」キー17a4を操作すると、指定された米音または英音の発音音声に同期して、テキスト同期再生用ウインドウW1において、検索見出語「laugh」およびその米音または英音発音記号のハイライト(識別)表示HLが順次なされると共に、画像同期再生用ウインドウW2では、予め設定されたキャラクタ画像12d(No1)が米音表現用(No1US)または英音表現用(No1UK)としてベース表示され、その口画像エリア(X1,Y1;X2,Y2)に対し、米音または英音の各発音記号の口番号に対応した発音口型画像12e(Non1→Non2→Non3)が音声別口画像データ12eの中から読み出され順次切り替え合成されて表示されるので、検索見出語に対応する米国方言の発音音声およびその発音記号・発音口型と英国方言の発音音声およびその発音記号・発音口型とを明確に区別して学習できるようになる。
【0140】
また、前記構成の第1実施形態の携帯機器10による見出語検索に伴う発音音声・テキスト・発音口型画像の同期再生機能によれば、辞書データベース12bに収録される各見出単語には、正しいアクセントの発音記号と共に誤ったアクセントの発音記号を有し、図17および図18で示すように、「アクセントテスト」キー17a6が操作されると、ランダム選択された見出単語「low」が正しいアクセントの発音記号および誤ったアクセントの発音記号と共にアクセントテスト出題表示画面G3として表示される。そして、正しいアクセントの発音記号が選択された場合には、その正しい発音音声出力に同期して通常の設定キャラクタ画像12d(No1)をベースとした各発音口型画像12e(No36→No9→No8)の切り替え合成表示が行われ、誤ったアクセントの発音記号が選択された場合には、その誤った発音音声出力に同期して青色変更されたキャラクタ画像12d(No1BL)をベースとした各発音口型画像12e(No36→No9→No8)の切り替え合成表示が行われ、しかも正誤何れのアクセント部分の同期再生時にも、前記口型画像合成ベースとしてのキャラクタ画像12e(No1)(No1BL)がアクセント対応のキャラクタ画像12e(No1′)(No1BL′)に変更表示されるので、各種単語の正しいアクセントの発音と、誤ったアクセントの発音とを、そのそれぞれに応じた音声・テキスト・画像の同期再生により明確に学習できるようになる。
【0141】
なお、前記第1実施形態では、検索見出語に対応する発音音声・テキスト(発音記号付き)・発音口型画像の同期生再処理を、タイムコードファイル12fに従った同期再生処理による発音音声出力に同期させたテキスト文字の順次ハイライト(識別)表示、および当該1文字ずつの順次識別表示に伴い割り込みで実行されるテキスト対応口表示処理による識別表示文字対応の発音記号に応じた発音口型画像の切り替え合成表示により行う構成としたが、次の第2実施形態おいて説明するように、アクセント記号付きの発音記号を含む各種の発音記号とそのそれぞれの発音音声データおよび発音顔画像を予め対応付けて複数組み記憶させ、再生すべき見出語の文字を先頭から順番に強調表示させるのに伴い、順次その強調表示文字の発音記号に対応付けられた発音音声データの出力および顔画像データの表示を行う構成としてもよい。
【0142】
(第2実施形態)
図19は前記携帯機器10の第2実施形態の見出語同期再生処理を示すフローチャートである。
【0143】
すなわち、この第2実施形態の携帯機器10では、アクセント記号付きの発音記号を含む各種の発音記号と、そのそれぞれの発音音声データ、および当該各種の発音記号に応じた発音音声データに対応して異なる形態の口部分や表情からなる発音顔画像を、予めメモリ12内に複数組み記憶させる。
【0144】
そして、例えば辞書データベース12bとして予め記憶される英和辞書を対象に、任意の見出語「low」が入力されて検索され、前記図11で示したように、検索見出語表示画面G2として表示された状態で、その発音音声および発音顔画像の同期再生を行わせるべく「訳/決定(音声)」キー17a4が操作されると、図19に示す第2実施形態の同期再生処理が開始される。
【0145】
この第2実施形態の同期再生処理が開始されると、前記図12または図13で示すように、まず、検索見出語表示画面G2上にテキスト同期再生用ウインドウW1が開かれ検索見出語「low」の各文字と発音記号がその発音順に先頭から強調識別表示HLされる(ステップC1)。そして、この強調識別表示HLされた見出文字の発音記号が読み出されて(ステップC2)、アクセント記号付きであるか否か判断される(ステップC3)。
【0146】
ここで、図12(B)▲1▼または図13(B)▲1▼で示すように、今回強調表示HLされた見出単語「low」における文字「l」の発音記号がアクセント記号無しである場合には、前記メモリ12に予め記憶された当該発音記号に対応するアクセント無しの発音音声データが読み出されてステレオ音声出力部19bから出力されるのと共に(ステップC3→C4)、これに対応付けられたアクセント無しの発音顔画像が読み出されて画像同期再生用ウインドウW2に表示される(ステップC5)。
【0147】
すると、現在出力中の検索見出語「low」の次の文字「o」が読み出され(ステップC6→C7)、再び前記ステップC1からの処理に戻り、図12(B)▲2▼または図13(B)▲2▼で示すように、その発音記号と共に強調識別表示HLされる(ステップC1)。
【0148】
そして、今回強調表示HLされた見出単語「low」における文字「o」の発音記号がアクセント記号有りであると判断された場合には(ステップC2,C3)、前記メモリ12に予め記憶された当該発音記号に対応するアクセント有りの発音音声データが読み出されてステレオ音声出力部19bから出力されるのと共に(ステップC3→C8)、図12(C)▲2▼または図13(B)▲2▼で示すように、これに対応付けられた例えば頭部の発汗や身体の動揺によってアクセント有り表現する発音顔画像が読み出されて画像同期再生用ウインドウW2に表示される(ステップC9)。
【0149】
したがって、この第2実施形態の携帯機器10による場合でも、検索見出語「Low」のアクセント文字「o」をハイライト(識別)表示HLしたことに伴う、発音音声の出力および発音顔画像の表示に際しては、そのアクセント付きの発音記号に基づき当該発音顔画像が、例えば頭部の発汗や身体の動揺によって強く発音している状態を表現するアクセント対応の顔画像として表示されるので、ユーザは検索見出語「Low」の各文字「L」「o」「w」と発音音声、さらには各発音顔画像を、そのそれぞれの対応出力により容易に学習できるばかりでなく、アクセントに応じて発声強調する部分をリアルに学習できるようになる。
【0150】
なお、この第2実施形態において、前記メモリ12に予め記憶されたアクセント記号付きの発音記号を含む各種の発音記号と、そのそれぞれの発音音声データ、および当該各種の発音記号に応じた発音音声データに対応して異なる形態の口部分や表情からなる発音顔画像について、アクセント付き発音記号に対応付けられた発音音声の出力はアクセント無し発音記号に対応付けられた発音音声より大きく設定され、また、アクセント付き発音記号に対応付けられた発音顔画像の口部分の開き具合はアクセント無し発音記号に対応付けられた発音顔画像の口部分の開き具合より大きく設定される。さらに、この顔画像における表情は、アクセント付き発音記号に対応付けられた発音顔画像の表情の方が、アクセント無し発音記号に対応付けられた発音顔画像の表情よりも強調されて設定される。
【0151】
なお、前記第2実施形態では、アクセント記号付きの発音記号を含む各種の発音記号と、そのそれぞれの発音音声データ、および当該各種の発音記号に応じた発音音声データに対応して異なる形態の口部分や表情からなる発音顔画像を予め記憶し、検索見出語の各文字をその発音順に強調表示すると共に、その発音記号に対応付けられた発音音声を読み出して出力し、また同発音記号に対応付けられ発音顔画像を読み出して表示する構成としたが、次の第3実施形態において説明するように、辞書データベース12bにある各見出語のそれぞれに対応して当該見出し語の発音音声と発音顔画像とを予め組み合わせて記憶させ、検索見出語の文字表示に伴いその発音音声および発音顔画像を読み出して出力し、この際の発音音声信号のピークレベルを検出してアクセント部分を判断し、前記発音顔画像の口や表情の形態を異なる表示形態に変更制御する構成としてもよい。
【0152】
(第3実施形態)
図20は前記携帯機器10の第3実施形態の見出語同期再生処理を示すフローチャートである。
【0153】
すなわち、この第3実施形態の携帯機器10では、辞書データベース12bの各辞書データにある各見出語のそれぞれに対応して当該見出し語の発音音声と発音顔画像とを予め組み合わせて記憶させる。
【0154】
そして、例えば辞書データベース12bとして予め記憶される英和辞書を対象に、任意の見出語「low」が入力されて検索され、前記図11で示したように、検索見出語表示画面G2として表示された状態で、その発音音声および発音顔画像の同期再生を行わせるべく「訳/決定(音声)」キー17a4が操作されると、図20に示す第3実施形態の同期再生処理が開始される。
【0155】
この第3実施形態の同期再生処理が開始されると、前記図12または図13で示すように、まず、検索見出語表示画面G2上にテキスト同期再生用ウインドウW1が開かれ検索見出語「low」の各文字がその発音順に先頭から強調識別表示HLされる(ステップD1)。そして、この強調識別表示HLされた見出文字に対応する部分の発音音声データが読み出され(ステップD2)、ステレオ音声出力部19bから出力される(ステップD3)。
【0156】
ここで、例えば今回強調表示HLされた見出単語「low」における文字「l」に対応する部分の発音音声データの信号(波形)レベルが一定値以上の音声信号レベル(アクセント部分)か否か判断されるもので(ステップD4)、一定音声信号レベル以上ではない、つまりアクセント部分ではないと判断された場合には、当該検索見出語に対応付けられて記憶された発音顔画像が読み出されてそのまま画像同期再生用ウインドウW2に表示される(ステップD5)。
【0157】
すると、現在出力中の検索見出語「low」の次の文字「o」が読み出され(ステップD6→D7)、再び前記ステップD1からの処理に戻り、強調識別表示HLされる(ステップD1)。
【0158】
すると、今回強調識別表示HLされた見出文字「o」に対応する部分の発音音声データが読み出され(ステップD2)、ステレオ音声出力部19bから出力されると共に(ステップD3)、当該強調表示HLされた単語文字「o」に対応する部分の発音音声データの信号(波形)レベルが一定値以上の音声信号レベル(アクセント部分)か否か判断される(ステップD4)。
【0159】
ここで、一定音声信号レベル以上である、つまりアクセント部分であると判断された場合には、当該検索見出語に対応付けられて記憶された発音顔画像が読み出されると共に、当該顔画像はその口部分の開き具合が大きくまたその表情が強い顔画像に変更制御(例えば図12(B)▲2▼→図12(C)▲2▼)され、画像同期再生用ウインドウW2に表示される(ステップD4→D8)。
【0160】
なお、前記発音音声の音声信号波形レベルが一定値以上と判断されてアクセント部分であると判断された場合には、強調表示されている検索見出語の対応文字をさらに表示色の変更や付加あるいは文字フォントの変更などにより、アクセント部分の文字であることを示す形態に変更制御して表示させる構成としてもよい。
【0161】
したがって、この第3実施形態の携帯機器10による場合でも、検索見出語「Low」のアクセント文字「o」をハイライト(識別)表示HLしたことに伴う、発音音声の出力および発音顔画像の表示に際しては、そのときの発音音声信号レベルが一定値以上であることに基づき当該発音顔画像が、例えば口部分の開き具合が大きくまたその表情が強いアクセント対応の顔画像に変更制御されて表示されるので、ユーザは検索見出語「Low」の各文字「L」「o」「w」とその発音音声、さらには発音顔画像を、そのそれぞれの対応出力により容易に学習できるばかりでなく、アクセントに応じて発声強調する部分をリアルに学習できるようになる。
【0162】
なお、前記各実施形態における検索見出語の各文字(テキスト)・発音音声・発音顔画像(含む発音口型画像)の同期再生機能の説明では、当該見出語のアクセントが1箇所に存在する場合について説明したが、検索見出語のアクセントが第1アクセントと第2アクセントの2箇所に存在する場合には、各アクセント部分に対応して表示するアクセント対応の発音顔画像(含む発音口型画像)を、第1アクセントの場合と第2アクセントの場合とで、例えば口の開き具合の大小や表情の強弱などによって異なる形態にして表示させる構成としてもよい。
【0163】
なお、前記各実施形態において記載した携帯機器10による各処理の手法、すなわち、図7のフローチャートに示す第1実施形態での辞書処理プログラム12aに従ったメイン処理、図8のフローチャートに示す前記メイン処理に伴う見出語同期再生処理、図9のフローチャートに示す前記見出語同期再生処理に伴う各見出語文字のハイライト表示に応じて割り込みで実行されるテキスト対応口表示処理、図19のフローチャートに示す第2実施形態での見出語同期再生処理、図20のフローチャートに示す第3実施形態での見出語同期再生処理などの各手法は、何れもコンピュータに実行させることができるプログラムとして、メモリカード(ROMカード、RAMカード、DATA・CARD等)、磁気ディスク(フロッピディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の外部記録媒体13に格納して配布することができる。そして、通信ネットワーク(インターネット)Nとの通信機能を備えた種々のコンピュータ端末は、この外部記録媒体13に記憶されたプログラムを記録媒体読取部14によってメモリ12に読み込み、この読み込んだプログラムによって動作が制御されることにより、前記各実施形態において説明した検索見出語に対応する各文字(テキスト)・発音音声・発音顔画像(含む発音口型画像)の同期再生機能を実現し、前述した手法による同様の処理を実行することができる。
【0164】
また、前記各手法を実現するためのプログラムのデータは、プログラムコードの形態として通信ネットワーク(インターネット)N上を伝送させることができ、この通信ネットワーク(インターネット)Nに接続されたコンピュータ端末から前記のプログラムデータを取り込み、前述した検索見出語に対応する各文字(テキスト)・発音音声・発音顔画像(含む発音口型画像)の同期再生機能を実現することもできる。
【0165】
なお、本願発明は、前記各実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、前記各実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、各実施形態に示される全構成要件から幾つかの構成要件が削除されたり、幾つかの構成要件が組み合わされても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除されたり組み合わされた構成が発明として抽出され得るものである。
【0166】
【発明の効果】
以上のように、本発明の請求項1(請求項10)に係る音声表示出力制御装置(音声表示出力制御処理プログラム)によれば、音声データ出力手段により音声データを出力し、テキスト同期表示制御手段により前記音声データの出力に同期してテキストを表示させ、画像表示制御手段により少なくとも口の部分を含む画像を表示させ、口画像表示制御手段により前記表示画像に含まれる口の部分について、前記音声出力される音声データに同期して当該音声データに対応した口型の画像を表示させる。そして、アクセント検出手段により前記音声データまたは前記テキストのアクセントを検出し、画像変化表示制御手段により前記アクセントの検出に応じて前記画像表示制御手段により表示される画像を変化させる。これにより、音声データの出力に同期したテキストと画像の表示および画像に含まれる口部分で音声データに対応した口型の画像を表示できるだけでなく、音声データまたはテキストのアクセント検出に応じて表示画像を変化でき、アクセントのタイミングを明確に表現できるようになる。
【0167】
本発明の請求項2に係る音声表示出力制御装置によれば、前記請求項1に係る音声表示出力制御装置にあって、さらに、辞書検索手段により入力された見出語に対応した辞書データを検索し、辞書データ表示制御手段により前記辞書検索された見出語に対応した辞書データを表示させる。そして、前記音声データは辞書検索手段により検索された見出語の発音音声データで、前記テキストは辞書検索手段により検索された見出語のテキストであり、前記音声データ出力手段による見出語発音音声データの出力、および前記テキスト同期表示制御手段による前記見出語発音音声データに同期した見出語テキストの表示、および前記画像表示制御手段による画像の表示は、前記辞書データ表示制御手段による検索見出語に対応した辞書データの表示状態において行う。これにより、入力した見出語に対応した辞書データの検索表示に伴い、当該見出語発音音声データの出力、これに同期した見出語テキストの表示および画像の表示と口型画像の同期表示ができ、しかもアクセント検出に応じた表示画像の変化により見出語アクセントのタイミングを明確に表現できるようになる。
【0168】
本発明の請求項3(請求項11)に係る音声表示出力制御装置(音声表示出力制御処理プログラム)によれば、単語記憶手段により複数の単語と当該各単語それぞれの正しいアクセント付き発音記号と誤りアクセント付き発音記号とを対応付けて記憶し、音声データ出力手段により前記記憶した単語の正しいアクセントの発音音声データまたは誤りアクセントの発音音声データを出力し、テキスト同期表示制御手段により前記音声出力される単語の発音音声データに同期して当該単語のテキストを表示させ、画像表示制御手段により少なくとも口の部分を含む画像を、前記音声データ出力手段により正しいアクセントの発音音声データが出力される場合と誤りアクセントの発音音声データが出力される場合とで異なる表示形態にして表示させ、さらに、口画像表示制御手段により前記表示画像に含まれる口の部分について、前記音声データ出力手段により出力される発音音声データに同期して当該発音音声データに対応した口型の画像を表示させる。そして、アクセント検出手段により前記テキスト同期表示制御手段による単語テキストの同期表示に伴い、前記単語記憶手段により記憶した該当単語のアクセント付き発音記号から該単語のアクセントを検出し、画像変化表示制御手段により前記アクセント検出に応じて前記画像表示制御手段により表示される画像を変化させる。これにより、単語記憶手段により記憶される単語について正しいアクセントの発音音声データと誤りアクセントの発音音声データとを出力できるだけでなく、この発音音声データに同期した単語テキストの表示および表示画像に含まれる口部分についての発音音声データに対応した口型画像を表示でき、しかも単語アクセントの検出に応じて表示画像を変化できるので、単語についての正しいアクセントと誤りアクセントを容易かつ明確なタイミングで学習できるようになる。
【0169】
本発明の請求項4に係る音声表示出力制御装置によれば、前記請求項3に係る音声表示出力制御装置にあって、さらに、正誤アクセント表示制御手段により前記単語記憶した単語と当該単語に対応付けられた正しいアクセント付き発音記号と誤りアクセント付き発音記号とを並べて表示させ、正誤アクセント選択手段により前記並べて表示された単語の正しいアクセント付き発音記号か誤りアクセント付き発音記号かの何れかを選択する。すると、音声データ出力手段は、前記正誤アクセント選択手段による単語アクセントの正誤選択に応じて、該当単語の正しいアクセントの発音音声データまたは誤りアクセントの発音音声データを出力する。これにより、さらに、単語記憶手段により記憶される単語について正しいアクセント付き発音記号か誤りアクセント付き発音記号かを選択してその発音音声データを出力でき、しかも、この発音音声データに同期した単語テキストの表示および表示画像に含まれる口部分についての発音音声データに対応した口型画像を表示でき、単語アクセントの検出に応じて表示画像を変化できるので、単語についての正しいアクセントと誤りアクセントをさらに容易かつ明確なタイミングで学習できるようになる。
【0170】
本発明の請求項5に係る音声表示出力制御装置によれば、記憶手段により複数の見出語と当該各見出語それぞれの少なくとも2以上の地域の発音音声データとを対応付けて記憶し、地域指定手段により前記記憶した見出語の2以上の地域の発音音声データのうち何れかの地域を指定する。すると、音声データ出力手段により前記発音音声データの地域指定に応じて、該当見出語の指定地域の発音音声データを出力し、テキスト同期表示制御手段により前記音声出力される見出語の指定地域の発音音声データに同期して当該見出語のテキストを表示させ、画像表示制御手段により少なくとも口の部分を含む画像を、前記指定地域に応じて異なる表示形態にして表示させ、口画像表示制御手段により前記表示画像に含まれる口の部分について、前記音声出力される発音音声データに同期して当該発音音声データに対応した口型の画像を表示させる。そして、アクセント検出手段により前記見出語テキストの同期表示に伴い、当該見出語のアクセントを検出し、画像変化表示制御手段により前記アクセントの検出に応じて前記画像表示制御手段により表示される画像を変化させる。これにより、同一の見出語で異なる地域方言のある発音音声データを指定して出力できると共に、この発音音声データの出力に同期して当該見出語テキストおよび表示画像中口部分の口型画像を表示でき、しかも指定地域に応じて異なる表示形態の画像を表示でき、アクセント検出によって当該画像の変化表示もできるので、指定地域の発音音声データとアクセントのタイミングを容易かつ明確に学習できるようになる。
【0171】
本発明の請求項6(請求項12)に係る画像表示制御装置(画像表示制御処理プログラム)によれば、単語の見出語を含む一連の発音対象データの発音順の表示に従って、口または表情を備えた顔画像を変更制御する画像表示制御装置であって、第1の記憶手段により前記発音対象データとアクセント記号付き発音記号を含む発音記号とを対応付けて複数組み記憶し、第2の記憶手段によりアクセント記号付き発音記号を含む発音記号とその音声および顔画像を対応付けて複数組み記憶する。そして、第1の制御手段により前記一連の発音対象データの発音順の表示に伴い、この発音対象データに対応する発音記号を前記第1の記憶手段から読み出し、この読み出された発音記号に対応する音声と顔画像とを前記第2の記憶手段から読み出し、この読み出された音声を外部へ出力すると共に、読み出された顔画像を表示するように制御し、第2の制御手段により前記第1の制御によって音声を外部に出力する際に、前記読み出された発音記号の中にアクセント記号付き発音記号が含まれているか否かを判別し、アクセント記号が含まれていると判別された際は、このアクセント記号付き発音記号に対応する音声と顔画像とを前記第2の記憶手段から読み出し、この読み出された音声を外部へ出力すると共に、読み出された顔画像を表示するように制御する。これにより、単語の見出し語などの発音対象データの発音順の表示に伴い、当該発音対象データの発音記号に対応する音声出力と顔画像表示ができると共に、そのアクセント部分では該アクセント記号付き発音記号に対応する音声出力と顔画像表示ができ、容易かつ明確に単語などの発音音声とこの発音に伴う顔の表現およびそのアクセント部分での発音音声とこのアクセント部分の発音に伴う顔の表現を学習できるようになる。
【0172】
本発明の請求項7に係る画像表示制御装置によれば、前記請求項6に係る画像表示制御装置にあって、前記第2の記憶手段に記憶されているアクセント記号付き発音記号を含む発音記号は、アクセント記号が付いている発音記号とアクセント記号が付いていない発音記号とからなり、前記アクセント記号が付いている発音記号に対応付けて記憶されている音声および顔画像と前記アクセント記号が付いていない発音記号に対応付けて記憶されている音声および顔画像とは異なっている。これにより、単語の見出し語などの発音対象データのアクセント記号の無い部分での発音音声とこれに伴う顔の表現、そしてアクセント記号がある部分での発音音声とこれに伴う顔の表現の相異をより明確に学習できるようになる。
【0173】
また、本発明の請求項8に係る画像表示制御装置によれば、単語の見出語を含む一連の発音対象データの発音順の表示に従って、口または表情を備えた顔画像を変更制御する画像表示制御装置であって、記憶手段により前記発音対象データとその音声および顔画像を対応付けて複数組み記憶し、検出手段により前記記憶されている音声の信号波形のうち、アクセント部分に対応する信号波形のピーク部分を検出し、表示制御手段により前記検出されたアクセント部分の音声に対応する顔画像を前記記憶手段から読み出しこの読み出された顔画像を、アクセント部分以外の他の信号波形部分の音声に対応する顔画像と異なる表示形態で表示するように制御する。これにより、単語の見出語などの発音対象データの発音順の表示に伴い、その発音音声に対応する顔画像を表示でき、しかも音声信号波形のピーク部分によって検出されるアクセント部分では異なる表示形態にした顔画像を表示でき、アクセント部分での発音に伴う顔の表現をより明確に学習できるようになる。
【0174】
また、本発明の請求項9に係る画像表示制御装置によれば、前記請求項8に係る画像表示制御装置にあって、前記表示制御手段は、前記検出手段により検出されたアクセント部分に対応する発音対象データの部分の表示を、アクセント部分以外の他の信号波形部分に対応する発音対象データの部分の表示と異なる表示形態で表示するように制御するテキスト表示制御手段を備えている。これにより、発音対象データの発音音声に対応する顔画像の表示に加え、さらに、発音対象データのアクセント部分の表示を、該アクセント部分以外の発音対象データの表示と異なる表示形態にして表示できるので、発音対象データのアクセント部分およびその発音音声の発声に伴う顔の表現をより明確に学習できるようになる。
【0175】
よって、本発明によれば、音声出力に同期した画像の表示において、アクセントのタイミングを明確に現すことが可能になる音声表示出力制御装置、画像表示制御装置、および音声表示出力制御処理プログラム、画像表示制御処理プログラムを提供できる。
【図面の簡単な説明】
【図1】本発明の音声表示出力制御装置(画像表示制御装置)の実施形態に係る携帯機器10の電子回路の構成を示すブロック図。
【図2】前記携帯機器10のメモリ12に記憶される辞書データベース12bのうち1つの見出語「low」についての同期再生用リンクデータを示す図であり、同図(A)は各ファイルNoと格納先アドレスを示すテーブル、同図(B)は当該テキストファイルNoに従い格納されているテキストデータ「low」を示す図、同図(C)はテキスト口同期ファイルNoに従い格納されているテキストの文字,発音記号,口型番号を示す図。
【図3】前記携帯機器10のメモリ12に記憶され、辞書の見出語検索における発音口型画像の同期表示のためにユーザ設定により選択的に使用されるキャラクタ画像データ12dを示す図。
【図4】前記携帯機器10のメモリ12に記憶され、辞書の見出語検索における発音口型画像の同期表示のためにキャラクタ画像(12d:No1〜No3)の口画像エリア(X1,Y1,X2,Y2)に合成表示される音声別口画像データ12eを示す図。
【図5】前記携帯機器10のメモリ12に格納された辞書タイムコードファイル12fにおける見出語「low」に対応付けられたファイルNo23のタイムコードファイル12f23(12i)を示す図。
【図6】前記携帯機器10の辞書タイムコードファイル12fn(図5参照)にて記述される各種コマンドのコマンドコードとそのパラメータデータに基づき解析処理される命令内容を対応付けて示す図。
【図7】前記携帯機器10の辞書処理プログラム12aに従ったメイン処理を示すフローチャート。
【図8】前記携帯機器10のメイン処理に伴う見出語同期再生処理を示すフローチャート。
【図9】前記携帯機器10の見出語同期再生処理に伴う各見出語文字のハイライト表示に応じて割り込みで実行されるテキスト対応口表示処理を示すフローチャート。
【図10】前記携帯機器10のメイン処理内のキャラクタ設定処理に伴う同期再生用キャラクタ画像の設定表示状態を示す図。
【図11】前記携帯機器10のメイン処理内の見出語検索処理に伴う検索見出語表示画面G2を示す図。
【図12】前記携帯機器10の見出語検索処理における同期再生処理に伴いキャラクタ画像No3の設定状態において検索見出語表示画面G2上にウインドウ表示される見出語文字表示ウインドウW1および発音口型表示ウインドウW2の表示状態を示す図であり、同図(A)は検索見出語表示画面G2に対する見出語文字表示ウインドウW1および発音口型表示ウインドウW2の設定表示状態を示す図、同図(B)は発音音声の出力に同期した見出語文字表示ウインドウW1およびアクセント未対応の発音口型表示ウインドウW2の変化状態を示す図、同図(C)は発音音声の出力に同期した見出語文字表示ウインドウW1およびアクセント対応の発音口型表示ウインドウW2の変化状態を示す図。
【図13】前記携帯機器10の見出語検索処理における同期再生処理に伴いキャラクタ画像No1の設定状態において検索見出語表示画面G2上にウインドウ表示される見出語文字表示ウインドウW1および発音口型表示ウインドウW2の表示状態を示す図であり、同図(A)は検索見出語表示画面G2に対する見出語文字表示ウインドウW1および発音口型表示ウインドウW2の設定表示状態を示す図、同図(B)は発音音声の出力に同期した見出語文字表示ウインドウW1および発音口型表示ウインドウW2の変化状態を示す図。
【図14】前記携帯機器10のメイン処理内の見出語検索処理に伴い米国/英国の2国の発音形態を収録した英和辞書を利用した場合の検索見出語表示画面G2を示す図。
【図15】前記携帯機器10の見出語検索処理における同期再生処理に伴い米国式発音[米]を指定した場合に検索見出語表示画面G2上にウインドウ表示される見出語文字表示ウインドウW1および発音口型表示ウインドウW2の表示状態を示す図であり、同図(A)は検索見出語表示画面G2に対する見出語文字表示ウインドウW1および発音口型表示ウインドウW2の設定表示状態を示す図、同図(B)は米国式発音音声の出力に同期した見出語文字表示ウインドウW1および発音口型表示ウインドウW2の変化状態を示す図。
【図16】前記携帯機器10の見出語検索処理における同期再生処理に伴い英国式発音[英]を指定した場合に検索見出語表示画面G2上にウインドウ表示される見出語文字表示ウインドウW1および発音口型表示ウインドウW2の表示状態を示す図であり、同図(A)は検索見出語表示画面G2に対する見出語文字表示ウインドウW1および発音口型表示ウインドウW2の設定表示状態を示す図、同図(B)は英国式発音音声の出力に同期した見出語文字表示ウインドウW1および発音口型表示ウインドウW2の変化状態を示す図。
【図17】前記携帯機器10のアクセントテスト処理に伴い不正解を選択した場合の操作表示状態を示す図であり、同図(A)はアクセントテスト出題表示画面G3を示す図、同図(B)は出題対象の見出語表示画面G2に対する見出語文字表示ウインドウW1および発音口型表示ウインドウW2の設定表示状態を示す図、同図(C)は誤りアクセントの発音音声の出力に同期した見出語文字表示ウインドウW1および発音口型表示ウインドウW2の変化状態を示す図。
【図18】前記携帯機器10のアクセントテスト処理に伴い正解を選択した場合の操作表示状態を示す図であり、同図(A)はアクセントテスト出題表示画面G3を示す図、同図(B)は出題対象の見出語表示画面G2に対する見出語文字表示ウインドウW1および発音口型表示ウインドウW2の設定表示状態を示す図、同図(C)は正解アクセントの発音音声の出力に同期した見出語文字表示ウインドウW1および発音口型表示ウインドウW2の変化状態を示す図。
【図19】前記携帯機器10の第2実施形態の見出語同期再生処理を示すフローチャート。
【図20】前記携帯機器10の第3実施形態の見出語同期再生処理を示すフローチャート。
【符号の説明】
10 …携帯機器
11 …CPU
12 …メモリ
12A…FLASHメモリ
12B…RAM
12a…辞書処理プログラム
12b…辞書データベース
12c…辞書音声データ
12d…キャラクタ画像データ
12d(No.n)…設定キャラクタ画像
12d(No.n′)…アクセント対応顔画像
12d(No.nUS)…米語用設定キャラクタ画像
12d(No.nUS′)…米語用アクセント対応顔画像
12d(No.nUK)…英語用設定キャラクタ画像
12d(No.nUK′)…英語用アクセント対応顔画像
12d(No.nBL)…青色変更設定キャラクタ画像
12d(No.nBL′)…アクセント対応の青色顔画像
12e…音声別口画像データ
12f…辞書タイムコードファイル
12g…見出語データメモリ
12h…見出語対応辞書データメモリ
12i…タイムコードファイルNo23
12j…同期用HTMLファイルメモリ
12k…同期用テキストファイルメモリ
12m…同期用サウンドファイルメモリ
12n…同期用イメージファイルメモリ
12p…口画像エリアメモリ
12q…画像展開バッファ
13 …外部記録媒体
14 …記録媒体読取部
15 …電送制御部
16 …通信部
17a…入力部
17b…座標入力装置
18 …表示部
19a…音声入力部
19b…ステレオ音声出力部
20 …通信機器(自宅PC)
30 …Webサーバ
N …通信ネットワーク(インターネット)
X …選択フレーム
H …タイムコードテーブルのヘッダ情報
G1 …キャラクタ画像の一覧選択画面
G2 …見出語検索画面
G3 …アクセントテスト出題表示画面
W1 …見出語文字表示ウインドウ(テキスト同期再生用ウインドウ)
W2 …発音口型表示ウインドウ(画像同期再生用ウインドウ)
HL …ハイライト(識別)表示
Et …正解アクセント選択項目
Ef …誤りアクセント選択項目
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a sound display output control device, an image display control device, a sound display output control processing program, and an image display control processing program for synchronously outputting data such as sound, text, and image.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, as a language learning device, for example, there is a device that outputs speech of a language and displays its mouth shape.
[0003]
In this language learning device, voice information of a native language user and mouth-shaped image data are recorded in a sample data memory in advance by a microphone and a camera. Then, the learner's voice information and mouth-shaped image data are recorded by the microphone and the camera, and the waveforms of the respective voice information of the learner and the native language user previously recorded in the sample data memory and The corresponding image data of each mouth type is compared and displayed in a chart format.
[0004]
In this way, it is intended to clearly analyze and display the difference in language pronunciation between the native language user and the learner (for example, see Patent Document 1).
[0005]
[Patent Document 1]
JP 2001-318592 A
[0006]
[Problems to be solved by the invention]
By using such a conventional language learning device, it is possible to know the pronunciation voice of the native language user who is a model and its mouth shape image. Is emphasized, and there is no clear difference in the mouth image itself. Therefore, there is a problem that it is difficult to understand the timing of the accent in each learning language.
[0007]
The present invention has been made in view of the above-described problems, and in the display of an image synchronized with an audio output, an audio display output control device, an image display control device, which can clearly show accent timing. It is another object of the present invention to provide an audio display output control processing program and an image display control processing program.
[0008]
[Means for Solving the Problems]
In the voice display output control device according to claim 1 of the present invention, voice data is output by voice data output means, and text is displayed in synchronization with the output of the voice data by text synchronous display control means, and image display control means is provided. An image including at least the mouth portion is displayed by the mouth image display control means, for the mouth portion included in the display image, in synchronization with the audio data to be audio output, a mouth-shaped image corresponding to the audio data Is displayed. Then, the presence or absence of an accent of the voice data or the text is detected by an accent detection unit, and the mouth-shaped image displayed by the image display control unit is changed by the image change display control unit in response to the detection of the presence of the accent. Let it.
[0009]
According to this, not only the display of the text and the image synchronized with the output of the audio data and the display of the mouth-shaped image corresponding to the audio data at the mouth portion included in the image, but also the detection of the accent of the audio data or the text can be performed. The mouth-shaped display image can be changed, and the timing of the accent can be clearly expressed.
[0010]
The voice display output control device according to a second aspect of the present invention is the voice display output control device according to the first aspect, further comprising: searching dictionary data corresponding to the headword inputted by the dictionary search means. The dictionary data display control means displays the dictionary data corresponding to the dictionary-searched entry. The voice data is the pronunciation voice data of the headword searched by the dictionary search means, the text is the text of the headword searched by the dictionary search means, and the headword pronunciation by the voice data output means. The output of the voice data, the display of the headword text synchronized with the headword pronunciation voice data by the text synchronous display control means, and the display of the image by the image display control means are performed by the dictionary data display control means. This is performed in the display state of the dictionary data corresponding to the headword.
[0011]
According to this, along with the search and display of the dictionary data corresponding to the input headword, the output of the headword pronunciation voice data, the display of the headword text and the display of the image synchronized with this, and the display of the mouth-shaped image Synchronous display can be performed, and the timing of the headword accent can be clearly expressed by a change in the display image according to the accent detection.
[0012]
In the voice display output control device according to claim 3 of the present invention, the word storage means stores a plurality of words in correspondence with correct accented phonetic symbols and error accented phonetic symbols of each word, and outputs the voice data. Means for outputting correct accent pronunciation voice data or incorrect accent pronunciation voice data for the stored word, and displaying the text of the word in synchronism with the pronunciation voice data for the word output by the text synchronization display control means. The image display control means displays an image including at least the mouth part in a different display form when the sound data output means outputs correct accent pronunciation sound data and when the incorrect accent pronunciation sound data is output. And further included in the display image by the mouth image display control means. That the portion of the mouth, to display an image of the mouth type in synchronization with the sound audio data outputted corresponding to the sound audio data by the audio data outputting means. Then, with the synchronous display of the word text by the text synchronous display control means by the accent detection means, the accent of the word is detected from the accented pronunciation symbol of the corresponding word stored by the word storage means, and the image change display control means The image displayed by the image display control means is changed according to the accent detection.
[0013]
According to this, not only the pronunciation sound data of the correct accent and the pronunciation sound data of the erroneous accent for the word stored by the word storage means can be output, but also the display and display image of the word text synchronized with the pronunciation sound data Mouth-shaped images corresponding to the pronunciation voice data of the mouth part to be displayed can be displayed, and the displayed image can be changed according to the detection of word accents, so that correct accents and erroneous accents for words can be easily and clearly learned. become.
[0014]
The voice display output control device according to claim 4 of the present invention is the voice display output control device according to claim 3, wherein the word stored by the correct accent display control means is associated with the word. The correct accented phonetic symbols and the incorrect accented phonetic symbols are displayed side by side, and the correct / erroneous accent selecting means selects either the correct accented phonetic symbols or the incorrect accented phonetic symbols of the words displayed side by side. Then, the voice data output means outputs the correct accent pronunciation speech data or the incorrect accent pronunciation speech data of the corresponding word in accordance with the correct / incorrect selection of the word accent by the correct / false accent selection means.
[0015]
According to this, it is further possible to select the correct accented phonetic symbol or the incorrect accented phonetic symbol for the word stored by the word storage means and output the phonetic sound data, and furthermore, the word synchronized with the phonetic sound data Mouth-shaped images corresponding to pronunciation voice data for the mouth part included in the text display and display image can be displayed, and the display image can be changed according to the detection of word accents. Learning can be done easily and at a clear timing.
[0016]
In the voice display output control device according to the fifth aspect of the present invention, the storage means stores the plurality of headwords and the pronunciation voice data of at least two or more areas of each of the headwords in association with each other, and specifies the area. By means, one of the pronunciation sound data of two or more areas of the stored headword is designated. Then, the voice data output means outputs the pronunciation voice data of the designated area of the headword in accordance with the area designation of the pronunciation voice data, and the text synchronous display control means outputs the specified area of the headword to be voice-output. And displaying the text of the headword in synchronization with the pronunciation voice data of the subject, and displaying the image including at least the mouth portion in a different display form according to the designated area by the image display control means, Means for displaying a mouth-shaped image corresponding to the pronunciation sound data in synchronization with the sound output speech data for the mouth portion included in the display image. Then, with the synchronous display of the headword text by the accent detection means, the accent of the headword is detected, and the image displayed by the image display control means in response to the detection of the accent by the image change display control means. To change.
[0017]
According to this, it is possible to designate and output pronunciation voice data having the same headword and different regional dialects, and to synchronize the headword text and the mouth portion of the display image middle part in synchronization with the output of the pronunciation voice data. It is possible to display a type image, display an image in a different display form according to the specified area, and display the change of the image by detecting the accent, so that the pronunciation sound data and the timing of the accent in the specified area can be easily and clearly learned. become.
[0018]
An image display control device according to a sixth aspect of the present invention is an image display control device for changing and controlling a face image having a mouth or a facial expression in accordance with a display of a sequence of pronunciation target data including a headword of a word. The first storage means stores a plurality of sets of the pronunciation target data and the pronunciation symbols including accented pronunciation symbols in association with each other, and the second storage means stores the pronunciation symbols including accented pronunciation symbols and the corresponding pronunciation symbols. A plurality of sets of voice and face image are stored in association with each other. The first control means reads out the phonetic symbols corresponding to the sounding target data from the first storage means in accordance with the display of the sequence of the sounding target data in the order of sounding, and corresponds to the read phonetic symbols. The read voice and the face image are read from the second storage means, and the read voice is output to the outside, and the read face image is controlled so as to be displayed. When outputting voice to the outside by the first control, it is determined whether or not the read phonetic symbols include accented phonetic symbols, and it is determined that accented symbols are included. In this case, a voice and a face image corresponding to the accented phonetic symbol are read from the second storage means, and the read voice is output to the outside, and the read face image is displayed. It is controlled to be.
[0019]
According to this, along with the display of the pronunciation order of the pronunciation target data such as the headword of a word, the voice output corresponding to the pronunciation symbol of the pronunciation target data and the face image display can be performed, and the accent portion of the data includes the accent symbol. Voice output corresponding to phonetic symbols and facial image display can be performed easily and clearly, such as pronunciation sounds such as words and the expression of the face accompanying this pronunciation, the pronunciation voice at the accent part and the expression of the face accompanying the pronunciation of this accent part Will be able to learn.
[0020]
In the image display control device according to claim 7 of the present invention, in the image display control device according to claim 6, the phonetic symbols including accented phonetic symbols stored in the second storage means are: It consists of phonetic symbols with accent marks and phonetic symbols without accent marks, and the voice and face image stored in association with the phonetic symbols with accent marks and the accent marks are not attached. The voice and the face image stored in association with the phonetic symbols are different.
[0021]
According to this, the pronunciation voice and the expression of the face in the part without the accent mark of the pronunciation target data such as the headword of the word, and the pronunciation sound and the expression of the face in the part with the accent mark are added. You will be able to learn the differences more clearly.
[0022]
Further, in the image display control device according to claim 8 of the present invention, the image display control for changing and controlling the face image having the mouth or the facial expression according to the display of the pronunciation order of the series of pronunciation target data including the headword of the word. An apparatus, wherein a plurality of sets of the sound-generating data and its voice and face image are stored in association with each other by a storage means, and a detection signal is stored in an accent portion of the sound-generating data in the stored signal waveform of the voice. A peak portion of a corresponding signal waveform is detected, and a face image corresponding to the voice of the detected accent portion is read from the storage device by the display control unit, and the read face image is replaced with another signal other than the accent portion. Control is performed so that the face image corresponding to the sound of the waveform portion is displayed in a different display form.
[0023]
According to this, with the display of the pronunciation order of the pronunciation target data such as a headword of a word, a face image corresponding to the pronunciation voice can be displayed, and the accent portion detected by the peak portion of the audio signal waveform differs. The face image in the display form can be displayed, and the expression of the face accompanying the pronunciation at the accent portion can be learned more clearly.
[0024]
In the image display control device according to a ninth aspect of the present invention, in the image display control device according to the eighth aspect, the display control means includes a sound target corresponding to an accent portion detected by the detection means. A text display control means is provided for controlling the display of the data portion to be displayed in a display form different from the display of the portion of the sound target data corresponding to the signal waveform portion other than the accent portion.
[0025]
According to this, in addition to the display of the face image corresponding to the pronunciation sound of the pronunciation target data, the display of the accent portion of the pronunciation target data is displayed in a display form different from the display of the pronunciation target data other than the accent portion. Therefore, it is possible to more clearly learn the accent portion of the pronunciation target data and the expression of the face accompanying the utterance of the pronunciation sound.
[0026]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0027]
(1st Embodiment)
FIG. 1 is a block diagram showing a configuration of an electronic circuit of a portable device 10 according to an embodiment of a voice display output control device (image display control device) of the present invention.
[0028]
The portable device (PDA: personal digital assistants) 10 is configured by a computer which reads a program recorded on various recording media or a program transmitted and transmitted, and whose operation is controlled by the read program. The electronic circuit includes a CPU (central processing unit) 11.
[0029]
The CPU 11 stores a PDA control program stored in advance in the FLASH memory 12A in the memory 12, a PDA control program read from the external recording medium 13 such as a ROM card into the memory 12 via the recording medium reading unit 14, or an Internet In accordance with a PDA control program read into the memory 12 from another computer terminal (30) on the communication network N via the transmission control unit 15, the operation of each circuit unit is controlled. The stored PDA control program is an input signal corresponding to a user operation from an input unit 17a composed of switches and keys and a coordinate input device 17b composed of a mouse and a tablet, or an input signal received by the transmission control unit 15 on the communication network N. Communication from other computer terminals (30) No., or the external communication device that is received via the communication unit 16 by the short-range wireless connection or a wired connection using Bluetooth (R) (PC: personal computer) is activated in response to the communication signal from 20.
[0030]
The CPU 11 is connected to the memory 12, the recording medium reading unit 14, the electric transmission control unit 15, the communication unit 16, the input unit 17a, and the coordinate input device 17b. And a stereo sound output unit 19b having left and right channel speakers L and R and outputting sound.
[0031]
The CPU 11 has a built-in timer for measuring the processing time.
[0032]
The memory 12 of the portable device 10 includes a flash memory (EEP-ROM) 12A and a RAM 12B.
[0033]
The FLASH memory (EEP-ROM) 12A has a network program for performing data communication with each computer terminal (30) on the communication network N via a system program that controls the entire operation of the mobile device 10 and the transmission control unit 15. A program, an external device communication program for performing data communication with an external communication device (PC) 20 via the communication unit 16 are stored, a schedule management program, an address management program, and a dictionary entry search and search. Synchronous reproduction of various data such as voice, text, and face image (including mouth-shaped composite image) corresponding to the headword, setting of the type of the face image (character), and performing the test for headword accent Various PDA control programs such as the dictionary processing program 12a are stored.
[0034]
The FLASH memory (EEP-ROM) 12A further includes a dictionary database 12b (see FIG. 2), dictionary audio data 12c, character image data 12d (see FIG. 3), voice-specific mouth (type) image data 12e (FIG. 4). And a dictionary time code file 12f (see FIGS. 5 and 6).
[0035]
As the dictionary database 12b, data of various dictionaries such as an English-Japanese dictionary, a Japanese-English dictionary, and a Japanese language dictionary are stored, and as shown in FIG. No. of a time code file and a storage destination address for easily performing synchronous playback of voice / text / image, No. and a storage destination address of an HTML file for setting an image playback window, No. and a storage destination address of a text file, The number and storage address of the text-to-mouth synchronization file in which each character of the text, the phonetic symbol, and the mouth type number are associated, the number and storage address of the sound file that is the audio data, the data number and the storage address of the dictionary contents, Each is linked and stored.
[0036]
In each embodiment, for pronunciation symbols described in the specification, similar characters are substituted for formal pronunciation symbols because it is difficult to input them, and formal pronunciation symbols are described on the drawings.
[0037]
FIG. 2 is a diagram showing synchronous reproduction link data for one headword "low" in the dictionary database 12b stored in the memory 12 of the portable device 10. FIG. A table showing the storage address, FIG. 4B shows the text data “low” stored according to the text file No., and FIG. 4C shows a text character stored according to the text mouth synchronization file No. , Phonetic symbols, and mouthpiece numbers.
[0038]
As the dictionary voice data 12c, voice data for pronunciation for each headword in the dictionary database 12b is stored in association with the sound file No. and the address.
[0039]
FIG. 3 is a diagram showing character image data 12d stored in the memory 12 of the portable device 10 and selectively used by user setting for synchronous display of the pronunciation mouth type image in the dictionary entry search.
[0040]
In the case of the present embodiment, three types of character images (face images) No1 to No3 are prepared as the character image data 12d, and each character image No1, No2, and No3 has a synthesized rectangular area of the mouth-shaped image. Mouth image area data (X1, Y1, X2, Y2) for designating as coordinates of two diagonal points are stored in association with each other.
[0041]
Note that these three types of character images (face images) No1 to No3 further include accent face images No1 'to No3' for expressing emphasis of pronunciation at the timing of accent of the dictionary-searched entry. 12 (C) (2) and FIG. 13 (B) (2)) are stored, and further, U.S. English character images No1US to No3US when U.S.A. or English pronunciation sounds are designated (see FIG. 15). And English character images No1UK to No3UK (see FIG. 16) and their accent face images No1US 'to No3US' (see (2) in FIG. 15B) and No1UK 'to No3UK' (see (B) 2 in FIG. 16). Reference) is stored.
[0042]
FIG. 4 shows the mouth image areas (X1, Y1, X2) of the character images (12d: No1 to No3) stored in the memory 12 of the portable device 10 and synchronously displaying the pronunciation mouth type images in the dictionary entry search. , Y2) is a diagram showing mouth-specific mouth image data 12e synthesized and displayed.
[0043]
The mouth type images 12e1, 12e2,... Associated with the phonetic symbols required for pronunciation of all the headwords stored in the dictionary database 12b are the mouth number Nos. n and stored.
[0044]
The dictionary time code file 12f stored in the memory 12 of the portable device 10 is used for synchronously reproducing voice / text / face images (including mouth-shaped composite images) corresponding to the dictionary-searched entry. A command file (see FIG. 5) prepared not for every headword but for each of a plurality of headwords having the same number of characters and phonetic symbols and their pronunciation timing, and is compressed / encrypted by a predetermined algorithm. Have been.
[0045]
FIG. 5 is a diagram showing a time code file 12f23 (12i) of the file No. 23 associated with the headword "low" in the dictionary time code file 12f stored in the memory 12 of the portable device 10.
[0046]
The time code file 12fn includes a time code for performing command processing for synchronously reproducing various data (voice, text, and image) in a reference processing unit time (for example, 25 ms) at a predetermined time interval described and set in advance as header information H. Are described and arranged, and each time code is a reference number or a designated numerical value for associating a command code designating a command with data contents (text file / sound file / image file, etc.) related to the command. It is configured by a combination with parameter data consisting of
[0047]
For example, when the preset reference processing unit time is 25 ms, the file playback time of the headword “low” time code file 12f23 shown in FIG. 5 is 1 second after a playback process consisting of 40 steps of time code. Become.
[0048]
FIG. 6 is a diagram showing the command codes of various commands described in the dictionary time code file 12fn (see FIG. 5) of the portable device 10 in association with the command contents analyzed based on the parameter data.
[0049]
Commands used for the time code file 12fn include a standard command and an extended command. The standard command includes LT (i-th text load). VD (i-th text segment display). BL (character counter reset / i-th phrase block specification). HN (no highlight, character counter count up). HL (highlight / character count up to i-th character). LS (1 line scroll / character counter count up). DH (i-th HTML file display). DI (i-th image file display). PS (i-th sound file play). CS (clear all file). PP (stop for basic time i seconds). FN (processing end). There are NP (invalid) commands.
[0050]
Also, in the RAM 12B in the memory 12, a search entry word memory 12g in which entry words associated with the search processing of the dictionary database 12b are read and stored according to the entry word numbers, and correspond to the searched entry words. A dictionary data memory 12h for reading and storing dictionary data such as meanings to be read from the dictionary database 12b according to the dictionary data number, and synchronizing voice, text, and image corresponding to the searched headword. A reproduction time code file 12fn (see FIG. 5) for performing reproduction is read from the dictionary time code file 12f in accordance with the time code file No. in the dictionary database 12b, expanded and decoded, and stored. A memory 12i is prepared.
[0051]
Further, an HTML file for setting windows W1 and W2 (see FIGS. 12 and 13) for synchronously reproducing text and images on the entry search screen G2 is stored in the RAM 12B in the memory 12 in the dictionary database. A synchronization HTML file memory 12j which is read and stored from the dictionary database 12b according to the HTML file No., and a text file memory for synchronization which reads and stores the text data of the search entry from the dictionary database 12b according to the text file No. 12k, a sound file memory for synchronization 12m in which pronunciation sound data of a search entry is read from the dictionary audio data 12c in accordance with the sound file No. in the dictionary database 12b, and a pronunciation image of the search entry. Character image set by user for display A synchronization image file memory 12n read out from the character image data 12d (see FIG. 3) and stored, and a mouth indicating a synthetic area of a mouth-shaped image in the character image stored in the synchronization image file memory 12n. Mouth image area memory 12p in which image area data (X1, Y1; X2, Y2) is stored, and voice / text according to the time code file 12fn corresponding to the search term stored in the time code file memory 12i. An image expansion buffer 12q or the like is prepared in which a character image to be reproduced synchronously and a mouth image are expanded and combined and stored.
[0052]
That is, the dictionary search program 12a stored in the FLASH memory 12A of the portable device (PDA) 10 is activated, and the entry searched for is "low". The time code file 12f read out from the memory and stored in the reproduction time code file memory 12i is, for example, the time code file 12f23 shown in FIG. 5, and the third command code " When the "DI" and the parameter data "00" are read, since the command "DI" is the i-th image file display command, it is stored in the synchronization image file 12n linked from the parameter data i = 00. The read character image 12dn is read and displayed.
[0053]
When the fourth command code “PS” and the parameter data “00” are read in accordance with the command processing for each set processing unit time, the command “PS” is the i-th sound file reproduction command. The audio data 12cn stored in the synchronization sound file 12m linked from the parameter data i = 00 is read and output.
[0054]
When the sixth command code “VD” and the parameter data “00” are read in accordance with the command processing for each set processing unit time, the command “VD” is the i-th text segment display instruction. In accordance with the parameter data i = 00, the text file of the 0th phrase of the text (in this case, the text file “low” of the search entry stored in the synchronization text file memory 12k is displayed.
[0055]
Further, when the ninth command code “NP” and the parameter data “00” are read in accordance with the command processing for each set processing unit time, since the command “NP” is an invalid command, the current file output The state is maintained.
[0056]
The detailed operation of the synchronized playback of the pronunciation voice, text, and image (mouth image) corresponding to the search entry based on the time code file 12f23 (12i) of the file content shown in FIG. 5 will be described later. Will be explained again.
[0057]
Next, various operations performed by the portable device 10 having the above configuration will be described.
[0058]
FIG. 7 is a flowchart showing the main processing of the portable device 10 according to the dictionary processing program 12a.
[0059]
FIG. 8 is a flowchart showing headword synchronous reproduction processing accompanying the main processing of the portable device 10.
[0060]
FIG. 9 is a flowchart showing a text-corresponding mouth display process executed by interruption in response to the highlight display of each headword character accompanying the headword synchronous reproduction process of the portable device 10.
[0061]
FIG. 10 is a diagram showing a setting display state of a character image for synchronous reproduction in a character setting process in the main process of the portable device 10.
[0062]
When the mode is switched to the character image setting mode by operating the “setting” key 17a1 and the cursor key 17a2 of the input unit 17a (step S1 → S2), for example, three types of character image data 12d1 (No1) stored in the FLASH memory 12A ), 12d2 (No2), 12d3 (No3) [see FIG. 3] are read out and displayed on the display unit 18 as a character image list selection screen G1 as shown in FIG. 10 (step S3).
[0063]
In the character image list selection screen G1, the selection frame X of each character image is moved and operated by operating the cursor key 17a3 to select a character image desired by the user (for example, 12d3 (No. 3)), and at the same time, "translate / determine". When the selection of the character image is detected by the determination operation using the (voice) ”key 17a4 (step S4), the character image 12dn thus detected is read and transferred to the synchronization image file memory 12n in the RAM 12B. Is performed (step S5). Further, the mouth image area data (X1, Y1; X2, Y2) indicating the synthesis area of the mouth image of the character image 12dn detected and selected is also read and transferred to the mouth image area memory 12p in the RAM 12B. (Step S6).
[0064]
In this way, the character image to be mouth-shaped image synthesis target to be displayed in synchronization with the pronunciation voice of the headword is selected and set in accordance with the headword search.
[0065]
FIG. 11 is a view showing a search entry display screen G2 associated with entry search processing in the main processing of the portable device 10.
[0066]
In order to perform an entry search based on dictionary data of, for example, an English-Japanese dictionary stored in the dictionary database 12b, the search target is set after setting the English-Japanese dictionary search mode by operating the “English-Japanese” key 17a5 of the input unit 17a. Is input (eg, "low") (steps S7 → S8), a plurality of headwords that match the input headword and include a matching character at the beginning are searched from the dictionary data of the English-Japanese dictionary. Is read out and displayed on the display unit 18 as a list of search entry terms (not shown) (step S9).
[0067]
On the search entry list screen, an entry (in this case, "low") that matches the entry entered by the user is designated by the cursor key and a "translation / decision (voice)" key 17a4 is input. Is operated (step S10), the selected and detected entry word "low" is stored in the entry word memory 12g in the RAM 12B, and the pronunciation / part-of-speech / The dictionary data such as the meaning is read out and stored in the entry word dictionary data memory 12h in the RAM 12B, and is displayed on the display unit 18 as a search entry word display screen G2 as shown in FIG. S11).
[0068]
Here, for the headword "low" searched and displayed, the pronunciation voice is output and at the same time, in order to synchronously display the characters, the pronunciation symbols, and the mouth-shaped images of the pronunciation of the headword, "translation" is used. When the “/ decision (voice)” key 17a4 is operated (step S12), the process proceeds to the synchronous reproduction process in FIG. 8 (step SA).
[0069]
FIG. 12 shows a headword character display window W1 and a sound opening type window displayed on the search headword display screen G2 in the setting state of the character image No. 3 with the synchronous playback processing in the headword search processing of the portable device 10. FIG. 7A is a diagram showing a display state of a display window W2, and FIG. 7A is a diagram showing a setting display state of an entry word character display window W1 and a sound opening type display window W2 with respect to a search entry word display screen G2. (B) is a diagram showing the change state of the headword character display window W1 and the accent-unsupported sound opening type display window W2 synchronized with the output of the pronunciation voice, and FIG. It is a figure which shows the change state of the word output character display window W1 and the pronunciation opening type display window W2 corresponding to an accent.
[0070]
When the synchronous reproduction process (step SA) in FIG. 8 is started in response to the operation of the “translation / decision (voice)” key 17a4 while the search entry display screen G2 is displayed, the contents in the RAM 12B are displayed. Initialization processing such as clearing of each work area is performed (step A1). First, synchronous reproduction link data (see FIG. 2) for the current search entry “low” stored in the dictionary database 12b is added. Based on the entry word search screen G2, an HTML file for setting the windows W1 and W2 for synchronous reproduction of text and images (see FIG. 12) is read out according to the HTML file No. 3 and written into the synchronization HTML file memory 12j. It is. The text data “low (with phonetic symbols)” of the search entry is read out according to the text file No. 4222 and written into the text file memory for synchronization 12k. Further, the pronunciation voice data of the search entry is read out according to the sound file No. 4222 and written into the synchronization sound file memory 12m (step A2).
[0071]
Note that the character image (12d3 (No. 3) in this case) set by the user to display the pronunciation image of the search entry word has already been converted from the character image data 12d (see FIG. 3) according to step S5 accompanying the character setting process. The character image data (X1, Y1; X2, Y2), which is read out from the inside and written into the synchronization image file memory 12n, and which is the sounding mouth type image synthesis area in the character image 12d3 (No3), is also set as the character setting. According to step S6 accompanying the processing, the data has already been written in the mouth image area memory 12p.
[0072]
Then, from the time code file 12fn for synchronous playback of encrypted voice / text / image corresponding to various head words stored as the dictionary time code file 12f in the FLASH memory 12A, the current search head word is searched. The time code file 12f23 (see FIG. 5) corresponding to “low” is decoded and decoded according to the time code file No. 23 described in the synchronous reproduction link data (see FIG. 2), and is read out. The data is transferred and stored in the code file memory 12i (step A3).
[0073]
In this way, the reading setting of various files for synchronous reproduction of the pronunciation voice, text, and pronunciation mouth type image corresponding to the search entry word "low" into the RAM 12B, and the time code file 12f23 for synchronous reproduction of these files. When the transfer setting to the RAM 12B is completed, the processing unit time (for example, 25 ms) of the time code file (CAS file) 12f23 (see FIG. 5) stored in the time code file memory 12i by the CPU 11 is stored in the header of the time code file 12f23. It is set as information H (step A4).
[0074]
A read pointer is set at the head of the time code file 12f23 stored in the time code file memory 12i, and a read pointer is set at the head of various files written in the synchronization file memories 12j, 12k, 12m, and 12n. Is set (step A5), and a timer for measuring the reproduction processing timing of each synchronous file is started (step A6).
[0075]
In step A6, when the processing timer is started, the read pointer set in step A5 is set for each processing unit time (25 ms) corresponding to the current time code file 12f23 set in step A4. The command code and its parameter data of the time code file 12f23 (see FIG. 5) at the initial position are read (step A7).
[0076]
Then, it is determined whether or not the command code read from the time code file 12f23 (see FIG. 5) is “FN” (step A8). A stop process of the reproduction process is instructed (steps A8 → A9).
[0077]
On the other hand, when it is determined that the command code read from the time code file 12f23 (see FIG. 5) is not “FN”, a process corresponding to the content of the command code (see FIG. 6) is executed. (Step A10).
[0078]
If it is determined that the time measured by the timer has reached the next processing unit time (25 ms), the read pointer for the time code file 12f23 (see FIG. 5) stored in the RAM 12B moves to the next position. It is set (step A11 → A12), and the processing from the reading of the command code and the parameter data of the time code file 12f23 (see FIG. 5) at the position of the read pointer in step A7 is repeated (step A12 → A7 to A10). .
[0079]
Here, the synchronized reproduction output operation of the pronunciation voice / text / pronunciation mouth type image file based on the time code file 12f23 of the search entry “low” shown in FIG. 5 will be described in detail.
[0080]
That is, in the time code file 12f23, command processing is executed for each (reference) processing unit time (for example, 25 ms) previously described and set in the header H. First, the time code file 12f23 (see FIG. 5) When the first command code "CS" (clear all file) and its parameter data "00" are read, an instruction to clear the output of all the files is issued, and the output of the text / audio / image file is cleared ( Step A10).
[0081]
When the second command code “DH” (i-th HTML file display) and its parameter data “00” are read out, the synchronization in the RAM 12B is performed according to the parameter data (i = 0) read out together with the command code DH. The headword text / image frame data of the HTML data is read out from the HTML file memory 12j for use, and the text / image synchronization on the headword search screen G2 with respect to the display unit 18 as shown in FIG. The reproduction windows W1 and W2 are set (step A10).
[0082]
When the third command code “DI” (i-th image file display) and its parameter data “00” are read, the synchronization in the RAM 12B is performed according to the parameter data (i = 0) read with the command code DI. The character image 12d (No. 3 in this case) set and stored in the character setting process (steps S2 to S6) is read out from the image file memory 12n for use, and as shown in FIG. The image set in the HTML file is displayed on the window W2 for synchronous reproduction on the screen G2 (step A10).
[0083]
When the fourth command code “PS” (i-th sound file play) and its parameter data “00” are read, the synchronization in the RAM 12B is performed according to the parameter data (i = 0) read with the command code PS. The pronunciation sound data corresponding to the search entry "low" set and stored in step A2 is read from the sound file memory 12m for use, and the sound output from the stereo sound output unit 19b is started (step A10). .
[0084]
When the fifth command code “LT” (i-th text load) and its parameter data “00” are read, the synchronization command in the RAM 12B is read according to the parameter data (i = 0) read together with the command code LT. One phrase of text data "l", "o", and "w" (including phonetic symbols) corresponding to the search entry word "low" set and stored in step A2 is specified in the text file memory 12k (step A10). ).
[0085]
When the sixth command code “VD” (i-th text segment display) and its parameter data “00” are read, the fifth command is read in accordance with the parameter data (i = 0) read together with the command code VD. The text data “l”, “o”, and “w” (including phonetic symbols) of one phrase specified according to the code “LT” are read out, and as shown in FIG. (Step A10).
[0086]
When the seventh command code “BL” (character counter reset / i-th phrase block designation) and its parameter data “00” are read, the character of the search entry “low” being displayed in the text synchronous playback window W1 is read. The counter is reset (step A10).
[0087]
Then, when the eighth command code “HL” (highlight / character count up to the i-th character) and its parameter data “01” are read out, according to the parameter data (i = 1) read out together with the command code HL. As shown in FIG. 12A, the first character “l” of the search entry word “low” (including phonetic symbols) displayed in the text synchronous playback window W1 and its corresponding pronunciation. Up to the symbol, a highlight (identification) display HL is displayed by color change display, reverse display, underline display, etc., and the character counter is counted up to the second character and its corresponding phonetic symbol (step A10).
[0088]
When highlighting (identifying) each character of the search term "low" and its corresponding phonetic symbol by the time code file 12f23, the text corresponding port display processing in FIG. 9 is interrupted.
[0089]
That is, when the character “l” of the search entry “low” highlighted (identified) display HL is detected this time (step B1), the pronunciation mouth type image corresponding to the detected character “l” is stored in the dictionary. According to the mouth number “36” corresponding to the text “l” indicated by the text mouth synchronization file (see FIG. 2C) in the database 12b, the sound mouth type is selected from the voice-specific mouth image data 12e (see FIG. 4). The image is read as the image 12e2 (No. 36) (step B2). The pronunciation mouth type image 12e2 (No. 36) corresponding to the character "l" of the search term "low" displayed with the highlight (identification) is shown in FIG. 12 (A) (FIG. 12 (B) (1)). As shown, for the mouth image synthesis area of the character image 12d (No. 3) displayed in the image synchronous playback window W2 on the headword search screen G2, the mouth image area memory 12p in the RAM 12B is stored. The images are synthesized and displayed according to the mouth image areas (X1, Y1; X2, Y2) (step B3).
[0090]
Here, it is determined whether or not there is an accent mark for the phonetic symbol of the current highlight (identification) display text "l" indicated by the text mouth synchronization file (see FIG. 2C) (step B4). In the case of the phonetic symbol [l] of the highlight (identification) display text "l", it is determined that there is no accent mark, so that the display of the character image 12d (No. 3) as its normal face image is maintained. (Step B4 → B5).
[0091]
If it is determined that there is an accent mark, the character image 12d (No. 3) is changed and displayed as an accent face image No. 3 'for pronunciation emphasis expression (see (2) in FIG. 12 (C)). (Step B4 → B6).
[0092]
Then, the output timing of the pronunciation voice data corresponding to the search entry word “low” that has been started to be output from the stereo voice output unit 19b in response to the fourth command code “PS”, and the processing unit by the time code file 12f23 Since the time code file 12f23 is created in advance in correspondence with the identification display timing of each character of the search entry “low” according to the time (25 ms), the search entry “low” is generated. In the identification display of the first character "l" and the synthesizing display of the pronunciation mouth-shaped image 12e (No. 36), the pronunciation voice for reading out the corresponding pronunciation symbol is synchronously output.
[0093]
Thereby, the identification display of the first character "l" of the search entry word "low", the synthesized display of the pronunciation mouth image 12e3 (No36) on the set character image 12d (No3), and the output of the pronunciation voice Are performed synchronously.
[0094]
When the ninth command code “NP” is read, the synchronized display screen of the character image and the text data corresponding to the current search entry “low” and the synchronized output state of the pronunciation voice data are maintained.
[0095]
Thereafter, in accordance with the twelfth command code “HL” and the thirty-fifth command code “HL”, as shown in FIG. 12 (C) (2) and FIG. 12 (C) (3), in the window W1 for text synchronous reproduction, The text data “low” and its phonetic symbols of the search entry word are sequentially changed to high, such as the second character “o” and phonetic symbol [o], and the third character “w” and phonetic symbol [u]. Light (identification) display HL is performed (step A10). At the same time, in the window for image synchronous reproduction W2, the image is synthesized with the mouth image area (X1, Y1; X2, Y2) of the set character image 12d (No. 3) in accordance with the mouth display process corresponding to the text in FIG. In accordance with the text mouth synchronization file (see FIG. 2C), the sounding mouth type image 12e (No. 9) corresponding to mouth number 9 and the sounding mouth type image 12e (No. 8) corresponding to mouth number 8 are also required. ) Are read out of the audio-specific mouth images 12e, sequentially synthesized, and displayed synchronously (steps B1 to B3).
[0096]
Further, the pronunciation voice data of the search entry word “low” output from the stereo voice output unit 19b in response to the fourth command code “PS” also includes the highlight (identification) of the text “low” and its phonetic symbols. ) The sound of reading out the display portion is sequentially and synchronously output.
[0097]
In addition, each pronunciation mouth type image 12e (No36) by the text corresponding mouth display process synchronized with the highlight (identification) display HL of each character "l""o""w" of the search entry word "low" 12e (No. 9) → 12e (No. 8) At the time of the composite switching display (steps B1 to B5) for the character image 12d (No. 3), as shown in FIG. When the pronunciation mouth type image 12e (No. 9) is synthesized and displayed along with the highlight (identification) display HL of the pronunciation symbol, it is determined that the pronunciation symbol of the highlight (identification) display text "o" has an accent mark. Therefore, as shown in FIG. 12 (C) {circle around (2)}, the character image 12d (No. 3) at this time is changed to an accent face image No. 3 'for pronunciation emphasis expression and displayed. That (step B4 → B6).
[0098]
In other words, when switching between the highlight (identification) display HL and the pronunciation mouth type image 12e (No. 9) synchronized with the output of the pronunciation voice for the accent character "o" of the search entry word "Low" shown in FIG. The normal setting character (face) image 12d (No. 3) shown in FIG. 12B (2), which is the synthesis destination of the mouth image 12e (No. 9), is shown in FIG. 12 (C) (2). For example, since the face image 12d (No3 ') corresponding to the accent sound expressing the state of strong pronunciation due to sweating of the head or wrinkles at the mouth is displayed, the user can find the pronunciation voice of the search entry "Low" and its pronunciation. The utterance timing and the corresponding portions of the characters "L", "o", "w" and their phonetic symbols, and further, each of the pronunciation mouth type images 12e (No36 → No9 → No8) can be easily learned by their respective synchronized reproduction. Not Rubakari, made a speech emphasizing timing in accordance with the accent to be able to learn in the real.
[0099]
FIG. 13 shows a headword character display window W1 and a sound opening type window displayed on the search headword display screen G2 in the setting state of the character image No. 1 along with the synchronous playback processing in the headword search processing of the portable device 10. FIG. 7A is a diagram showing a display state of a display window W2, and FIG. 7A is a diagram showing a setting display state of an entry word character display window W1 and a sound opening type display window W2 with respect to a search entry word display screen G2. (B) is a diagram showing a change state of the entry word character display window W1 and the sound opening type display window W2 synchronized with the output of the pronunciation sound.
[0100]
That is, in the character setting process in steps S1 to S6 in FIG. 7, an animation tone is selected from three types of character image data 12d (No1), 12d (No2), and 12c (No3) (see FIG. 3) stored in advance. In the state in which the character image 12d (No1) is selected and set, as in steps S7 to SA, the headword search processing and the synchronous reproduction processing for the headword "low" to be searched, and the text correspondence in FIG. When the mouth display processing is performed, as shown in FIGS. 13A and 13B, the search entry word display window W1 for the search entry word display screen G2 displays the search entry word “ The highlight (identification) display HL synchronized with the pronunciation voice output of “low” and its pronunciation symbol is sequentially performed. Along with this, in the sound opening type display window W2, the sound output of the sound and the text (with the character image 12d (No1) set in the character setting process (steps S1 to S6) as a basic face image are displayed. Each of the sound opening type images 12e (No36 → No9 → No8) synchronized with the highlight display HL of the included pronunciation symbols) is sequentially switched and synthesized and displayed.
[0101]
Then, as shown by (2) in FIG. 13 (B), the second character “o” of the search entry “low” and the highlight (identification) display HL of the phonetic symbol thereof are accompanied by the pronunciation mouth type image 12e. When (No9) is synthesized and displayed, the phonetic symbol of the highlight (identification) display text "o" is determined to have an accent mark. Therefore, the animation-like character image 12d (No1) at this time is pronounced emphasis expression. Is changed to the accent face image No. 1 'for display (step B4 → B6).
[0102]
That is, when the animation-like character image 12d (No1) shown in FIG. 13 is selected and set, the highlight (identification) display synchronized with the output of the pronunciation voice for the accent character "o" of the search entry "Low" Even when the HL and the sound mouth-shaped image 12e (No9) are switched and displayed, the normal animation-like character (face) image 12d (No1) to which the mouth-shaped image 12e (No9) is synthesized is, for example, sweating on the head. And the face image 12d (No1 ') corresponding to an accent expressing the state of being strongly pronounced due to the movement of the body, the user can make the pronunciation sound of the search entry "Low", its utterance timing and each character. The corresponding portions of "L", "o", "w" and their phonetic symbols, and further, each of the sound opening type images 12e (No36 → No9 → No8) are used for their respective synchronized reproduction. Ri easily not only be learning, the speech emphasizes timing will be able to learn in real depending on the accent.
[0103]
In the synchronous reproduction processing of text, pronunciation voice, and pronunciation mouth type image accompanying the entry search described with reference to FIGS. 11 to 13, the content of English-Japanese dictionary data stored in advance as the dictionary database 12 b is Although the description has been given of the case where the content corresponds only to the pronunciation of the United States one country, for example, as described with reference to FIGS. 14 to 16 below, the content of the English-Japanese dictionary data stored in advance as the dictionary database 12b If the user has a content corresponding to the pronunciation of two countries of the United States and the United Kingdom, the text, pronunciation voice, and pronunciation accompanying the entry search by specifying the pronunciation form of either the United States or the United Kingdom Synchronous reproduction processing of a mouth-shaped image may be performed.
[0104]
FIG. 14 is a diagram showing a search entry display screen G2 when an English-Japanese dictionary containing pronunciation forms of two countries, the United States and the United Kingdom, is used in the entry search processing in the main processing of the portable device 10. .
[0105]
To perform a search for a headword based on dictionary data of an English-Japanese dictionary containing pronunciation forms of, for example, two countries, the United States and the United Kingdom, stored in the dictionary database 12b, the user operates the “English-Japanese” key 17a5 of the input unit 17a. After setting the search mode of the English-Japanese dictionary, when a search term (eg, “lough”) to be searched is input (step S7 → S8), a plurality of words including a match and a matching character at the beginning with the input word are entered. The headword is searched and read out from the dictionary data of the English-Japanese dictionary, and is displayed on the display unit 18 as a list of search headwords (not shown) (step S9).
[0106]
On the search entry list screen, an entry (in this case, “lough”) that matches the entry entered by the user is designated by the cursor key, and a “translation / decision (voice)” key 17a4 is input. Is operated (step S10), the selected and detected headword "lough" is stored in the headword memory 12g in the RAM 12B, and the US / UK corresponding to the headword "lough" is stored. Dictionary data such as pronunciation / part of speech / meaning contents of the two countries is read and stored in the headword-corresponding dictionary data memory 12h in the RAM 12B, and as shown in FIG. 18 is displayed (step S11).
[0107]
Here, for the headword "lough" searched and displayed, either one of the American pronunciation [laef] or the English pronunciation [la: f] is selectively output at the same time. In order to synchronously display the characters of the headword, phonetic symbols, and pronunciation mouth images corresponding to the word, identifiers of US or British dialects displayed in the dictionary data on the search headword display screen G2 [US] Alternatively, when any one of [English] is designated (step S11a) and the "translation / decision (voice)" key 17a4 is operated (step S12), the processing shifts to the synchronous reproduction processing in FIG. 8 (step SA). ).
[0108]
FIG. 15 shows an entry word character display window W1 which is displayed on the search entry word display screen G2 when the American pronunciation [US] is designated along with the synchronous reproduction process in the entry word search process of the portable device 10. FIG. 9A is a diagram showing a display state of a pronunciation entry type display window W2, and FIG. 9A shows a setting display state of a headword character display window W1 and a pronunciation entry type display window W2 with respect to a search entry word display screen G2. FIG. 11B is a diagram showing a change state of the entry word display window W1 and the pronunciation opening type display window W2 in synchronization with the output of the American pronunciation sound.
[0109]
That is, either the US dialect or the British dialect identifier [US] or [English] displayed in the dictionary data on the search entry word display screen G2 is designated, and the process proceeds to the synchronous reproduction process in FIG. Then, in step A2 of the synchronous reproduction process, if, for example, the U.S. dialect identifier [US] is specified, it corresponds to the animated character image 12d (No1) preset in the character setting process (steps S2 to S6). Then, the US-language character image 12d (No. 1US) is read and transferred to the synchronization image file memory 12n in the RAM 12B. At the same time, on the basis of the link reproduction link data (see FIG. 2) for the current search entry “lough” stored in the dictionary database 12b, the text / image is synchronously reproduced on the entry search screen G2. An HTML file for setting the windows W1 and W2 (see FIG. 15) is read out according to the HTML file No. and written into the synchronization HTML file memory 12j. The text data “lough (with US dialects)” of the search entry is read out according to the text file No. and written into the synchronization text file memory 12k. The pronunciation voice data of the U.S. dialect of the search entry is read out according to the sound file No. and written into the synchronization sound file memory 12m (step A2).
[0110]
Then, from the time code file 12fn for synchronous playback of encrypted voice / text / image corresponding to various head words stored as the dictionary time code file 12f in the FLASH memory 12A, the current search head word is searched. The time code file 12fn (see FIG. 5) corresponding to “lough” is decoded and decoded according to the time code file No. described in the synchronous reproduction link data (see FIG. 2), and is read out. The data is transferred and stored in the code file memory 12i (step A3).
[0111]
Then, when the synchronized playback processing of the pronunciation voice, the entry word character, and the pronunciation mouth type image according to the time code file 12fn corresponding to the search entry word “lough” is the search entry word “low” described above. Similarly to the above, when the reproduction processing according to each command code in steps A7 to A12 and the text corresponding port display processing in FIG. 9 are started, the window W1 for text synchronous reproduction on the search entry display screen G2 includes A phonetic symbol of the U.S. dialect is displayed together with the search entry "lough", and a character image for a U.S. language with a set animated character image, for example, a design having a U.S. flag F is displayed in an image synchronous reproduction window W2. 12d (No. 1US) is displayed as a target image for mouth-shaped image synthesis.
[0112]
As a result, in synchronization with the pronunciation voice output of the U.S. dialect of the search entry "lough", as shown in (1)-(3) of FIG. The word "lough" and highlight (identification) display HL from the first character of the phonetic symbol are sequentially displayed, and in the image synchronous reproduction window W2, based on the U.S. English character image 12d (No1US), its mouth is displayed. For the image area (X1, Y1; X2, Y2), the sound mouth type image 12e (Non 1 → Non 2 → Non 3) corresponding to the mouth number of each sound symbol is read out from the sound-specific mouth image data 12e and sequentially switched. They are combined and displayed.
[0113]
Also in this case, in accordance with the same text-corresponding mouth display processing as described above, the highlight (identification) display HL and the sound-mouth type image 12e synchronized with the output of the pronunciation voice for the accent character "au" of the search entry "Laugh" In switching and displaying (Non2), the U.S. character (face) image 12d (No1US) to which the mouth-shaped image 12e (Non2) is synthesized sounds strongly due to, for example, sweating of the head or movement of the body. Since the face image 12d (No1US ') corresponding to the accent representing the state is changed and displayed, the user can pronounce the U.S. dialect of the search headword "Laugh" and its utterance timing, and each character "L""au"" gh ”and the corresponding part of the phonetic symbol, and further, each of the sound opening type images 12e (Non1 → Non2 → Non3) is synchronized with the respective portions. Not only can be easily learned by the raw, the speech emphasizes timing will be able to learn in the real according to the US dialect accent.
[0114]
FIG. 16 is a headword character display window W1 that is window-displayed on the search headword display screen G2 when the English pronunciation [English] is designated along with the synchronous playback processing in the headword search processing of the portable device 10. FIG. 9A is a diagram showing a display state of a pronunciation entry type display window W2, and FIG. 9A shows a setting display state of a headword character display window W1 and a pronunciation entry type display window W2 with respect to a search entry word display screen G2. FIG. 7B is a diagram showing a change state of the headword character display window W1 and the sound opening type display window W2 synchronized with the output of the English pronunciation sound.
[0115]
That is, among the identifiers [US] or [English] of US dialects or British dialects displayed in the dictionary data on the search entry word display screen G2 shown in FIG. 14, for example, the British dialect identifier [English] is designated. (Step S11a), the process proceeds to the synchronous reproduction process (Step SA) in FIG. 8, and in Step A2 of the synchronous reproduction process, the animation character image set in advance in the character setting process (Steps S2 to S6) The English character image 12d (No1UK) is read corresponding to the 12d (No1) and transferred to the synchronization image file memory 12n in the RAM 12B. At the same time, on the basis of the link reproduction link data (see FIG. 2) for the current search entry “lough” stored in the dictionary database 12b, the text / image is synchronously reproduced on the entry search screen G2. The HTML file for setting the windows W1 and W2 (see FIG. 16) is read out according to the HTML file No. and written into the synchronization HTML file memory 12j. Further, the text data “lough (with English dialect pronunciation symbols)” of the search entry is read out according to the text file No. and written into the synchronization text file memory 12k. The pronunciation voice data of the English dialect of the search entry is read out according to the sound file No. and written into the synchronization sound file memory 12m (step A2).
[0116]
Then, from the time code file 12fn for synchronous playback of encrypted voice / text / image corresponding to various head words stored as the dictionary time code file 12f in the FLASH memory 12A, the current search head word is searched. The time code file 12fn (see FIG. 5) corresponding to “lough” is decoded and decoded according to the time code file No. described in the synchronous reproduction link data (see FIG. 2), and is read out. The data is transferred and stored in the code file memory 12i (step A3).
[0117]
Then, when the synchronized playback processing of the pronunciation voice, the entry word character, and the pronunciation mouth type image according to the time code file 12fn corresponding to the search entry word “lough” is the search entry word “low” described above. Similarly to the above, when the reproduction processing according to each command code in steps A7 to A12 and the text corresponding port display processing in FIG. 9 are started, the window W1 for text synchronous reproduction on the search entry display screen G2 includes A phonetic symbol of the English dialect is displayed together with the search entry "lough", and an image-synchronous reproduction window W2 has a design with an animated character image, for example, a British cap M1 and a stick M2. The English character image 12d (No1UK) is displayed as a target image for mouth-shaped image synthesis.
[0118]
As a result, in synchronism with the pronunciation voice output of the English dialect of the search entry “lough”, as shown in (1) to (3) in FIG. Highlighting (identification) display HL is sequentially performed from the first word of the word “lough” and its phonetic symbol, and in the image synchronous playback window W2, the English character image 12d (No1UK) is used as a base. For the image area (X1, Y1; X2, Y2), the sound mouth type image 12e (Non 1 → Non 2 → Non 3) corresponding to the mouth number of each sound symbol is read out from the sound-specific mouth image data 12e and sequentially switched. They are combined and displayed.
[0119]
Also in this case, in accordance with the same text-corresponding mouth display processing as described above, the highlight (identification) display HL and the sound-mouth type image 12e synchronized with the output of the pronunciation voice for the accent character "au" of the search entry "Laugh" When switching and displaying (Non2), the English character (face) image 12d (No1UK) to which the mouth-shaped image 12e (Non2) is synthesized sounds strongly due to, for example, sweating of the head or movement of the body. Since the face image 12d (No1UK ') corresponding to the accent representing the state is changed and displayed, the user can hear the pronunciation voice of the English dialect of the search headword "Laugh", its utterance timing, and each character "L""au"" gh ”and the corresponding part of the phonetic symbol, and further, each of the sound opening type images 12e (Non1 → Non2 → Non3) is synchronized with the respective portions. Not only can be easily learned by the raw, the speech emphasizes timing will be able to learn in real depending on the accent of the British dialect.
[0120]
Next, a description will be given of an accent test process that can perform a test for assigning a correct answer / incorrect answer of an English word accent, for example, along with the main process of the portable device 10 having the above configuration.
[0121]
FIG. 17 is a view showing an operation display state when an incorrect answer is selected in accordance with the accent test processing of the portable device 10, and FIG. 17A shows an accent test question display screen G3, and FIG. Is a view showing a setting display state of an entry word character display window W1 and a sound opening type display window W2 with respect to the entry word display screen G2 to be set, and FIG. It is a figure which shows the change state of the output word display window W1 and the sound opening type display window W2.
[0122]
FIG. 18 is a diagram showing an operation display state when a correct answer is selected in accordance with the accent test processing of the portable device 10, wherein FIG. 18A shows an accent test question display screen G3, and FIG. FIG. 3C is a diagram showing the setting display state of a headword character display window W1 and a sound opening type display window W2 with respect to a headword display screen G2 to be set, and FIG. It is a figure showing a change state of word character display window W1 and pronunciation mouth type display window W2.
[0123]
That is, when the "accent test" key 17a6 of the input unit 17a is operated to set the accent test mode (step S13), a headword is randomly selected from dictionary data stored in advance in the dictionary database 12c. (Step S14), as shown in FIG. 17 (A), for the word “low” selected at random, the correct accented phonetic symbol with an accent on the “o” portion and the wrong accent with an accent on the “u” portion are included. An accent test question display screen G3 in which the phonetic symbol and the question mark are set as selection items Et / Ef is displayed on the display unit 18 (step S15).
[0124]
In the accent test question display screen G3, the selection frame X is moved by operating the cursor key 17a2. For example, when a selection item Ef having a phonetic symbol with an incorrect accent is detected (step S16), the character setting process (step S16) is performed. In steps S2 to S6), the character image and its related image (in this case, the animation-like character image 12d (No1) and its accent-corresponding image (No1 ')) previously selected and set as the synthesis destination of the pronunciation mouth-shaped image are For example, the normal yellow color is changed to a blue character image (No1BL) (No1BL ') (steps S17 → S18).
[0125]
At the same time, the pronunciation voice data read out of the dictionary voice data 12c corresponding to the question word "low" is corrected to voice data corresponding to the erroneous accent symbol selected by the user (step S19). ).
[0126]
Then, the question word "low" is stored in the entry word memory 12g in the RAM 12B, and dictionary data such as pronunciation / speech / meaning content corresponding to the entry word "low" is read out and read in the RAM 12B. It is stored in the entry word correspondence dictionary data memory 12h, and is displayed on the display unit 18 as a search entry word display screen G2 corresponding to the question word as shown in FIG. 17B (step S20).
[0127]
Here, for the accent word “low” selected by the user, the pronunciation voice is output, and at the same time, in order to synchronously display the characters, pronunciation symbols, and pronunciation mouth images of the found word, When the "translation / decision (voice)" key 17a4 is operated (step S21), the processing shifts to the synchronous reproduction processing in FIG. 8 (step SA).
[0128]
Then, in step A2 of the synchronous reproduction process, the animation-like character image 12d (No1BL) changed to blue in response to the user selection of the incorrect accent is read and transferred to the synchronization image file memory 12n in the RAM 12B. You. At the same time, based on the synchronous reproduction link data (see FIG. 2) for the current question word “low” stored in the dictionary database 12b, the text / image for synchronous reproduction on the search entry display screen G2 is displayed. An HTML file for setting the windows W1 and W2 (see FIG. 17B) is read according to the HTML file No. and written into the synchronization HTML file memory 12j. In addition, the text data “low (with erroneous phonetic symbols)” of the question word is read and written to the synchronization text file memory 12k. The pronunciation voice data corrected according to the error accent of the question word is read out and written into the synchronization sound file memory 12m (step A2).
[0129]
Then, from the time code file 12fn for synchronous playback of the encrypted voice / text / image corresponding to various headwords stored as the dictionary time code file 12f in the FLASH memory 12A, the current word "low" is set. Is decoded and read according to the time code file No. described in the synchronous reproduction link data (see FIG. 2), and the time code file 12fn (see FIG. 5) is read out. The data is transferred to and stored in the memory 12i (step A3).
[0130]
Then, the synchronous reproduction processing of the pronunciation sound of the error accent, the headword character, and the pronunciation mouth type image according to the time code file 12fn corresponding to the question word “low” is performed for the search headword “low” described above. As in the case, the reproduction process according to each command code in steps A7 to A12 and the text corresponding port display process in FIG. 9 are started. Then, as shown in FIG. 17 (B), in the window W1 (Ef) for text synchronous reproduction on the search entry search word display screen G2, an incorrect pronunciation accent symbol by the user selection is displayed together with the question word "low". In addition, in the window for image synchronous reproduction W2, the animated character image 12d (No. 1BL) whose blue color has been changed by the user selection of the error accent is displayed as the target image of the mouth-shaped image synthesis.
[0131]
As a result, in synchronism with the pronunciation sound output of an erroneous accent corresponding to the question word “low”, as shown in FIGS. 17 (C) (1) to (3), the text synchronous playback window W1 (Ef) The highlight (identification) display HL from the first character of the question word "low" and its erroneous phonetic symbol is sequentially displayed, and in the image synchronous reproduction window W2, the blue color is changed due to the selection of the wrong accent. Based on the animated character image 12d (No1BL), a sound mouth type image 12e (No36 → No9 → No8) corresponding to the mouth number of each sound symbol is provided in the mouth image area (X1, Y1; X2, Y2). The images are read out from the audio-specific mouth image data 12e, sequentially switched, combined, and displayed.
[0132]
Also in this case, according to the same text-corresponding mouth display processing as described above, the highlight (identification) display HL synchronized with the output of the pronunciation voice for the erroneous accent character “u” of the headword “Low”, the pronunciation mouth type image At the time of switchover display of 12e (No. 8), the animated character (face) image 12d (No. 1BL) whose blue has been changed, which is the synthesis destination of the mouth-shaped image 12e (No. 8), is caused by, for example, sweating of the head or shaking of the body. The accented blue face image 12d (No1BL '), which expresses a strongly pronounced state, is changed and displayed, so that the user can make an incorrect pronunciation of the accent word of the question word "Low", its erroneous utterance timing, and each correspondence. Audible mouth image 12e (No36 → No9 → No8) so that it can be clearly learned as the one with wrong accent That.
[0133]
On the other hand, as shown in FIG. 18A, in the accent test question display screen G3, when the selection frame X is moved by operating the cursor key 17a2, for example, when a selection item Et having a correct accented phonetic symbol is selected and detected. (Step S16) The process shifts to the synchronous reproduction process in FIG. 8 without performing the blue changing process (Step S18) of the character image 12d (No. 1) or the correction process of the pronunciation sound corresponding to the erroneous accent (Step S19). (Step S17 → SA).
[0134]
Then, the synchronized reproduction of the pronunciation voice / text / pronunciation mouth type image corresponding to the search entry "low" in the state where the animation-like character image 12e (No1) is set as described above with reference to FIG. In the same manner as the processing, as shown in FIG. 18B, in the window W1 (Et) for text synchronous reproduction on the search entry search word display screen G2, the correct accent pronunciation by the user selection together with the question word "low" is displayed. A symbol is displayed, and an animation-style character image 12d (No. 1) of a normal color as set in advance is displayed as a target image for mouth-shaped image synthesis in the window W2 for image synchronous reproduction.
[0135]
As a result, in synchronization with the pronunciation sound output of the correct accent corresponding to the question word “low”, as shown in FIGS. 18 (C) (1) to (3), in the text synchronous playback window W1 (Et), Highlighting (identification) display HL is sequentially performed from the first word of the question word “low” and its correct phonetic symbol, and an animation character image of a normal color as set in advance is displayed in the window for image synchronous reproduction W2. Based on the mouth image area (X1, Y1; X2, Y2) based on 12d (No1), a sound mouth type image 12e (No36 → No9 → No8) corresponding to the mouth number of each phonetic symbol is a speech-specific mouth image. The data is read out from the data 12e, sequentially switched, combined and displayed.
[0136]
Also in this case, in accordance with the same text-corresponding mouth display processing as described above, the highlight (identification) display HL synchronized with the output of the pronunciation voice for the correct accent character "o" of the found word "Low", the pronunciation mouth type image 12e At the time of the switching synthesis display of (No9), the animation-like character (face) image 12d (No1) to which the mouth-shaped image 12e (No9) is synthesized sounds strongly due to, for example, sweating of the head or shaking of the body. Since the face image 12d (No1 ') corresponding to the accent representing the state is changed and displayed, the user can make the correct accent pronunciation sound of the question word "Low", its correct utterance timing, and the corresponding pronunciation mouth type image 12e (No36). → No9 → No8) can be clearly learned.
[0137]
Therefore, according to the synchronized playback function of the pronunciation voice / text / pronunciation type image accompanying the headword search by the portable device 10 of the first embodiment having the above-described configuration, the headword “low” to be searched is input. When the dictionary data corresponding to the search entry is searched and displayed as the search entry display screen G2, when the "translation / decision (voice)" key 17a4 is operated, the search entry "low" is obtained. In synchronization with the pronunciation sound output from the stereo sound output unit 19b in accordance with the time code file 12f23, the search entry "low" and the highlight (identification) display HL of the search entry "low" in the text synchronous playback window W1. Are sequentially performed, and in the image synchronous reproduction window W2, based on the character image 12d (No3) set in advance, the mouth image area (X1 Y1; X2, Y2) are read out of the sound-based mouth image data 12e, and are sequentially switched and synthesized, and are displayed. You.
[0138]
In addition, when the composite display of the highlight (identification) display HL and the pronunciation mouth image 12e (No. 9) is synchronized with the output of the pronunciation voice for the accent character "o" of the search entry word "Low", the mouth shape is displayed. An accent-compatible face image 12d (No3 ') representing a state in which the character (face) image 12d (No3) to which the image 12e (No9) is synthesized is strongly pronounced due to, for example, sweating of the head or shaking of the mouth. , The user can hear the pronunciation voice of the search entry “Low” and its utterance timing, the corresponding portions of the characters “L”, “o”, “w” and their pronunciation symbols, and further, each pronunciation mouth type image. 12e (No36 → No9 → No8) can be easily learned not only by their respective synchronized playback, but also by realizing the timing of vocal emphasis according to the accent. It becomes possible way.
[0139]
Further, according to the synchronized playback function of pronunciation voice, text, and pronunciation type image accompanying the headword search by the portable device 10 of the first embodiment having the above-described configuration, for example, a dictionary database having pronunciation symbols of US and British dialects When a search for a headword is performed based on 12b, as shown in FIG. 15 or FIG. 16, a US tone [US] or an English sound [UK] is designated and the "translation / decision (voice)" key 17a4 is pressed. When operated, in synchronization with the designated pronunciation sound of the American sound or English sound, the search entry "lough" and the highlighting (identification) of the American sound or English sound symbol are displayed in the window W1 for text synchronous reproduction. HL are sequentially performed, and in the window W2 for image synchronous reproduction, the character image 12d (No1) set in advance is set to be used for American sound expression (No1US) or English sound expression (No1UK). Based on the mouth image area (X1, Y1; X2, Y2), the sound mouth type image 12e (Non1 → Non2 → Non3) corresponding to the mouth number of each phonetic symbol of the American sound or the English sound is displayed for each voice. Since it is read out from the mouth image data 12e, sequentially switched and synthesized, and displayed, the pronunciation voice of the US dialect corresponding to the search term and its pronunciation symbol / pronunciation type and the pronunciation voice of the English dialect and its pronunciation symbol・ Learn clearly and distinctively from the pronunciation type.
[0140]
According to the synchronized playback function of the pronunciation voice, text, and pronunciation type image accompanying the entry search by the portable device 10 of the first embodiment having the above-described configuration, each entry word recorded in the dictionary database 12b includes 17 and 18, when the "accent test" key 17a6 is operated, the randomly selected entry word "low" is generated. The accent test question display screen G3 is displayed together with the correct accent pronunciation symbols and the incorrect accent pronunciation symbols. When the correct accented pronunciation symbol is selected, each sound opening type image 12e (No36 → No9 → No8) based on the normal set character image 12d (No1) in synchronization with the correct pronunciation sound output. Is switched, and if a phonetic symbol with an incorrect accent is selected, each sound opening type based on the character image 12d (No1BL) that has been changed in blue color in synchronization with the incorrect phonetic sound output is displayed. The image 12e (No36 → No9 → No8) is switched and displayed, and the character image 12e (No1) (No1BL) as the mouth-shaped image synthesis base is accent-compatible even during synchronous reproduction of the correct or incorrect accent part. The character image 12e (No1 ') (No1BL') is changed and displayed. And pronunciation cement, and pronunciation wrong accent, it becomes possible to clearly learn the synchronous reproduction of the audio-text image corresponding to the respective.
[0141]
In the first embodiment, the synchronous raw reprocessing of the pronunciation voice, text (with pronunciation symbols), and pronunciation mouth type image corresponding to the search entry word is performed by outputting the pronunciation voice by the synchronous reproduction process according to the time code file 12f. And a pronunciation mouth type corresponding to a phonetic symbol corresponding to the identification display character by a text corresponding mouth display process executed by interruption in accordance with the sequential identification display of the text characters synchronized with the character. Although the configuration is performed by switching and displaying images, as described in the following second embodiment, various phonetic symbols including phonetic symbols with accent symbols and their respective phonetic voice data and phonetic face images are stored in advance. A plurality of pairs are stored in association with each other, and the characters of the headword to be reproduced are highlighted in order from the beginning, and the phonetic symbols of the highlighted characters are sequentially displayed. It may be configured to perform display of output and face image data of the sound speech data correlated.
[0142]
(2nd Embodiment)
FIG. 19 is a flowchart showing headword synchronized playback processing of the portable device 10 according to the second embodiment.
[0143]
That is, in the portable device 10 of the second embodiment, various phonetic symbols including phonetic symbols with accent symbols, their respective phonetic voice data, and phonetic voice data corresponding to the various phonetic symbols are supported. A plurality of sets of sounding facial images having different forms of mouth parts and facial expressions are stored in the memory 12 in advance.
[0144]
Then, for example, in the English-Japanese dictionary stored in advance as the dictionary database 12b, an arbitrary headword "low" is input and searched, and as shown in FIG. 11, displayed as a search headword display screen G2. In this state, when the "translation / decision (voice)" key 17a4 is operated in order to perform the synchronous reproduction of the pronunciation voice and the pronunciation face image, the synchronous reproduction process of the second embodiment shown in FIG. 19 is started. You.
[0145]
When the synchronous reproduction process according to the second embodiment is started, as shown in FIG. 12 or FIG. 13, first, a text synchronous reproduction window W1 is opened on the search entry search word display screen G2, and the search entry entry is opened. Each character of "low" and a phonetic symbol are highlighted HL from the head in the order of their pronunciation (step C1). Then, the phonetic symbols of the headwords with the emphasized identification display HL are read out (step C2), and it is determined whether or not accented symbols are provided (step C3).
[0146]
Here, as shown in FIG. 12 (B) (1) or FIG. 13 (B) (1), the phonetic symbol of the character “l” in the entry word “low” highlighted this time is displayed without accent marks. In some cases, accent-free pronunciation voice data corresponding to the phonetic symbol stored in advance in the memory 12 is read out and output from the stereo voice output unit 19b (steps C3 → C4). The associated soundless face image without accent is read out and displayed in the image synchronous playback window W2 (step C5).
[0147]
Then, the character “o” next to the currently output search term “low” is read out (step C6 → C7), and the process returns to the process from step C1 again, and FIG. As shown by (2) in FIG. 13B, the emphasis identification display HL is displayed together with the phonetic symbol (step C1).
[0148]
If it is determined that the phonetic symbol of the character "o" in the highlighted word HL highlighted this time has an accent symbol (steps C2 and C3), the phonetic symbol is stored in the memory 12 in advance. Accented pronunciation voice data corresponding to the pronunciation symbol is read out and output from the stereo voice output unit 19b (step C3 → C8), and FIG. 12 (C) (2) or FIG. 13 (B) ▲. As shown by 2 ▼, a sounding face image associated with the expression, for example, with accents due to sweating of the head or movement of the body is read out and displayed in the image synchronous reproduction window W2 (step C9).
[0149]
Therefore, even in the case of using the portable device 10 of the second embodiment, the output of the pronunciation voice and the generation of the pronunciation face image associated with the highlight (identification) display HL of the accent character “o” of the search entry “Low”. At the time of display, based on the accented pronunciation symbols, the pronunciation face image is displayed as an accent-compatible face image expressing a state in which the pronunciation is strong due to, for example, sweating of the head or movement of the body. Each letter "L", "o", "w" of the search entry word "Low" and the pronunciation voice, and further, each pronunciation face image can be easily learned by the corresponding output, and also utterance according to the accent. You will be able to learn the emphasis part realistically.
[0150]
In the second embodiment, various phonetic symbols including phonetic symbols with accent symbols stored in the memory 12 in advance, respective phonetic voice data, and phonetic voice data corresponding to the various phonetic symbols are stored. For pronunciation face images composed of different forms of mouth parts and facial expressions corresponding to the output of the pronunciation voice associated with the accented phonetic symbols is set to be larger than the pronunciation voice associated with the accentless phonetic symbols, The opening degree of the mouth portion of the pronunciation face image associated with the accented pronunciation symbol is set to be larger than the opening degree of the mouth portion of the pronunciation face image associated with the accent-free pronunciation symbol. Further, the expression in the face image is set so that the expression of the pronunciation face image associated with the accented pronunciation symbol is emphasized more than the expression of the pronunciation face image associated with the accent-free pronunciation symbol.
[0151]
In the second embodiment, various phonetic symbols including phonetic symbols with accent symbols, their respective phonetic voice data, and different types of mouth voice data corresponding to the phonetic voice data corresponding to the various phonetic symbols are used. A pronunciation face image consisting of parts and facial expressions is stored in advance, each character of the search entry is highlighted in the order of its pronunciation, and the pronunciation sound associated with the pronunciation symbol is read out and output. The associated pronunciation face image is read out and displayed. However, as described in the following third embodiment, the pronunciation voice of the entry word and the pronunciation voice of the entry word are associated with each entry word in the dictionary database 12b. A pronunciation face image is combined in advance and stored, and the pronunciation voice and the pronunciation face image are read out and output according to the character display of the search entry word, and the peak level of the pronunciation voice signal at this time is read out. Determining an accent moiety by detecting the Le, it may be configured to change control to the mouth and facial expressions of the form a different display form of the sound face image.
[0152]
(Third embodiment)
FIG. 20 is a flowchart showing headword synchronized playback processing of the portable device 10 according to the third embodiment.
[0153]
That is, in the portable device 10 of the third embodiment, the pronunciation voice of the headword and the pronunciation face image are stored in advance in association with each headword in each dictionary data of the dictionary database 12b.
[0154]
Then, for example, in the English-Japanese dictionary stored in advance as the dictionary database 12b, an arbitrary headword "low" is input and searched, and as shown in FIG. 11, displayed as a search headword display screen G2. When the "translation / decision (voice)" key 17a4 is operated in such a state that the pronunciation sound and the pronunciation face image are synchronously reproduced, the synchronous reproduction processing of the third embodiment shown in FIG. 20 is started. You.
[0155]
When the synchronous reproduction process according to the third embodiment is started, as shown in FIG. 12 or FIG. 13, first, a text synchronous reproduction window W1 is opened on the search entry search word display screen G2, and the search entry entry is opened. Each character of "low" is highlighted HL from the beginning in the order of its pronunciation (step D1). Then, the pronunciation voice data of the portion corresponding to the headline character with the emphasized identification display HL is read (step D2), and output from the stereo voice output unit 19b (step D3).
[0156]
Here, for example, whether or not the signal (waveform) level of the pronunciation voice data of the portion corresponding to the character "l" in the headword "low" highlighted this time HL is a voice signal level (accent portion) equal to or higher than a certain value If it is determined (step D4) that it is not higher than the predetermined audio signal level, that is, if it is not an accent part, the pronunciation face image stored in association with the search entry is read out. Then, it is displayed as it is in the window W2 for image synchronous reproduction (step D5).
[0157]
Then, the character “o” next to the currently output search term “low” is read out (step D6 → D7), and the process returns to the step D1 again to highlight and display HL (step D1). ).
[0158]
Then, the pronunciation voice data of the portion corresponding to the headword "o" highlighted this time is displayed (step D2), output from the stereo voice output unit 19b (step D3), and the highlighted display is performed. It is determined whether or not the signal (waveform) level of the pronunciation voice data of the portion corresponding to the HL word character "o" is a voice signal level (accent portion) that is equal to or higher than a predetermined value (step D4).
[0159]
Here, when it is determined that the sound level is equal to or higher than the predetermined audio signal level, that is, the sound part is an accent part, the pronunciation face image stored in association with the search entry is read out, and the face image is The facial image is controlled to be changed to a face image in which the opening of the mouth portion is large and the expression is strong (for example, FIG. 12 (B) (2) → FIG. 12 (C) (2)), and the image is displayed in the image synchronous playback window W2 ( Step D4 → D8).
[0160]
When the sound signal waveform level of the pronunciation sound is determined to be a certain value or more and is determined to be an accent part, the corresponding characters of the highlighted search term are further changed or added in display color. Alternatively, by changing the character font or the like, a configuration may be adopted in which change is controlled to a form indicating that the character is an accent part and displayed.
[0161]
Therefore, even in the case of the portable device 10 of the third embodiment, the output of the pronunciation voice and the generation of the pronunciation face image associated with the highlight (identification) display HL of the accent character “o” of the search entry “Low”. At the time of display, based on the sounding sound signal level at that time being equal to or higher than a certain value, the sounding face image is controlled to be changed to, for example, a face image corresponding to an accent with a large mouth opening and a strong expression. Therefore, the user can not only easily learn the characters "L", "o", "w" of the search headword "Low" and their pronunciation voices, and further, the pronunciation face images by their corresponding outputs, but also In this way, it is possible to learn a part for emphasizing speech according to the accent in a realistic manner.
[0162]
Note that in the description of the synchronous playback function of each character (text), pronunciation voice, and pronunciation face image (including pronunciation mouth type image) of the search entry in each of the above embodiments, the accent of the entry is present in one place. However, if the search entry word has two accents, the first accent and the second accent, the accent-capable pronunciation face image (including the pronunciation mouth) displayed corresponding to each accent part The type image may be displayed in a different form depending on, for example, the degree of opening of the mouth and the strength of the expression depending on the case of the first accent and the case of the second accent.
[0163]
The method of each processing by the portable device 10 described in each of the above embodiments, that is, the main processing according to the dictionary processing program 12a in the first embodiment shown in the flowchart of FIG. 7, and the main processing shown in the flowchart of FIG. Headword synchronous playback processing accompanying processing, text-corresponding mouth display processing executed by interruption in response to highlight display of each headword character accompanying the headword synchronous playback processing shown in the flowchart of FIG. 9, FIG. The headword synchronous reproduction process in the second embodiment shown in the flowchart of FIG. 20 and the headword synchronous reproduction process in the third embodiment shown in the flowchart of FIG. 20 can be executed by the computer. Programs include a memory card (ROM card, RAM card, DATA / CARD, etc.), a magnetic disk (floppy disk, De disks, etc.), optical disk (CD-ROM, DVD, etc.) can be distributed and stored in the external recording medium 13 such as a semiconductor memory. Various computer terminals having a communication function with the communication network (Internet) N read the program stored in the external recording medium 13 into the memory 12 by the recording medium reading unit 14, and operate according to the read program. By being controlled, a synchronized reproduction function of each character (text), pronunciation voice, and pronunciation face image (including pronunciation mouth type image) corresponding to the search entry word described in each of the above embodiments is realized. Can perform the same processing.
[0164]
Further, data of a program for realizing each of the above methods can be transmitted on a communication network (Internet) N in the form of a program code, and a computer terminal connected to the communication network (Internet) N transmits the program data. By taking in program data, it is also possible to realize a synchronized reproduction function of each character (text), pronunciation voice, and pronunciation face image (including pronunciation mouth type image) corresponding to the above-mentioned search entry word.
[0165]
It should be noted that the present invention is not limited to the above-described embodiments, and can be variously modified in an implementation stage without departing from the scope of the invention. Furthermore, the embodiments include inventions at various stages, and various inventions can be extracted by appropriately combining a plurality of disclosed constituent elements. For example, even if some components are deleted from all the components shown in each embodiment or some components are combined, the problem described in the section of the problem to be solved by the invention can be solved. In the case where the effects described in the section of the effects of the invention can be obtained, a configuration in which this component is deleted or combined can be extracted as the invention.
[0166]
【The invention's effect】
As described above, according to the audio display output control device (audio display output control processing program) according to claim 1 of the present invention, the audio data is output by the audio data output means, and the text synchronous display control is performed. Means for displaying text in synchronization with the output of the audio data, displaying an image including at least a mouth portion by image display control means, and a mouth portion included in the display image by mouth image display control means, A mouth-shaped image corresponding to the audio data is displayed in synchronization with the audio data to be output as audio. Then, an accent of the voice data or the text is detected by an accent detection unit, and an image displayed by the image display control unit is changed according to the detection of the accent by an image change display control unit. This makes it possible not only to display text and images synchronized with the output of audio data, and to display a mouth-shaped image corresponding to the audio data in the mouth portion included in the image, but also to display the image in accordance with the detection of accent of the audio data or text. Can be changed, and the timing of accents can be clearly expressed.
[0167]
According to the voice display output control device according to claim 2 of the present invention, in the voice display output control device according to claim 1, the dictionary data corresponding to the headword input by the dictionary search means is further stored. The dictionary data corresponding to the entry searched by the dictionary is displayed by the dictionary data display control means. The voice data is the pronunciation voice data of the headword searched by the dictionary search means, the text is the text of the headword searched by the dictionary search means, and the headword pronunciation by the voice data output means. The output of the voice data, the display of the headword text synchronized with the headword pronunciation voice data by the text synchronous display control means, and the display of the image by the image display control means are performed by the dictionary data display control means. This is performed in the display state of the dictionary data corresponding to the headword. Thereby, along with the search and display of the dictionary data corresponding to the input headword, the output of the headword pronunciation voice data, the display of the headword text synchronized with this, the display of the image and the synchronous display of the mouth-shaped image In addition, the timing of the headword accent can be clearly expressed by the change of the display image according to the accent detection.
[0168]
According to the speech display output control device (speech display output control processing program) according to claim 3 (claim 11) of the present invention, a plurality of words and correct accented pronunciation symbols and errors of each word are stored by the word storage means. A pronunciation data with correct accent of the stored word or a pronunciation voice data with an erroneous accent of the stored word is output by the voice data output means, and the voice is output by the text synchronous display control means. The text of the word is displayed in synchronization with the pronunciation sound data of the word, and an image including at least the mouth portion is displayed by the image display control means. Display in a different display format than when accented pronunciation voice data is output Further, the mouth portion included in the mouth image display control means by the display image to display the image of the mouth type in synchronization with the sound audio data outputted corresponding to the sound audio data by the audio data outputting means. Then, with the synchronous display of the word text by the text synchronous display control means by the accent detection means, the accent of the word is detected from the accented pronunciation symbol of the corresponding word stored by the word storage means, and the image change display control means The image displayed by the image display control means is changed according to the accent detection. Thereby, not only the pronunciation sound data of correct accent and the pronunciation sound data of erroneous accent can be output for the word stored by the word storage means, but also the display of the word text synchronized with the pronunciation sound data and the mouth included in the display image Mouth-shaped images corresponding to the pronunciation sound data of parts can be displayed, and the displayed image can be changed according to the detection of word accents, so that correct and incorrect accents for words can be learned easily and at clear timing. Become.
[0169]
According to the voice display output control device according to claim 4 of the present invention, in the voice display output control device according to claim 3, the word stored by the correct / incorrect accent display control means corresponds to the word. The attached correct accented phonetic symbols and incorrect accented phonetic symbols are displayed side by side, and the correct / erroneous accent selecting means selects either the correct accented phonetic symbols or the incorrect accented phonetic symbols of the words displayed side by side. . Then, the voice data output means outputs the correct accent pronunciation speech data or the incorrect accent pronunciation speech data of the corresponding word in accordance with the correct / incorrect selection of the word accent by the correct / false accent selection means. Thereby, it is possible to further select a correct accented phonetic symbol or an incorrect accented phonetic symbol for the word stored by the word storage means and output the pronunciation voice data, and furthermore, to output the word text synchronized with the pronunciation voice data. The display and the mouth-shaped image corresponding to the pronunciation voice data of the mouth part included in the display image can be displayed, and the display image can be changed according to the detection of the word accent. You can learn at a clear timing.
[0170]
According to the voice display output control device according to claim 5 of the present invention, the storage means stores the plurality of headwords and the pronunciation voice data of at least two or more areas of each headword in association with each other, The region designating means designates any one of the pronunciation sound data of two or more regions of the stored headword. Then, the voice data output means outputs the pronunciation voice data of the designated area of the headword in accordance with the area designation of the pronunciation voice data, and the text synchronous display control means outputs the specified area of the headword to be voice-output. And displaying the text of the headword in synchronization with the pronunciation voice data of the subject, and displaying the image including at least the mouth portion in a different display form according to the designated area by the image display control means, Means for displaying a mouth-shaped image corresponding to the pronunciation sound data in synchronization with the sound output speech data for the mouth portion included in the display image. Then, with the synchronous display of the headword text by the accent detection means, the accent of the headword is detected, and the image displayed by the image display control means in response to the detection of the accent by the image change display control means. To change. Thereby, it is possible to designate and output the pronunciation voice data having the same headword and different regional dialects, and to synchronize the headword text and the mouth-shaped image of the display image middle part in synchronization with the output of the pronunciation voice data. Can be displayed, and images in different display modes can be displayed according to the specified area, and the change of the image can be displayed by detecting the accent, so that the pronunciation sound data and the timing of the accent in the specified area can be easily and clearly learned. Become.
[0171]
According to the image display control device (image display control processing program) according to claim 6 (claim 12) of the present invention, according to the display of the pronunciation order of a series of pronunciation target data including a headword of a word, a mouth or an expression is displayed. An image display control device for changing and controlling a face image provided with a plurality of sets of the sounding target data and phonetic symbols including accented phonetic symbols in a first storage means in association with each other; The storage unit stores a plurality of pairs of phonetic symbols including phonetic symbols with accent symbols and their voices and face images in association with each other. The first control means reads out the phonetic symbols corresponding to the sounding target data from the first storage means in accordance with the display of the sequence of the sounding target data in the order of sounding, and corresponds to the read phonetic symbols. The read voice and the face image are read from the second storage means, and the read voice is output to the outside, and the read face image is controlled so as to be displayed. When outputting voice to the outside by the first control, it is determined whether or not the read phonetic symbols include accented phonetic symbols, and it is determined that accented symbols are included. In this case, a voice and a face image corresponding to the accented phonetic symbol are read from the second storage means, and the read voice is output to the outside, and the read face image is displayed. It is controlled to be. With this, along with the display of the pronunciation order of the pronunciation target data such as a headword of a word, voice output corresponding to the pronunciation symbol of the pronunciation target data and face image display can be performed, and the accented pronunciation symbol Can easily and clearly learn pronunciation sounds such as words, the expression of the face accompanying this pronunciation, the pronunciation sound at the accent part, and the expression of the face accompanying the pronunciation of this accent part. become able to.
[0172]
According to the image display control device according to claim 7 of the present invention, in the image display control device according to claim 6, the phonetic symbols including accented phonetic symbols stored in the second storage means. Is composed of phonetic symbols with accent marks and phonetic symbols without accent marks, and the voice and face images stored in association with the phonetic symbols with accent marks and the accent marks are attached. It is different from the voice and the face image stored in association with the not-shown phonetic symbols. As a result, the difference between the pronunciation sound and the expression of the face in the portion of the data to be pronounced, such as a headword of a word, which does not have accent marks, and the difference between the pronunciation sound and the expression of the face in the portion with accent marks Will be able to learn more clearly.
[0173]
According to the image display control device of the present invention, an image for changing and controlling a face image having a mouth or a facial expression in accordance with a display of a pronunciation order of a series of pronunciation target data including a headword of a word. A display control device, wherein the storage means stores a plurality of sets of the sounding target data and its voice and face image in association with each other, and a signal corresponding to an accent portion of the stored signal waveform of the voice by the detection means. A peak portion of the waveform is detected, and a face image corresponding to the voice of the detected accent portion is read out from the storage portion by the display control portion, and the read face image is replaced with a signal waveform portion other than the accent portion. Control is performed so that the face image corresponding to the voice is displayed in a different display form. As a result, a face image corresponding to the pronunciation sound can be displayed in accordance with the pronunciation order of the pronunciation target data such as a headword of a word, and a different display mode is used for an accent portion detected by a peak portion of a voice signal waveform. This makes it possible to display a face image in which the face has been changed, and to learn the expression of the face accompanying the pronunciation in the accent part more clearly.
[0174]
According to the image display control device of the ninth aspect of the present invention, in the image display control device of the eighth aspect, the display control means corresponds to the accent part detected by the detection means. A text display control means is provided for controlling the display of the part of the sound target data to be displayed in a different display form from the display of the part of the sound target data corresponding to the signal waveform part other than the accent part. Thereby, in addition to the display of the face image corresponding to the pronunciation voice of the pronunciation target data, the display of the accent portion of the pronunciation target data can be displayed in a display form different from the display of the pronunciation target data other than the accent portion. Thus, it is possible to more clearly learn the accent portion of the pronunciation target data and the expression of the face accompanying the utterance of the pronunciation sound.
[0175]
Therefore, according to the present invention, in displaying an image synchronized with a sound output, a sound display output control device, an image display control device, and a sound display output control processing program capable of clearly expressing accent timing A display control processing program can be provided.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an electronic circuit of a portable device 10 according to an embodiment of a sound display output control device (image display control device) of the present invention.
FIG. 2 is a view showing link data for synchronous reproduction for one entry word “low” in a dictionary database 12b stored in a memory 12 of the portable device 10, and FIG. (B) shows the text data “low” stored in accordance with the text file No., and FIG. (C) shows the text stored in accordance with the text mouth synchronization file No. The figure which shows a character, a phonetic symbol, and a mouthpiece number.
FIG. 3 is a diagram showing character image data 12d stored in a memory 12 of the portable device 10 and selectively used by a user setting for synchronous display of a pronunciation mouth image in a dictionary entry search.
FIG. 4 shows a mouth image area (X1, Y1, No. 1) of a character image (12d: No. 1 to No. 3) stored in the memory 12 of the portable device 10 and synchronously displayed for a pronunciation mouth image in a dictionary entry search. The figure which shows the mouth image data 12e classified by audio | voice synthesized and displayed on X2, Y2).
FIG. 5 is a view showing a time code file 12f23 (12i) of a file No. 23 associated with a headword "low" in a dictionary time code file 12f stored in a memory 12 of the portable device 10.
FIG. 6 is a view showing the command codes of various commands described in the dictionary time code file 12fn (see FIG. 5) of the portable device 10 in association with command contents analyzed based on the parameter data.
FIG. 7 is a flowchart showing main processing according to the dictionary processing program 12a of the portable device 10.
FIG. 8 is a flowchart showing headword synchronous reproduction processing accompanying the main processing of the portable device 10;
FIG. 9 is a flowchart showing a text-corresponding mouth display process that is executed by interruption in response to the highlight display of each headword character accompanying the headword synchronous reproduction process of the portable device 10;
FIG. 10 is a view showing a setting display state of a synchronous reproduction character image in a character setting process in a main process of the portable device.
FIG. 11 is a view showing a search entry display screen G2 associated with the entry search processing in the main processing of the portable device 10.
FIG. 12 is a headword character display window W1 and a sound opening which are window-displayed on a search headword display screen G2 in a setting state of a character image No. 3 in accordance with the synchronous playback processing in the headword search processing of the portable device 10. FIG. 6A is a diagram showing a display state of a type display window W2, and FIG. 7A is a diagram showing a setting display state of a headword character display window W1 and a sound opening type display window W2 with respect to a search headword display screen G2. FIG. 8B shows the change of the entry word display window W1 and the accent-incompatible sound opening type display window W2 synchronized with the output of the pronunciation sound. FIG. The figure which shows the change state of the entry word display window W1 and the pronunciation opening type display window W2 corresponding to an accent.
FIG. 13 is a headword character display window W1 and a sound opening which are window-displayed on the search headword display screen G2 in the setting state of the character image No. 1 along with the synchronous playback processing in the headword search processing of the portable device 10. FIG. 6A is a diagram showing a display state of a type display window W2, and FIG. 7A is a diagram showing a setting display state of a headword character display window W1 and a sound opening type display window W2 with respect to a search headword display screen G2. FIG. 7B is a diagram showing a change state of a headword character display window W1 and a sound opening type display window W2 synchronized with the output of the pronunciation voice.
FIG. 14 is a view showing a search entry display screen G2 when an English-Japanese dictionary containing pronunciation forms of two countries, the United States and the United Kingdom, is used in the entry search processing in the main processing of the portable device 10.
FIG. 15 is a headword character display window that is displayed on the search headword display screen G2 when a US-style pronunciation [US] is designated in synchronization with the headword search processing of the portable device 10; FIG. 7A is a diagram showing a display state of W1 and a sound opening type display window W2. FIG. 7A shows a setting display state of a headword character display window W1 and a sound opening type display window W2 with respect to a search headword display screen G2. FIG. 7B is a diagram showing a change state of the entry word character display window W1 and the pronunciation opening type display window W2 synchronized with the output of the American pronunciation sound.
FIG. 16 is a headword character display window that is displayed on the search headword display screen G2 when English pronunciation [English] is designated along with the synchronous playback processing in the headword search processing of the portable device 10. FIG. 7A is a diagram showing a display state of W1 and a sound opening type display window W2. FIG. 7A shows a setting display state of a headword character display window W1 and a sound opening type display window W2 with respect to a search headword display screen G2. FIG. 6B is a diagram showing a change state of the headword character display window W1 and the pronunciation mouth type display window W2 synchronized with the output of the English pronunciation sound.
17A and 17B are diagrams showing an operation display state when an incorrect answer is selected in the accent test processing of the portable device 10, wherein FIG. 17A shows an accent test question display screen G3, and FIG. ) Shows the setting display state of the entry word character display window W1 and the sound opening type display window W2 with respect to the entry word display screen G2 to be set, and FIG. The figure which shows the change state of the entry word character display window W1 and the sound opening type display window W2.
FIG. 18 is a diagram showing an operation display state when a correct answer is selected in accordance with the accent test processing of the portable device 10, wherein FIG. 18A shows an accent test question display screen G3, and FIG. Is a view showing a setting display state of an entry word character display window W1 and a sound opening type display window W2 with respect to the entry word display screen G2 to be set, and FIG. The figure which shows the change state of the output word display window W1 and the sound opening type display window W2.
FIG. 19 is a flowchart showing headword synchronized playback processing of the portable device 10 according to the second embodiment.
FIG. 20 is a flowchart showing a headword synchronous reproduction process of the portable device 10 according to the third embodiment.
[Explanation of symbols]
10… Portable equipment
11 ... CPU
12 ... memory
12A: FLASH memory
12B ... RAM
12a: Dictionary processing program
12b… Dictionary database
12c: Dictionary audio data
12d: Character image data
12d (No. n): Setting character image
12d (No. n ') ... face image with accent
12d (No. nUS): US character set character image
12d (No. nUS '): American accent-compatible face image
12d (No. nUK): Character image set for English
12d (No. nUK '): English accent-compatible face image
12d (No. nBL): Blue change setting character image
12d (No. nBL '): Accent-compatible blue face image
12e: Sound-based mouth image data
12f: Dictionary time code file
12g ... entry word data memory
12h ... entry data dictionary data memory
12i: Time code file No23
12j: HTML file memory for synchronization
12k: Text file memory for synchronization
12m: Sound file memory for synchronization
12n: Image file memory for synchronization
12p: Mouth image area memory
12q ... Image expansion buffer
13. External recording medium
14: Recording medium reading unit
15 ... Transmission control unit
16… Communication unit
17a ... input section
17b Coordinate input device
18 Display part
19a: Voice input unit
19b: Stereo audio output unit
20… Communication equipment (home PC)
30… Web server
N: Communication network (Internet)
X ... selected frame
H: Time code table header information
G1 ... Character image list selection screen
G2… entry search screen
G3: Accent test question display screen
W1 ... entry word character display window (text synchronous playback window)
W2… sounding mouth type display window (window for synchronized playback)
HL: Highlight (identification) display
Et ... correct answer selection item
Ef: Error accent selection item

Claims (12)

音声データを出力する音声データ出力手段と、
この音声データ出力手段により出力される音声データに同期してテキストを表示させるテキスト同期表示制御手段と、
少なくとも口の部分を含む画像を表示させる画像表示制御手段と、
この画像表示制御手段により表示される画像に含まれる口の部分について、前記音声データ出力手段により出力される音声データに同期して当該音声データに対応した口型の画像を表示させる口画像表示制御手段と、
前記音声データまたは前記テキストのアクセントの有無を検出するアクセント検出手段と、
このアクセント検出手段によるアクセントの有りの検出に応じて前記画像表示制御手段により表示される口型の画像を変化させる画像変化表示制御手段と、
を備えたことを特徴とする音声表示出力制御装置。
Audio data output means for outputting audio data;
Text synchronous display control means for displaying text in synchronization with the audio data output by the audio data output means,
Image display control means for displaying an image including at least a mouth portion,
Mouth image display control for displaying a mouth-shaped image corresponding to the voice data in synchronization with the voice data output by the voice data output means for the mouth portion included in the image displayed by the image display control means Means,
Accent detection means for detecting the presence or absence of an accent in the audio data or the text;
Image change display control means for changing a mouth-shaped image displayed by the image display control means according to detection of presence of an accent by the accent detection means;
A voice display output control device comprising:
さらに、
入力された見出語に対応した辞書データを検索する辞書検索手段と、
この辞書検索手段により検索された見出語に対応した辞書データを表示させる辞書データ表示制御手段とを備え、
前記音声データは前記辞書検索手段により検索された見出語の発音音声データで、前記テキストは前記辞書検索手段により検索された見出語のテキストであり、
前記音声データ出力手段による見出語発音音声データの出力、および前記テキスト同期表示制御手段による前記見出語発音音声データに同期した見出語テキストの表示、および前記画像表示制御手段による画像の表示は、前記辞書データ表示制御手段による検索見出語に対応した辞書データの表示状態において行う、
ことを特徴とする請求項1に記載の音声表示出力制御装置。
further,
Dictionary search means for searching dictionary data corresponding to the input headword;
Dictionary data display control means for displaying dictionary data corresponding to the entry word searched by the dictionary search means,
The voice data is pronunciation sound data of the headword searched by the dictionary search unit, and the text is a text of the headword searched by the dictionary search unit,
Output of headword pronunciation voice data by the voice data output means, display of headword text synchronized with the headword pronunciation voice data by the text synchronous display control means, and display of an image by the image display control means Is performed in a display state of dictionary data corresponding to a search entry word by the dictionary data display control means,
The audio display output control device according to claim 1, wherein:
複数の単語と当該各単語それぞれの正しいアクセント付き発音記号と誤りアクセント付き発音記号とを対応付けて記憶する単語記憶手段と、
この単語記憶手段により記憶した単語の正しいアクセントの発音音声データまたは誤りアクセントの発音音声データを出力する音声データ出力手段と、
この音声データ出力手段により出力される単語の発音音声データに同期して当該単語のテキストを表示させるテキスト同期表示制御手段と、
少なくとも口の部分を含む画像を、前記音声データ出力手段により正しいアクセントの発音音声データが出力される場合と誤りアクセントの発音音声データが出力される場合とで異なる表示形態にして表示させる画像表示制御手段と、
この画像表示制御手段により表示される画像に含まれる口の部分について、前記音声データ出力手段により出力される発音音声データに同期して当該発音音声データに対応した口型の画像を表示させる口画像表示制御手段と、
前記テキスト同期表示制御手段による単語テキストの同期表示に伴い、前記単語記憶手段により記憶した該当単語のアクセント付き発音記号から該単語のアクセントを検出するアクセント検出手段と、
このアクセント検出手段によるアクセントの検出に応じて前記画像表示制御手段により表示される画像を変化させる画像変化表示制御手段と、
を備えたことを特徴とする音声表示出力制御装置。
Word storage means for storing a plurality of words and correct accented pronunciation symbols and error accented pronunciation symbols for each of the words in association with each other;
Sound data output means for outputting correct accent pronunciation sound data or incorrect accent pronunciation sound data of the word stored by the word storage means;
Text synchronous display control means for displaying the text of the word in synchronization with the pronunciation voice data of the word output by the voice data output means,
Image display control for displaying an image including at least a mouth part in a different display form depending on whether sound data with correct accent is output by the sound data output means and when sound data with incorrect accent is output. Means,
A mouth image for displaying a mouth-shaped image corresponding to the pronunciation sound data in synchronization with the pronunciation sound data output by the sound data output means for the mouth portion included in the image displayed by the image display control means. Display control means;
Along with the synchronous display of the word text by the text synchronous display control means, accent detection means for detecting the accent of the word from the accented phonetic symbol of the corresponding word stored by the word storage means,
Image change display control means for changing an image displayed by the image display control means in accordance with detection of an accent by the accent detection means;
A voice display output control device comprising:
さらに、
前記単語記憶手段により記憶した単語と当該単語に対応付けられた正しいアクセント付き発音記号と誤りアクセント付き発音記号とを並べて表示させる正誤アクセント表示制御手段と、
この正誤アクセント表示制御手段により表示された単語の正しいアクセント付き発音記号か誤りアクセント付き発音記号かの何れかを選択する正誤アクセント選択手段を備え、
前記音声データ出力手段は、前記正誤アクセント選択手段による単語アクセントの正誤選択に応じて、該当単語の正しいアクセントの発音音声データまたは誤りアクセントの発音音声データを出力する、
ことを特徴とする請求項3に記載の音声表示出力制御装置。
further,
Correct / false accent display control means for displaying a word stored by the word storage means and a correct accented pronunciation symbol and an incorrect accented pronunciation symbol associated with the word side by side,
A correct / false accent selecting means for selecting either a correct accented phonetic symbol or an incorrect accented phonetic symbol of the word displayed by the correct / false accent display control means;
The audio data output unit outputs pronunciation audio data of a correct accent or pronunciation audio data of an erroneous accent of the word in accordance with the correct / incorrect selection of a word accent by the correct / false accent selection unit.
The audio display output control device according to claim 3, wherein:
複数の見出語と当該各見出語それぞれの少なくとも2以上の地域の発音音声データとを対応付けて記憶する記憶手段と、
この記憶手段により記憶した見出語の2以上の地域の発音音声データのうち何れかの地域を指定する地域指定手段と、
この地域指定手段による発音音声データの地域指定に応じて、該当見出語の指定地域の発音音声データを出力する音声データ出力手段と、
この音声データ出力手段により出力される見出語の指定地域の発音音声データに同期して当該見出語のテキストを表示させるテキスト同期表示制御手段と、
少なくとも口の部分を含む画像を、前記地域指定手段による発音音声データの指定地域に応じて異なる表示形態にして表示させる画像表示制御手段と、
この画像表示制御手段により表示される画像に含まれる口の部分について、前記音声データ出力手段により出力される発音音声データに同期して当該発音音声データに対応した口型の画像を表示させる口画像表示制御手段と、
前記テキスト同期表示制御手段による見出語テキストの同期表示に伴い、当該見出語のアクセントを検出するアクセント検出手段と、
このアクセント検出手段によるアクセントの検出に応じて前記画像表示制御手段により表示される画像を変化させる画像変化表示制御手段と、
を備えたことを特徴とする音声表示出力制御装置。
Storage means for storing a plurality of headwords and pronunciation sound data of at least two or more areas of each headword in association with each other;
Area designating means for designating any of the pronunciation sound data of two or more areas of the headword stored by the storage means;
Voice data output means for outputting the pronunciation voice data of the designated area of the headword in accordance with the area designation of the pronunciation voice data by the area designation means;
Text synchronous display control means for displaying the text of the headword in synchronization with the pronunciation voice data of the specified area of the headword output by the voice data output means,
Image display control means for displaying an image including at least a mouth portion in a different display form according to the designated area of the pronunciation voice data by the area designating means,
A mouth image for displaying a mouth-shaped image corresponding to the pronunciation sound data in synchronization with the pronunciation sound data output by the sound data output means for the mouth portion included in the image displayed by the image display control means. Display control means;
With the synchronous display of the headword text by the text synchronous display control means, accent detection means for detecting the accent of the headword,
Image change display control means for changing an image displayed by the image display control means in accordance with detection of an accent by the accent detection means;
A voice display output control device comprising:
単語の見出語を含む一連の発音対象データの発音順の表示に従って、口または表情を備えた顔画像を変更制御する画像表示制御装置であって、
前記発音対象データとアクセント記号付き発音記号を含む発音記号とを対応付けて複数組み記憶している第1の記憶手段と、
アクセント記号付き発音記号を含む発音記号とその音声および顔画像を対応付けて複数組み記憶している第2の記憶手段と、
前記一連の発音対象データの発音順の表示に伴い、この発音対象データに対応する発音記号を前記第1の記憶手段から読み出し、この読み出された発音記号に対応する音声と顔画像とを前記第2の記憶手段から読み出し、この読み出された音声を外部へ出力すると共に、読み出された顔画像を表示するように制御する第1の制御手段と、
この第1の制御手段の制御により音声を外部に出力する際に、前記読み出された発音記号の中にアクセント記号付き発音記号が含まれているか否かを判別し、アクセント記号が含まれていると判別された際は、このアクセント記号付き発音記号に対応する音声と顔画像とを前記第2の記憶手段から読み出し、この読み出された音声を外部へ出力すると共に、読み出された顔画像を表示するように制御する第2の制御手段と、
を備えていることを特徴とする画像表示制御装置。
An image display control apparatus that changes and controls a face image having a mouth or a facial expression according to a display of a sequence of pronunciation target data including a headword of a word,
First storage means for storing a plurality of sets of the pronunciation target data and pronunciation symbols including accented pronunciation symbols in association with each other;
Second storage means for storing a plurality of pairs of phonetic symbols including accented phonetic symbols and their voices and face images in association with each other;
With the display of the pronunciation order of the series of pronunciation target data, pronunciation symbols corresponding to the pronunciation target data are read from the first storage means, and the voice and face image corresponding to the read pronunciation symbols are read out from the first storage unit. First control means for reading from the second storage means, outputting the read voice to the outside, and controlling to display the read face image;
When outputting a voice to the outside under the control of the first control means, it is determined whether or not the read phonetic symbols include accented phonetic symbols. If it is determined that there is a voice, the voice and the face image corresponding to the accented phonetic symbol are read out from the second storage means, and the read voice is output to the outside and the read face is read out. Second control means for controlling to display an image,
An image display control device comprising:
前記請求項6に記載の画像表示制御装置にあって、
前記第2の記憶手段に記憶されているアクセント記号付き発音記号を含む発音記号は、アクセント記号が付いている発音記号とアクセント記号が付いていない発音記号とからなり、前記アクセント記号が付いている発音記号に対応付けて記憶されている音声および顔画像と前記アクセント記号が付いていない発音記号に対応付けて記憶されている音声および顔画像とは異なっていることを特徴とする画像表示制御装置。
In the image display control device according to claim 6,
The phonetic symbols including accented phonetic symbols stored in the second storage means include phonetic symbols with accented symbols and phonetic symbols without accented symbols, and are provided with the accented symbols. An image display control device, wherein a voice and a face image stored in association with a phonetic symbol are different from a voice and a face image stored in association with a phonetic symbol without the accent symbol. .
単語の見出語を含む一連の発音対象データの発音順の表示に従って、口または表情を備えた顔画像を変更制御する画像表示制御装置であって、
前記発音対象データとその音声および顔画像を対応付けて複数組み記憶している記憶手段と、
この記憶手段に記憶されている音声の信号波形のうち、前記発音対象データのアクセント部分に対応する信号波形のピーク部分を検出する検出手段と、
この検出手段により検出されたアクセント部分の音声に対応する顔画像を前記記憶手段から読み出しこの読み出された顔画像を、アクセント部分以外の他の信号波形部分の音声に対応する顔画像と異なる表示形態で表示するように制御する表示制御手段と、
を備えていることを特徴とする画像表示制御装置。
An image display control apparatus that changes and controls a face image having a mouth or a facial expression according to a display of a sequence of pronunciation target data including a headword of a word,
Storage means for storing a plurality of pairs of the sound target data and its voice and face image in association with each other,
Detecting means for detecting a peak part of a signal waveform corresponding to an accent part of the sounding target data among signal waveforms of voices stored in the storage means;
A face image corresponding to the voice of the accent part detected by the detection means is read from the storage means, and the read face image is displayed differently from the face image corresponding to the voice of the signal waveform part other than the accent part. Display control means for controlling display in a form;
An image display control device comprising:
前記請求項8に記載の画像表示制御装置にあって、
前記表示制御手段は、前記検出手段により検出されたアクセント部分に対応する発音対象データの部分の表示を、アクセント部分以外の他の信号波形部分に対応する発音対象データの部分の表示と異なる表示形態で表示するように制御するテキスト表示制御手段を備えていることを特徴とする画像表示制御装置。
In the image display control device according to claim 8,
The display control means displays the sound target data portion corresponding to the accent part detected by the detection means in a display mode different from the display of the sound target data portion corresponding to other signal waveform parts other than the accent part. An image display control device, comprising: a text display control unit that controls the display so as to be displayed on a display.
電子機器のコンピュータを制御して音声データとテキストと画像とを同期再生させるための音声表示出力制御処理プログラムであって、
前記コンピュータを、
音声データを出力する音声データ出力手段、
この音声データ出力手段により出力される音声データに同期してテキストを表示させるテキスト同期表示制御手段、
少なくとも口の部分を含む画像を表示させる画像表示制御手段、
この画像表示制御手段により表示される画像に含まれる口の部分について、前記音声データ出力手段により出力される音声データに同期して当該音声データに対応した口型の画像を表示させる口画像表示制御手段、
前記音声データまたは前記テキストのアクセントを検出するアクセント検出手段、
このアクセント検出手段によるアクセントの検出に応じて前記画像表示制御手段により表示される画像を変化させる画像変化表示制御手段、
として機能させるようにしたコンピュータ読み込み可能な音声表示出力制御処理プログラム。
An audio display output control processing program for controlling a computer of the electronic device to synchronously reproduce audio data, text, and images,
Said computer,
Audio data output means for outputting audio data,
Text synchronous display control means for displaying text in synchronization with the audio data output by the audio data output means,
Image display control means for displaying an image including at least a mouth portion,
Mouth image display control for displaying a mouth-shaped image corresponding to the voice data in synchronization with the voice data output by the voice data output means for the mouth portion included in the image displayed by the image display control means means,
Accent detection means for detecting an accent of the voice data or the text;
Image change display control means for changing an image displayed by the image display control means in accordance with detection of an accent by the accent detection means;
A computer-readable audio display output control processing program functioning as a computer.
電子機器のコンピュータを制御して音声データとテキストと画像とを同期再生させるための音声表示出力制御処理プログラムであって、
前記コンピュータを、
複数の単語と当該各単語それぞれの正しいアクセント付き発音記号と誤りアクセント付き発音記号とを対応付けて記憶する単語記憶手段、
この単語記憶手段により記憶した単語の正しいアクセントの発音音声データまたは誤りアクセントの発音音声データを出力する音声データ出力手段、
この音声データ出力手段により出力される単語の発音音声データに同期して当該単語のテキストを表示させるテキスト同期表示制御手段、
少なくとも口の部分を含む画像を、前記音声データ出力手段により正しいアクセントの発音音声データが出力される場合と誤りアクセントの発音音声データが出力される場合とで異なる表示形態にして表示させる画像表示制御手段、
この画像表示制御手段により表示される画像に含まれる口の部分について、前記音声データ出力手段により出力される発音音声データに同期して当該発音音声データに対応した口型の画像を表示させる口画像表示制御手段、
前記テキスト同期表示制御手段による単語テキストの同期表示に伴い、前記単語記憶手段により記憶した該当単語のアクセント付き発音記号から該単語のアクセントを検出するアクセント検出手段、
このアクセント検出手段によるアクセントの検出に応じて前記画像表示制御手段により表示される画像を変化させる画像変化表示制御手段、
として機能させるようにしたコンピュータ読み込み可能な音声表示出力制御処理プログラム。
An audio display output control processing program for controlling a computer of the electronic device to synchronously reproduce audio data, text, and images,
Said computer,
Word storage means for storing a plurality of words and a correct accented pronunciation symbol and an incorrect accented pronunciation symbol for each word in association with each other;
Voice data output means for outputting correct accent pronunciation voice data or incorrect accent pronunciation voice data of the word stored by the word storage means;
Text synchronous display control means for displaying the text of the word in synchronization with the pronunciation voice data of the word output by the voice data output means,
Image display control for displaying an image including at least a mouth part in a different display form depending on whether sound data with correct accent is output by the sound data output means and when sound data with incorrect accent is output. means,
A mouth image for displaying a mouth-shaped image corresponding to the pronunciation sound data in synchronization with the pronunciation sound data output by the sound data output means for the mouth portion included in the image displayed by the image display control means. Display control means,
Along with the synchronous display of the word text by the text synchronous display control means, accent detection means for detecting the accent of the word from accented phonetic symbols of the word stored by the word storage means,
Image change display control means for changing an image displayed by the image display control means in accordance with detection of an accent by the accent detection means;
A computer-readable audio display output control processing program functioning as a computer.
電子機器のコンピュータを制御して、単語の見出語を含む一連の発音対象データの発音順の表示に従い、口または表情を備えた顔画像を変更制御するための画像表示制御処理プログラムであって、
前記コンピュータを、
前記発音対象データとアクセント記号付き発音記号を含む発音記号とを対応付けて複数組み記憶する第1の記憶手段、
アクセント記号付き発音記号を含む発音記号とその音声および顔画像を対応付けて複数組み記憶する第2の記憶手段、
前記一連の発音対象データの発音順の表示に伴い、この発音対象データに対応する発音記号を前記第1の記憶手段により記憶した発音記号の中から読み出し、この読み出された発音記号に対応する音声と顔画像とを前記第2の記憶手段により記憶した音声および顔画像の中から読み出し、この読み出された音声を外部へ出力すると共に、読み出された顔画像を表示するように制御する第1の制御手段、
この第1の制御手段の制御により音声を外部に出力する際に、前記読み出された発音記号の中にアクセント記号付き発音記号が含まれているか否かを判別し、アクセント記号が含まれていると判別された際は、このアクセント記号付き発音記号に対応する音声と顔画像とを前記第2の記憶手段により記憶した音声および顔画像の中から読み出し、この読み出された音声を外部へ出力すると共に、読み出された顔画像を表示するように制御する第2の制御手段、
として機能させるようにした画像表示制御処理プログラム。
An image display control processing program for controlling a computer of an electronic device to change and control a face image having a mouth or a facial expression in accordance with a display of a sequence of pronunciation target data including a headword of a word, ,
Said computer,
A first storage unit that stores a plurality of sets of the pronunciation target data and pronunciation symbols including accented pronunciation symbols in association with each other;
Second storage means for storing a plurality of pairs of phonetic symbols including accented phonetic symbols and their voices and face images in association with each other;
Along with the display of the pronunciation order of the series of pronunciation target data, pronunciation symbols corresponding to the pronunciation target data are read out of the pronunciation symbols stored in the first storage unit, and the pronunciation symbols corresponding to the read pronunciation symbols are read out. The voice and the face image are read out from the voice and the face image stored by the second storage means, and the read voice is output to the outside and the read face image is controlled to be displayed. First control means,
When outputting a voice to the outside under the control of the first control means, it is determined whether or not the read phonetic symbols include accented phonetic symbols. When it is determined that there is a voice and a face image corresponding to the accented phonetic symbol, the voice and the face image are read out from the voice and the face image stored by the second storage means, and the read voice is sent to the outside. Second control means for outputting and displaying the read face image,
An image display control processing program that functions as a computer.
JP2003143499A 2003-05-21 2003-05-21 Voice display output control device and voice display output control processing program Expired - Fee Related JP4370811B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003143499A JP4370811B2 (en) 2003-05-21 2003-05-21 Voice display output control device and voice display output control processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003143499A JP4370811B2 (en) 2003-05-21 2003-05-21 Voice display output control device and voice display output control processing program

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009140670A Division JP4985714B2 (en) 2009-06-12 2009-06-12 Voice display output control device and voice display output control processing program

Publications (2)

Publication Number Publication Date
JP2004347786A true JP2004347786A (en) 2004-12-09
JP4370811B2 JP4370811B2 (en) 2009-11-25

Family

ID=33531274

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003143499A Expired - Fee Related JP4370811B2 (en) 2003-05-21 2003-05-21 Voice display output control device and voice display output control processing program

Country Status (1)

Country Link
JP (1) JP4370811B2 (en)

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100593757B1 (en) 2005-02-14 2006-06-30 유혜경 Foreign language studying device for improving foreign language studying efficiency, and on-line foreign language studying system using the same
JP2006195093A (en) * 2005-01-12 2006-07-27 Yamaha Corp Pronunciation evaluation device
WO2006085719A1 (en) * 2005-02-14 2006-08-17 Hay Kyung Yoo Foreign language studying device for improving foreign language studying efficiency, and on-line foreign language studying system using the same
JP2006251744A (en) * 2005-03-09 2006-09-21 Makoto Goto Pronunciation learning system and pronunciation learning program
JP2006301063A (en) * 2005-04-18 2006-11-02 Yamaha Corp Content provision system, content provision device, and terminal device
KR100816378B1 (en) 2006-11-15 2008-03-25 주식회사 에듀왕 Method for studying english pronunciation using basic word pronunciation
JP2008083446A (en) * 2006-09-28 2008-04-10 Casio Comput Co Ltd Pronunciation learning support device and pronunciation learning support program
WO2009066963A2 (en) * 2007-11-22 2009-05-28 Intelab Co., Ltd. Apparatus and method for indicating a pronunciation information
WO2010045757A1 (en) * 2008-10-24 2010-04-29 无敌科技(西安)有限公司 Emulated video and audio synchronous display device and mrthod
KR101153736B1 (en) 2010-05-31 2012-06-05 봉래 박 Apparatus and method for generating the vocal organs animation
JP2015520861A (en) * 2012-03-06 2015-07-23 アップル インコーポレイテッド Multilingual content speech synthesis processing
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
CN109147430A (en) * 2018-10-19 2019-01-04 渭南师范学院 A kind of teleeducation system based on cloud platform
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
CN113066347A (en) * 2021-04-06 2021-07-02 湖北师范大学 Interactive English education device and using method thereof
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
CN113228163A (en) * 2019-01-18 2021-08-06 斯纳普公司 Real-time text and audio based face reproduction
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
JP2022519981A (en) * 2018-12-13 2022-03-28 スクウェア パンダ インコーポレイテッド Variable speed phoneme sounding machine

Cited By (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4626310B2 (en) * 2005-01-12 2011-02-09 ヤマハ株式会社 Pronunciation evaluation device
JP2006195093A (en) * 2005-01-12 2006-07-27 Yamaha Corp Pronunciation evaluation device
WO2006085719A1 (en) * 2005-02-14 2006-08-17 Hay Kyung Yoo Foreign language studying device for improving foreign language studying efficiency, and on-line foreign language studying system using the same
KR100593757B1 (en) 2005-02-14 2006-06-30 유혜경 Foreign language studying device for improving foreign language studying efficiency, and on-line foreign language studying system using the same
JP2006251744A (en) * 2005-03-09 2006-09-21 Makoto Goto Pronunciation learning system and pronunciation learning program
JP4678672B2 (en) * 2005-03-09 2011-04-27 誠 後藤 Pronunciation learning device and pronunciation learning program
JP2006301063A (en) * 2005-04-18 2006-11-02 Yamaha Corp Content provision system, content provision device, and terminal device
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP2008083446A (en) * 2006-09-28 2008-04-10 Casio Comput Co Ltd Pronunciation learning support device and pronunciation learning support program
KR100816378B1 (en) 2006-11-15 2008-03-25 주식회사 에듀왕 Method for studying english pronunciation using basic word pronunciation
WO2009066963A3 (en) * 2007-11-22 2009-07-30 Intelab Co Ltd Apparatus and method for indicating a pronunciation information
WO2009066963A2 (en) * 2007-11-22 2009-05-28 Intelab Co., Ltd. Apparatus and method for indicating a pronunciation information
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
WO2010045757A1 (en) * 2008-10-24 2010-04-29 无敌科技(西安)有限公司 Emulated video and audio synchronous display device and mrthod
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
KR101153736B1 (en) 2010-05-31 2012-06-05 봉래 박 Apparatus and method for generating the vocal organs animation
JP2015520861A (en) * 2012-03-06 2015-07-23 アップル インコーポレイテッド Multilingual content speech synthesis processing
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
CN109147430A (en) * 2018-10-19 2019-01-04 渭南师范学院 A kind of teleeducation system based on cloud platform
JP2022519981A (en) * 2018-12-13 2022-03-28 スクウェア パンダ インコーポレイテッド Variable speed phoneme sounding machine
US11694680B2 (en) 2018-12-13 2023-07-04 Learning Squared, Inc. Variable-speed phonetic pronunciation machine
CN113228163A (en) * 2019-01-18 2021-08-06 斯纳普公司 Real-time text and audio based face reproduction
CN113066347A (en) * 2021-04-06 2021-07-02 湖北师范大学 Interactive English education device and using method thereof
CN113066347B (en) * 2021-04-06 2022-04-22 湖北师范大学 Interactive English education device and using method thereof

Also Published As

Publication number Publication date
JP4370811B2 (en) 2009-11-25

Similar Documents

Publication Publication Date Title
JP4370811B2 (en) Voice display output control device and voice display output control processing program
US8352269B2 (en) Systems and methods for processing indicia for document narration
US8793133B2 (en) Systems and methods document narration
US20160027431A1 (en) Systems and methods for multiple voice document narration
JP2001265326A (en) Performance position detecting device and score display device
JP2005070645A (en) Text and voice synchronizing device and text and voice synchronization processing program
JP2000081892A (en) Device and method of adding sound effect
JP2003186379A (en) Program for voice visualization processing, program for voice visualization figure display and for voice and motion image reproduction processing, program for training result display, voice-speech training apparatus and computer system
JP2001318592A (en) Device for language study and method for language analysis
JP2012098753A (en) Audio display output control device, image display control device, audio display output control process program and image display control process program
JP4985714B2 (en) Voice display output control device and voice display output control processing program
JP4591481B2 (en) Display control apparatus and display control processing program
JP2006284645A (en) Speech reproducing device, and reproducing program and reproducing method therefor
JP4677869B2 (en) Information display control device with voice output function and control program thereof
JP4407119B2 (en) Instruction code creation device
JP2004302285A (en) Device and program for information output
JP2005077678A (en) Text and voice synchronizing device and text and voice synchronization processing program
KR102112059B1 (en) Method for making hangul mark for chinese pronunciation on the basis of listening, and method for displaying the same, learning foreign language using the same
JP5057764B2 (en) Speech synthesis apparatus and speech synthesis program
JP4111005B2 (en) Voice display output control device and voice display output control processing program
JP2009075526A (en) Comprehensive english learning system using speech synthesis
JP2021043306A (en) Electronic apparatus, sound reproduction method, and program
JP2004302286A (en) Information output device, information output program
JP2004212646A (en) Voice data display output control device and voice data display output control processing program
JP5376177B2 (en) Karaoke equipment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060502

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090811

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090824

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120911

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4370811

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130911

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees