JP2005215888A - テキスト文の表示装置 - Google Patents

テキスト文の表示装置 Download PDF

Info

Publication number
JP2005215888A
JP2005215888A JP2004020237A JP2004020237A JP2005215888A JP 2005215888 A JP2005215888 A JP 2005215888A JP 2004020237 A JP2004020237 A JP 2004020237A JP 2004020237 A JP2004020237 A JP 2004020237A JP 2005215888 A JP2005215888 A JP 2005215888A
Authority
JP
Japan
Prior art keywords
text sentence
character
display
text
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004020237A
Other languages
English (en)
Inventor
Yasunori Kobori
康功 小堀
Satoshi Fujii
諭 藤井
Yoshio Wadamori
美穂 和田守
Yusuke Hino
優介 日野
Yosuke Tamura
陽介 田村
Akiko Shimotoi
晶子 下問
Chika Utsunomiya
千佳 宇都宮
Tomoaki Watabe
智晶 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2004020237A priority Critical patent/JP2005215888A/ja
Publication of JP2005215888A publication Critical patent/JP2005215888A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephone Function (AREA)

Abstract

【課題】
本発明は、連絡通信や意思伝達におけるテキスト文の表示装置に関し、表示するテキスト文の個々の文字の大きさや表示位置を変化させることにより、テキスト文作成者の感情や気持ちを効果的に伝えられるようにすることを目的とする。
【解決手段】 表示するテキスト文の作成において、入力音声を認識して文字情報に変換する音声認識手段と、入力音声の大きさ・周波数あるいは抑揚などの情報を検出する手段と、音声からの検出情報で文字の属性データを制御する文字属性制御手段と、テキスト文の表示手段とを有し、表示テキスト文の個々の文字の大きさおよび表示位置を変えてテキスト作成者の感情や気持ち応じて抑揚をつけてテキスト文を変化表示させる構成にする。
【選択図】
図2

Description

本発明は、連絡通信や意思伝達する文字列やコメント等のテキスト文の表示において、その内容や感情あるいは気持ちの抑揚をより深く伝えることが可能なテキスト文の表示装置に関する。
上記テキスト文の表示に関して、テキスト文の内容や気持ちが伝わるように表示する装置としては、たとえば特許文献1に示されるようにプレゼンテーションにおける表示単語やコメントの全体を強調修飾する装置が一般的であった。また、特許文献2に示されるようにテキスト文の単語において示される感情の程度に応じて変形した顔画像を作成し、テキスト文とともに関連付けた変形画像を表示させて送信する装置が一般的であった。さらに特許文献3に示されるようにテキスト文の作成に使用される文字フォントを選択可能として、使用する文字フォントに応じてあらかじめ対応させた楽曲データを演奏する装置も提案されていた。
また一部のコンピュータ用アプリケーションソフト(例えばOffice Word)においては、文字列を単純に表示位置を変えて波上に配置したり、単純に虹模様に色を変化させるソフトウェアも発売されている。このようなソフトは単純に規則的に文字列を変化させることにより、文字列の意味や感情をまったく考慮せずに決められる。さらにテレビ放送やビデオ画像および映画においては画面の端部に情報を文字表示するテロップや字幕、また外国語放送の日本語訳や聴覚障害者のための説明用スーパー等の表示においては、文字表示は平坦であり、また装飾する場合でも表示内容に関係なく文字の大きさや並び等の文字の属性は規則的であった。

特開2002−23716号公報 特開2003−271532号公報 特開2003−241749号公報
これまでの画像に重畳されたテキスト文表示や、電子メールなどの電子通信におけるテキスト文表示においては、表示されるテキスト文は単調な文字列で表現されていた。つまり同じ大きさの文字が同じ高さに規則的に並べられた表現であり、単語の意味やテキスト文の意思や感情などの調子表現を持たない単調な表示文であった。このような単調表示においては、同じような文字列によるテキスト文であっても、テキスト作成者の意思が明確に理解できない場合が多々発生した。たとえば了解の意思表示である「わかりました」を例にとると、快く引き受けた場合も嫌々止む無く了解した場合にも、表示されるテキスト文中の文字列はまったく同じ表現になる。同様に二重の意味に取れる言葉やテキスト文が実際には多く存在し、単調なテキスト文表示だけではその意思や感情が判断できないなどの問題があった。
また特許文献1のように、プレゼンテーションテキスト文の発表者の表現や感情に応じて、一部の単語やコメント全体を強調表示する方式では、あくまで単語やコメント全体を大きくするとか色を変えるあるいは点滅などのように強調することであり、単語やコメントの調子やテキスト文全体の抑揚による感情を伝えることはできなかった。また特許文献2のようにテキスト文中に使用される単語の持つ意味から感情を判断し、その感情の度合いに応じて顔画像を変形してテキスト文に貼り付ける方式では、単語単位で顔画像が添付されることより粗い区切りでの感情表現となり、また使用した単語に複数の感情表現がある場合には、その変形顔画像をどのように決定するかなどの問題点もあった。
さらに特許文献3のように、表記する文字のフォントを切り替えることによりその時の感情を表現する装置も提案されているが、文字フォントの選定に対して音楽などの楽曲データを選択演奏し、これにより代表的に感情を曲想で表現していた。この場合にもテキスト文の個々の単語の感情を表現することは困難であり、さらに細かな言葉の抑揚など文全体の調子を表現することはできなかった。また聴覚障害者に対して、曲想で表現することは全く意味を持たない。
本発明が前述の状況に鑑み解決しようとするところは、テキスト文中の単語に着目するのではなく、テキスト文を読むようにあるいは話し掛けるようにテキスト文全体における一文字ずつの変化を表現するように、入力テキスト文の内容や感情に関連して各文字の属性データを制御変化させることにより、テキスト文の内容や感情あるいは抑揚を視覚的に聴覚的に認識できるテキスト文の表示方法を提供することにある。またそれを実現する表示装置を提供することにある。
本発明は、前述の課題解決のために、第一に、アナログあるいはディジタル的な音声によるテキスト文の音声入力手段と、入力音声から文字あるいはテキスト文を認識する音声認識手段と、入力音声データの大きさを検出する最大振幅検出手段あるいは声の高さを検出する周波数検出手段を備えた音声データ処理手段と、認識テキスト文の文字属性制御手段と、その結果のテキスト文の表示手段と、入力音声データ長の分割処理手段とを有する。入力音声データを細かく区切って最大振幅検出手段や周波数検出手段に供給するに当たり、音声認識された文字数Nに合わせて分割する。したがって文字毎に対応して入力音声データを区切ることができ、適切に音声データを最大振幅検出手段や周波数検出手段に供給される。
また第二に、通常のテキスト文の音声入力では個々の文字の発声長さはほぼ等しいことに着目して、上記の分割処理手段において入力音声データ長をほぼN等分する。分割された一定長の音声データが最大振幅検出手段や周波数検出手段に供給される。
また第三に、入力音声のデータ波形を解析処理する音声データ処理手段内に、音声データのレベル検出手段を設ける。このレベル検出手段により微小レベル期間を検出して、音声入力前の無音声部分や音声入力終了後の無音声部分を検出し、入力音声データ長から無音声部分を除去してデータ分割処理手段に供給する。無用なデータを除去して必要最小限の音声データが、最大振幅検出手段や周波数検出手段に供給される。
また第四に、上記レベル検出手段の出力する微小レベル期間を計測する、時間計測手段を設ける。有効音声入力後に微小レベル期間が所定値以上に長いと、この部分を有効音声入力の終端と判断して実際の音声有効期間Lに相当する入力音声データ波形を確定する。このとき途中で生じた微小レベル期間は、有効音声データであると判断し除去しない。したがって有効音声データを正確に検出して、次段の分割処理手段に供給される。
また第五に、テキスト文の入力手段と、入力テキスト文の個々の文字に対する文字属性制御手段と、テキスト文の表示手段と、表示テキスト文の文字属性変更手段を有する。キーボードなどで入力された単調なテキスト文や、音声入力により文字属性に抑揚をつけて表示されたテキスト文に対して、さらに文字属性を個別に操作できる文字属性変更手段を有する。この文字属性変更手段により、音声入力時にもキーボード入力時にも任意に文字属性を変更する。
また第六に、テキスト文の入力手段と、入力テキスト文の個々の文字に対する文字属性制御手段と、テキスト文の表示手段を有する。表示手段では、文字属性の変化に応じて線や丸などに記号により、個々の文字の表示位置や記号の属性を変えて、例えばテキスト文の後にまとめて表示する。あるいはテキスト文中の個々の文字に対してその記号属性を変えて表示する。文字属性により直接的に個々の文字を変えることなく、テキストの周辺に他の記号により個々の文字属性を表示する。
また第七に、連絡通信や意思伝達するテキスト文の表示において、文字属性を変化させたテキスト文の表示手段と、表示テキスト文の音読する発声手段と、音読用の基本データとなる標準音声源とを有し、この標準音声源として実際の人の話す肉声より基本となる一種類の発声データ群を作成する。表示テキスト文の文字に応じて標準音声源より該当する音の基本データを取り出し、文字属性の変化に応じて基本データの振幅や周波数を変え、文字の発声の大きさや高さを変えて抑揚をつけて擬似音声で再生する。
また第八に、上記の標準音声源として主要な文字発生である五十音・濁音・半濁音・拗音・撥音・促音を用意するが、小さい「っ」である促音においてはこの限りではない。つまり実際に単独に促音の発声は困難なことより、促音においては時間のみを考慮した無声音とする。このようにしても人間の聴覚は経験的に、「っ」があるように聞こえる。
また第九に、さらに通信手段を備えて、他の機器とのテキスト文の送受信を可能とする。このときテキスト文に加えて、送信側で意図した人の肉声による標準音声源を添付して送信する。受信側では、送信されてきたテキスト文を、添付の人の肉声に近い擬似音声で再生する。
また第十に、テキスト文の表示手段と、このテキスト文の通信手段と、テキスト作成者の感情を簡潔に顔画像等で表現する感情表現手段と、この感情表現画像の選択表示手段とを有する。通信手段により他の機器にテキスト文を送信する際に、この感情表現画像を添付する。受信側ではこの感情表現画像により受信表示を示し、同時に受信テキストの感情も表現する。
本発明においては、電子的な伝言版や電子メールあるいは画像上の説明文やカラオケの歌詞などの電子テキスト文(以降、テキスト文と略記する)における単調表示と異なり、電子メール作成者の意思や感情あるいは歌詞の抑揚で歌い方を表示するように、文字の表示位置や属性データを変化させて表現する。
請求項1の発明によれば、音声入力時において音声認識手段によりテキスト文に変換し、音声データよりその最大振幅と周波数を検出する。この場合、入力音声データ全体から最大振幅や周波数を検出しても、個々の文字に対応した結果は得られない。音声データの分割手段において音声認識手段で認識された文字数Nを用いて入力音声データを分割することにより、テキスト文中の文字に対応した音声データより、個々の文字に対応した最大振幅や周波数を的確に検出できる。
請求項2の発明によれば、請求項1の発明において、上記分割手段は音声データの分割をほぼN等分とする。音声入力の場合には、個々の文字の発声長さがほぼ等しいことより、N等分に近似分割することにより、最大振幅検出手段あるいは周波数検出手段では、ほぼ正確に個々の文字に対応した検出値を得ることができる。
請求項3の発明によれば、請求項1又は2の発明において、音声入力の微小レベルを検出するレベル検出手段を有する。無声音時には音声レベルは小さくなることより、所定の閾値以下の微小レベルを検出して無声音部分と判断する。入力音声データからこの無声音部分を除去することにより、不要なデータを除去してデータ処理速度が高まるとともに、テキスト文中の個々の文字に対応する音声データの確度が高まり、最大振幅値や周波数の検出精度を高めることができる。
請求項4の発明によれば、請求項1〜3の発明において、有効音声データが入力された後の上記レベル検出手段からの無声音部分を時間測定手段で測定する。所定の閾値以上に長い無声音部分を検出すると、この無声音部分は有効音声入力部分の最後とみなして、有効音声期間Lを設定する。これにより有効音声の途中で発生した微小レベル部分が、有効音声の一部であることが判別でき、より正確に個々の文字と音声データの対応が取れ、最大振幅値や周波数の検出精度をさらに高めることができる。
請求項5の発明によれば、テキストの表示手段と文字属性制御手段と文字属性変更手段を有する。したがって表示されたテキスト文に対して、さらにテキスト文中の個々の文字の表示位置や文字属性を変更することができる。音声入力により文字属性が制御されて表示された状態においても、意図するテキスト表現と異なっている場合には、さらに納得するまで文字属性を繰り返し変更することができる
請求項6の発明によれば、文字の属性データなどを直接的に制御変化させることなく、テキスト全体の後や文字毎の周囲に上記属性データの変化を記号の大きさや位置により間接的に表現する。つまり線・記号やイラストなどの表示位置や大きさ・太さなどの記号の属性の変化等で表現する。これにより文字属性が異なる多数の文字を用意する必要はなく、またテキスト文の表示位置や領域に制限のある環境においても、容易にテキスト文の感情を伝えることができる。
請求項7の発明によれば、表示テキスト文を擬似音声で再生するにあたり、実際の人の声で登録した標準音声源を用意し、表示テキスト文の文字属性の変化に応じて再生音声の振幅や周波数を変えて声の大きさや高さを変える。したがって人に近い音声で抑揚をつけて聞けるとともに、視覚障害者にとって聴覚的にテキスト文の抑揚を感じテキスト文作成者の感情や気持ちを容易に理解することができる。
請求項8の発明によれば、請求項7の発明において、小さい「っ」である促音の発音は、前後の発声音により微妙に変化する。これらを統一的に規則的に発声させることは困難である。そこでこの促音を無声音として時間間隔のみ確保することにより、実質的に発音しているように錯覚して聞こえる。これにより複雑な促音の標準発声データを省略することができる。
請求項9の発明によれば、請求項7の発明において、通信手段によりテキスト文を送信する場合、テキスト文に標準音声源を添付して送信する。この場合、受信側では添付されて受信した標準音声源を用いて、受信テキスト文を擬似音声で再生する。したがってテキスト送信者側では意図する人の標準音声源を作成し送信できるので、例えば祖父母へのテキスト送信においては孫の声で標準音声源を作成し送信することにより、抑揚のあるテキスト文と孫の声による読み上げで感情以上の気持ちを伝えることができる。
請求項10の発明によれば、送信するテキスト文の全体の気持ちや作成者の感情を簡潔にアニメ感情画像で代表表示する。この感情画像をテキスト文に添付送信することにより、受信側では抑揚のあるテキスト文に加えて簡単に送信者の気持ちを理解することができる。またこの感情画像を受信ポストのような受信を示すマークや表示あるいはメールタイトル部分に表示することにより、受信テキスト文を見る前に感情画像により受信内容の感情を一見して理解することができる。
以下、実施例に関する図面に基づいて本発明を詳細に説明する。
図1および図2に、本発明の一実施例と、その結果のテキスト文の表示例を示す。図1では、入力されたテキスト文の文字表示位置と文字大きさを変えたテキスト文の表示例を示す。同図において、(a)は制御される前の従来技術によるテキスト文の表示例であり、各文字の表示位置や大きさは変化しない。また他の文字属性データ(フォント、濃度、色、アンダーライン、縁取り線太さ、縁取り線色など)も変化することなく表示されている。
一方、同図(b)は本発明によるテキスト表示例であり、文字の大きさと表示位置を変えて表示しており、話しかけるような抑揚と強弱などのアクセントを表すように、テキスト文を表現豊かに表示している。このように文字の属性データを内容や感情が伝わるようにあるいは話し掛けるように変化させて表現するテキスト文を、以降”表現型テキスト文”と呼ぶことにする。本願ではこのような”表現型テキスト文”による、テキスト文表示によるコミュニケーション装置を提供するものである。
図2は、図1の”表現型テキスト文”を実現する装置を説明するための一実施例を示す構成図である。図2において、入力手段10からのテキスト文は、次段の文字属性制御手段20に送られる。ここでは、属性変更手段50からの属性データ変更指令を含めて、各文字の属性データを人為的に制御変更などして、次段の表示手段30に送られる。この表示手段30では、上記文字属性制御手段20からのテキスト文のみでなく、後述の通信手段40で受信したテキスト文も表示する。また属性変更手段50からの変更指令を人為的に操作する場合にも、操作に対応して表示テキスト文を変化させるばかりでなく、操作内容のボタンや記号等も表示している。
この表示手段30の内容は、再生手段60に送られるとともに、次段の通信手段40とも双方向で送受信されている。まず再生手段60では、表示手段30で表示されたテキスト文を擬似音声で読み上げる。一方、通信手段40は、外部の端末手段と有線あるいは無線などによりLAN(ローカルエリアネットワーク)や電子メールシステムなどに接続され、外部とのテキスト文の送受信を行う。
次に動作を説明する。入力手段10からのテキスト文は、次段の文字属性制御手段20に送られる。この文字属性制御手段20では、個々の文字の属性データを検出し、あるいは文字属性変更手段50からの変更指令に従って個々の文字の属性データを変更し、表示可能な文字コードとして複合的な文字属性データを確定する。
ここで入力手段10からのテキスト文入力方法が、キーボードやマウス等による機械的操作手段による単調な文字列によるテキスト文情報の場合は、文字属性制御手段20においては入力文字に既に付随した属性データを受け入れるとともに、文字属性変更手段50からの変更指令により個々の文字の属性データを制御し確定する。
一方、入力手段10からのテキスト文入力が、一般に言われる連続的なアナログ的な音声入力手段等による場合は、文字属性制御手段20はその入力音声情報から文字ごとの付属情報を判断し、文字属性データ群を検出する。ここで検出する属性データ群としては、声の高さ、大きさ、太さあるいは声の長さや男女判別などが考えられる。
また入力手段10からのテキスト文入力が、コンパクトディスクやデータファイル等のデータ化されたテキスト文の場合は、上記の機械的操作手段による入力の場合とアナログ的な音声入力手段による場合との組み合わせとなる。つまりディジタル情報が示すテキスト文情報が文字コード等で単調な文字列として入力される場合は、これは機械的操作手段による入力となる。またディジタル情報が声の抑揚等の文字コード以外の情報を含む場合は、アナログ的な音声入力手段による入力となる。これらの中間的な情報の場合には、入力情報に応じて対応する。
次に文字属性変更手段50においては、人為的に文字属性データの変更が指示される。変更される属性データとしては、表示位置(高さと長さ)・大きさ・太さ・フォント・濃度・色等および文字輪郭線の類似の属性データに加え、文字の時間的な属性データの変化切替(点滅・大きさ・回転・濃度や色等の変化切替)も含まれている。このような属性データの変更指示も含めて、文字属性制御手段20は入力テキストを制御して確定する。
その後、次段の表示手段30により、図1(b)のような”表現型テキスト文”で話すような抑揚を付けて、あるいは個々の文字の大きさを変えて表示する。ここでキーボード等による機械的操作手段による入力テキスト文においては、もちろん図1(a)のような単調な表現である。
さて、表示手段30により”表現型テキスト文”は表示されるが、音声入力時おいては表示テキスト文の構成が意図した抑揚と異なっていたり、表示された抑揚以上に感情を強調したい場合には、文字属性変更手段50により表示されたテキスト文を変更する。また械的操作手段による入力テキスト文を変更して”表現型テキスト文”を作成した場合、再生手段60により擬似音声で再生確認した抑揚が意図するものと異なる場合においても、同様に文字属性変更手段50により表示テキスト文を変更する。これらの変更内容は、逐次表示手段30によりディスプレイ等に表示される。
また再生手段60においては、内部に属性データの基準値に対する標準音声源を備えている。この標準音声源による擬似音声で”表現型テキスト文”により音読されるが、上記の文字属性データの変化にしたがって、擬似音声の大きさ・高さ・太さや滑らかさなどに変化を付けて全体で抑揚をつけて音声再生される。その後、この最終的に確認された”表現型テキスト文”は、通信手段40により他のパーソナルコンピュータや携帯電話などの通信機能付端末装置に送信される。
また他の通信機器から送られてきた”表現型テキスト文”は、通信手段40で受信されて表示手段30に送られる。この結果、表示された”表現型テキスト文”により視覚的にテキスト文から送信者の感情などの抑揚表現を理解できるとともに、再生手段60における音声読上げの声の抑揚を加えることにより、視覚的に聴覚的に送信者の感情表現などを理解できる。
以上のような構成により、”表現型テキスト文”を作成して送信し、あるいは”表現型テキスト文”を受信して、その送受信したテキスト文の画面上での感情表現を確認できるとともに、音声でも再生して確認できるテキスト文の表示装置を提供できる。
図3は、図2の構成において入力手段10において音声入力等による場合に、音声データ処理手段80を追加した一実施例である。同図において、入力手段10は、マイクや音声信号等による音声入力手段101と音声認識手段102とにより構成される。また文字属性制御手段20は、声の変化をデータ化して処理する文字データ処理手段201で代表され、音声データ処理手段80は振幅検出手段801および周波数検出手段802で構成される。入力手段10中の音声認識手段102の出力が、文字属性制御手段20中の文字データ処理手段201に入力される。また属性変更手段50や表示手段30もこの文字データ処理手段201に接続される。
次に動作を説明する。音声入力装置101においては、マイクやテープレコーダおよびコンパクトディスク等からのアナログ的な音声信号が入力される。入力された音声の電気信号やディジタル音声信号が次段の音声認識手段102に入力され、ここで発音される文章や会話などの文章より、文字ごとに認識されてテキスト文に変換される。同時にアナログ入力音声もディジタル化され、すべての入力テキスト文は音声データに変換されて次段の文字データ処理手段201に送られる。
ここで音声認識手段102では入力音声は文字ごとに認識されて、音声テキスト文が文字テキスト文に変換される。つまり「こんにちは」の音声入力を、一つの発音ごとに「こ」「ん」「に」「ち」「は」と5つの文字列を認識して、図1(a)に示すような文字テキスト文として認識する。このようにディジタル的な文字コードとして認識され、表示手段30により表示される。ここでは単調な文字列としてのみ認識され、他の属性コードは検出されない。文字コードは、次段の文字データ処理手段201に入力される。
一方、音声データ処理手段80に入力された音声データは、振幅検出手段801および周波数検出手段802に入力される。まず振幅検出手段801においては、入力音声データの各文字に対応して、それぞれの最大振幅値M(i)を検出する。ここでiは文字番号を、Mは最大振幅値を示し、M(i)はi番目の文字に対応する最大振幅値を示す。検出された最大振幅値M(i)は、基準値Moと比較されて振幅コードCM(i)に変換される。
ここで図4は、「こんにちは」の音声データの一例を示しており、各文字の区切りごとにその最大振幅M(1)〜M(5)が検出される。この場合、発音「は」の振幅値M(5)が一番大きく、「ん」の振幅値M(2)が一番小さいことが理解される。
また周波数検出手段802により、音声データの文字ごとの周波数解析を実施し、音声の基本周波数と見なされる値を検出する。ここで人の声の一般的な基本周波数は、男性で約110〜170Hz程度、女性で約220〜270Hz程度と見なされる。この基本周波数成分は、音声のトーン(声の高さ)により周波数が異なり、厳密には文字ごとにその周波数F(i)は微妙に異なる。その文字ごとのわずかな周波数の相違を検出して、基準値と比較して周波数コードCF(i)に変換する。
以上により検出された振幅コードと周波数コードは文字データ処理手段201に送られて、ここで文字ごとに属性データが変更される。例えば図1(b)のように、文字の表示位置と大きさが変更される。
なお、ここでは音声入力における代表的な2つの音声成分に着目してテキスト文の表示方法を説明したが、声の音色・滑らかさ・他の周波数成分など他の音声要因を用いて文字の属性データを変更し、”表現型テキスト文”を作成しても良い。以上により変更制御されたテキスト文は表示手段30に送られ、さらに通信手段40あるいは再生手段60に送られる。
次に図5は、図2の構成においてキーボードなどの機械的操作手段による文字入力とした場合の、入力手段10と文字属性制御手段20の詳細な構成を示す一実施例である。図5において、入力手段10はキーボード等からのテキスト入力手段105とテキスト配列手段805で構成され、文字属性制御手段20は前記文字データ処理手段201で代表して構成される。また、文字属性変更手段50はテキスト文中の各文字の属性データを変更指示するものであり、ここでは例えば表示位置変更手段501と大きさ変更手段502で構成される。
次に動作を説明する。まず入力手段10におけるテキスト入力手段105では、キーボード等の機械的操作手段からの文字入力を受け付け、標準化された文字コードとして認識する。その出力はテキスト配列手段106により文字データ列として配列され、次段の文字データ処理手段804に送られる。ここでキーボードによるテキスト入力の場合は、文字列の順番に一文字ずつ入力されるので、基本的にテキスト配列手段106は単純に文字コードを出力する処理となる。
しかしながらディジタルデータにより入力されるディジタル的な音声入力の場合には、テキスト入力手段105はインターフェース仕様にしたがって文字データを受信する。この文字データは必ずしも標準的な文字コードとは限らず、あるいはテキストの順に入力されるとは限らない。これらは、テキスト入力手段105で標準文字コードに変換され、さらにテキスト配列手段106により正しいテキスト順序に並べ替えられる。
一方、テキスト配列手段106からの文字コード列は、次段の文字属性制御手段20内の文字データ処理手段804に送られる。文字データ処理手段804では、入力手段10への入力テキスト情報に付属した文字属性データのみが表示される。ここで入力テキスト情報が文字コードのみの場合には、文字属性制御手段20はその内部にある標準的な文字属性データを用いて表示できるようにする。例えば文字フォントや色や濃度などが入力情報にない場合には、「明朝体」フォントで「黒」文字「最大濃度」で表示するように属性データを自動設定する。
次に文字属性変更手段50では、表示位置変更手段501により入力テキスト文の各文字の表示位置を変更する。同時に大きさ変更手段502により、入力テキスト文の各文字の大きさを変更する。ここで文字属性変更手段50により変更された文字の属性コード(属性データのコード)は、すぐに表示手段30により表示画面に反映される。この結果、表示画面を見ながら上記の文字属性コードを変更することができる。
ここで入力手段10からのテキスト文は図1(a)のような単調なテキスト文であり、基本的な文字コード以外の属性データは無い。そこで文字属性変更手段50により、図1(a)に示すテキスト文から同図(b)に示す”表現型テキスト文”に変更する。ここで文字の表示位置や大きさ等の文字属性データを変更する方法として、表示画面に示した操作ボタンをマウス等によりクリックし、あるいはテキスト文の文字を適切にクリックすることにより実現する。
例えば、図6の表示画面例においてボタン904は「大」表示であり、文字を大きくするためのボタンであることを表示する。同様にボタン905は「小」で文字を小さくするボタン、ボタン906はアップ・ダウンの「上下矢印」で文字の表示位置を上下させるボタンである。
ここで図5における大きさ変更手段502の動作を説明する。まず文字の大きさを大きくするには、「大」表示ボタン904をクリックした後、大きくしたい文字をクリックする。一度クリックすると文字サイズが1ステップ大きくなり、クリック数に応じて大きくなる。小さくする場合は、「小」表示ボタン905を用いて同様に操作する。ここで操作ボタンの表示方法や使用方法には多数の方式で実現でき、例えば「大小」ボタンとして文字の上側をクリックすると文字が大きくなり、文字の下側をクリックすると小さくなるような動作としてもよい。
同様に文字の表示位置を変える場合には、「↑↓」表示ボタン906をクリックした後、各文字の上下部分をクリックすると文字表示位置は変化する。ここで「↑↓」は上下矢印を示しており、文字の表示位置の上下切り変更を意味する。この場合も位置変更の方法としては多数の実現方法があり、大きさ変更と同様に文字の上下をクリックする数に応じて、ステップ状に表示位置を切り替えていく。またクリック位置を文字表示位置と判断し、一回のクリックで直接に文字表示位置を移動する方法でも実現できる。
このようにテキスト文の多数の文字属性データを変更して表示する場合、それ専用の調整手段や指示手段を画面上に用意しておく。つまりテキスト入力時の文字属性コード変更においても、音声入力時の文字属性コード変更においても、個々の文字の属性データ(ここでは表示位置や大きさ)を変更することができる。また図2における再生手段60により音声再生で確認した後にも、上記の文字属性変更手段50により同様の変更が可能である。なお、図6の表示画面例においては、ボタン907は「あ⇔ア」表示でひらがな表示とカタカナ表示を切替えるボタンである。
ボタン908は「Clear」表示で表示テキスト文の消去ボタンである。このような操作ボタンを表示画面の図6に備えることにより、図6のテキスト例921に示すように「こんにちは」の各文字の表示位置および大きさを個々に変えることができる。またテキスト例922に示すように「あしたコンサートに」のテキスト文において、必要な文字のみをカタカナ表示に切り替えることができる。
ここで図6は図2の表示手段30により”表現型テキスト文”をディスプレイ画面に表示した一例である。この図6の画面では、上述の文字属性変更手段50に必要な操作ボタンに加え、音声入力時の操作ボタンやメール表示に関する多数の操作ボタン類が表示されている。まず音声入力によるテキスト文作成時には、男女により音声周波数が大きく異なることより入力者の性別を選択する。この操作は、「男マーク」表示の男性選択ボタン901と「女マーク」表示の女性選択ボタン902のどちらかを選ぶことにより実施する。また、実際の音声入力の開始時には、「音声入力」表示ボタン903を押して、その後一定の時間内に音声を入力する必要がある。またメール送信時には、通常タイトル類を付して本文のテキスト文を送信するが、ここではタイトルとして「アニメ」表示の顔による気持表示ボタン910を、プルダウンメニュー907で選択して本文に添付表示することができる。詳細は後述する。
さらに再生手段60により音声再生を聞くために画面切り替え用の「Preview」ボタン911や、通信手段40による送信用の「Send」ボタン912および「終了」ボタン917がある。「PREVIEW」ボタン911は、表示された”表現型テキスト文”を音声再生する場合に用い、図2におけるテキスト文の再生手段60において使用される。「PREVIEW」ボタン911による表示画面は図7であり、詳細は後述する。また「SEND」ボタン912は、図6の画面上に表示された”表現型テキスト文”を他の機器に送信する場合に用いる。この「SEND」ボタン912を押すことにより、図2の通信手段40を介して指定された機器に、表示された”表現型テキスト文”が送信される。また他の機器から送信された”表現型テキスト文”は図2の通信手段40で受信される。
ここで送信する”表現型テキスト文”の作成画面領域は、テキスト入力表示部918とその「OK」ボタン919、3列表示されたテキスト例921,922,923とそのテキスト文表示領域920で構成される。まず音声でテキスト文を入力した場合には、入力テキスト文は直接、テキスト文表示領域920内にテキスト例921のような”表現型テキスト文”で表示される。表示位置は上から順次埋められ、「Clear」ボタンで消去できる。ここでテキスト例921を見ると、表示領域に中央線924を表示して、文字の表示位置が理解しやすいようにしている。
次に図7はメール受信時の表示画面であり、図6と同様の表示画面の一例である。受信メールの状況は図7の「受信BOX」表示領域913に示され、同図の場合ではメールは2つ受信されている。つまりメール受信されると「受信BOX」表示領域913内の3つの「POST」BOX914、915、916が順次表示模様あるいは表示記号を変える。図7ではポスト表示からアニメ顔画像に変わっている。この場合2通のメールを受信しており、最新のメールに対してはアニメ顔画像の背景色(あるいは模様)を変えている。このアニメ顔画像の表示された「POST」BOX914あるいは915をクリックすることにより、同図のテキスト例921のように受信テキスト文を表示する。
ここで「POST」BOX914に表示のメールは、すでに開封されてテキスト例921として表示されている。一方、「POST」BOX915は背景色が変わった状態であり、いまだに未開封であることを示している。未開封の「POST」BOX915をクリックすることにより、テキスト文表示領域920内の2段目にテキスト例922として表示される。また必要により「Preview」ボタン911により、再生手段60を介して音声再生することもできる。詳細は後述する。
次に前述のメールタイトルとしても利用できる「アニメ」表示顔による、気持表示ボタン910に関して説明する。ここで「アニメ」表示の顔の種類は、隣のプルダウンメニュー909内のコメントを選ぶことにより連動して選択される。例えば喜び・寂しさ・悲しみあるいは通常の連絡ではふつう顔など、多数の表現顔を用意しておくことができる。図6と図7を比較してみると、「アニメ」表示顔は「ふつう」顔と「ぷんぷん」顔が表示されている。もちろん気持表示ボタン910を直接クリックして、次の「アニメ」表示顔を順次選択表示させることもできる。
このようにして「アニメ」表示顔のタイトルを付けて送られたメールを受信すると、図7の「受信BOX」表示領域913内のように、「POST」BOX914は「しくしく」表情のアニメ表示顔や、「POST」BOX915は「にこにこ」表情のアニメ表示顔などで表される。
次に、図6における「Preview」ボタン911による表示画面の一実施例を図8に示す。同図において、上部中央にはアニメ顔950があり、右側には再生ボタン951、一時停止ボタン952が並んでいる。また再生レビュー画面表示領域957には、再生テキスト例958、959、960があり、図7と同様に表示される。これらの再生テキスト例958、959、960の再生開始には、開始位置を選択する再生開始ボタン953、954、955があり、各行からの再生開始が可能である。再生確認が終了すると、戻るボタン956をクリックして、図7の画面に戻ることができる。
ここで再生テキスト文を擬似音声で再生するには、再生ボタン951をクリックするか、再生開始ボタン953、954、955の一つをクリックする。例えば「二行目から」表示の再生開始ボタン954をクリックすると、再生テキスト例959を読み上げる。このとき文字の大きさにより音声の大きさが変化し、文字表示位置の高さにより声の高低が変わる。したがって波状の”表現型テキスト文”に従った抑揚で音声が再生される。
ここでテキスト例958、959が音読再生する場合、一単語ずつ読み上げるにしたがって上部のアニメ顔950内の口の形状が変化する。この場合、口の形状は5通りに変化し、母音の「あ」「い」「う」「え」「お」に対応している。つまり「おはよう」と読まれるときは、各文字の母音に合わせて「お」「あ」「お」「う」のように口の形状が変化する。
一方、テキスト例中の読み上げている場所を示す目的で、読み上げると同時にその文字の属性データを変化させる。属性データとしては視覚的に分かりやすい「文字色」などを選ぶ。また読み上げている途中において一時停止ボタン952をクリックすると、読み上げが停止するとともに属性データの変化も停止する。再生ボタン951をクリックすれば、停止位置より読みあげを再開する。
以上の実施例により、音声によるテキスト文の入力時は、その発声する抑揚に合わせて”表現型テキスト文”が作成される。また、キーボードによるテキスト文の入力時には、個々の文字属性データを変えて”表現型テキスト文”を作成し、意思や感情を表現することができる。これらの作成された”表現型テキスト文”を他のメール受信者に送信することにより、受信した人はより深く送信者の思想や感情を理解することができる。また逆に送られてきた”表現型テキスト文”を表示し音声再生することにより、同様に送信者の意思や感情を深く理解することができる。
ここで以上に示したテキスト文の表示方法および表示装置を用いることにより、健常者間ばかりでなく視覚障害者や聴覚障害者にも広く利用することができる。つまり視覚障害者から聴覚障害者に”表現型テキスト文”を送信する場合、視覚障害者は音声より作成した”表現型テキスト文”を、再生手段60における「PREVIEW」ボタン911を用いて耳により確認して送信する。一方、受信した聴覚障害者は、目によりメール受信を確認するとともに、表示手段30によりテキスト文表示領域920に表示される”表現型テキスト文”で送信者の意思や感情を理解することができる。
さらには聴覚障害者の発声練習用にも、上記テキスト文の表示方法および表示装置を利用することができる。つまりマイク入力による音声テキスト文が音声認識されるともに、その話し方の抑揚が”表現型テキスト文”で画面に表示される。この表示結果を見て、音声認識された音声テキスト文が合っているか否かをチェックする。音声テキスト文が間違っている場合は、話者の発音に問題があることが理解される。また表示された”表現型テキスト文”の抑揚により、話者は自分の話し方をチェックすることができる。
次に、本発明の他の表示例を図9に示す。同図は、”表現型テキスト文”における他の表示例を示すものである。表示文字の属性データとしては図1と同様に、テキスト文を話しかけるように声の高さと大きさに関連して、文字属性データを変更した場合の一例である。図1(b)のテキスト表示に対応させると、図9においてはテキスト文の後の括弧内に感情表現を示す。ここでは声の高さに連動させて線の高さあるいは記号●印の表示位置で示し、声の大きさに連動させて線の太さあるいは記号●印の大きさで表示している。つまり図9(a)ではテキスト文を折れ線表示しており、線の高さが文字の表示位置を、線の太さが文字の大きさに対応している。また同図(b)では●印の変化で表示しており、●印の表示位置が文字位置を、●印の大きさが文字の大きさを示している。このような表示方法により、図1と同様に感情表現できる”表現型テキスト文”を実現できる。
さらにテキスト文が長くなる場合や、制御性や表示の容易性より、図9(c)(d)のように、文字毎の直後(あるいは文字の周囲)に太さと位置の異なる線あるいは大きさと位置の異なる●印を付けて、テキストの抑揚を示しても良い。
なお、ここではわずかに一例を示したのみであり、線による表示としてはステップ状につないだ階段状線や、波上に連続した曲線で表示することもできる。また●印に代わるイラスト表示では多数の表現方法が考えられるが、基本的に記号やイラスト図形等の大きさと表示位置により表示できる。
次に上記図9に示した”表現型テキスト文”を実現する一実施例を図10に示す。図10は図5における文字属性変更手段50において、表示位置変更手段501および大きさ変更手段502に加えて、表示図形発生手段503と表示手段選択手段504を備えている。ここで表示図形発生手段503は、図9に示した線図形や●印などの表示図形を発生する手段であり、表記以外の多様な図形を発生する。これらの図形は必要により表示手段選択手段504により選択されて、図9のように表示される。このとき表記される図形は必ずしも一つに限定されることはなく、複数図形の組み合わせや混在により表示することもできる。また表示図形発生手段503は、発生図形用の図形データ記憶手段を有してもよい。
次に、図4における音声入力時の各文字の、最大振幅M(i)の検出方法を述べる。まず図6の「音声入力」表示ボタン903をクリックすることにより、マイクからの音声入力は順次装置内のメモリ(図示せず)に記録される。図11に図4と同一音声波形を示す。図11において、記録開始時の入力レベル981は音声が無いことより非常に低レベルであり、また音声終了後も同様に音声レベル982は低レベルである。そこで音声入力とみなす最小振幅レベル値Mを決め、これより振幅レベルが小さい場合は無声音領域とする。したがって図11においては、左右の縦線間Lが入力音声に相当する。
ここで音声入力において、無声音領域の時間T を常に測定する。したがって音声入力を検知後、無声音領域の時間が所定長以上になると入力終了とみなす。また音声入力途中においても図11のように無声音に近いレベル983が現れる。しかし検出時間T を通常の話し言葉の一文字より長めに設定することにより、この低レベル983の期間を無声音領域として検出することなく音声の一部として扱うことができる。
このようにして音声入力領域(図11の幅Lの部分)を検出し、この領域を各文字に対応させて分割する。この場合、正確に各文字の領域を識別することは困難であり、そこで以下のような近時方式とした。つまり図3の音声認識手段において「こんにちは」の文字が認識され、したがって5文字のテキスト文であることが分かる。そこで図11の波形長さLを文字数5で等分割し、各分割領域に対して最大振幅値M(i)を求める。最大振幅値の求め方は多数の方法があり、例えば単純に領域内の最大レベルデータDと最小レベルDの差で求めることができる。つまりM=D−Dとする。結果、図11のように分割され、ほぼ最大振幅値M(i)を検出することができる。
同様にして、入力音声の声の高さを検出する場合、上記の分割音声波形に対してフーリエ変換を施す。ここでフーリエ変換とは、信号波形を周波数成分に変換する操作であり、例えば図12のようなスペクトラム波形が出力される。音声などの波形では一般に純粋な正弦波ではなく、多くの高調波成分を含んでおり同図のように多数の周波数成分が表れる。実際の基本となる周波数は最大レベルの周波数と考えられ、またその周波数範囲は通常の男性で110〜170Hz程度、通常の女性で220〜270Hz程度といわれている。したがって男女別に基本周波数領域を設定し、その範囲で最大レベルの周波数を基本周波数とする。
次に、以上のような文字ごとの最大振幅および基本周波数を検出する、本発明の他の一実施例を図13に示す。同図は例えば図3の実施例における、音声データ処理手段80の他の一実施例を示している。ここで音声データ処理手段80は、図3の振幅検出手段801および周波数検出手段802に加えて、音声データの分割処理手段803、音声レベルの規定値以下を検出する微小レベル検出手段804および無音声時間測定手段805を有している。
動作を説明する。まず入力手段10より、図11の音声波形データと音声認識された文字コードが送られる。文字コードは文字データ処理手段201に送られ、音声波形データは分割処理手段803および微小レベル検出手段804に送られる。ここで微小レベル検出手段804では、所定レベルMより小さい入力レベルの期間を検出し、図11に示す微小レベル期間981〜983を抽出する。ここで入力開始から最初の音声レベルを検出するまでは、無音声期間と判断する。また微小レベル検出手段804の出力は次段の無音声時間測定手段805に送られて、所定時間T 以上の微小レベルが続くと、その開始時点以降を無音声期間と判断する。したがって音声入力領域として、図11の期間Lを検出する。
次に分割処理手段803において、得られた音声入力期間Lの音声データを、文字コード入力より得られる文字数Nで図11のように等分割する。この分割された音声データは通常ほぼ一文字ずつに対応していると考えられ、順次次段の振幅検出手段801および周波数検出手段802に送られて、個々の文字の最大振幅と基本周波数が検出される。この結果は順次、文字の属性データに変換されて文字データ処理手段201に送られ、図6のテキスト例921のような表示となる。
以上において文字数Nで音声入力期間Lを分割しているが、分割されたデータ長は文字数Nや音声入力期間Lにより変動する。このことは周波数解析であるフーリエ変換を困難にすることより、分割処理手段803は以下のように分割処理しても良い。
まず基本分割データ長Pを固定しておき、音声入力期間Lを順次分割してK個の基本分割データを得る。この基本分割データを順次、周波数検出手段802に送り基本周波数周波数Fを得る。ここでLの値は丁度L=K*Pになるように微調整し、またK>Nである。このとき、個々の文字の基本周波数成分は、1個あたりK/N個の基本周波数成分の平均である。このときK/Nの値が整数でないときは、2文字にまたがった基本周波数成分は、比例配分した重み係数を付けて2つの文字に帰属させれば良い。
次に図2における再生手段60を実現する一実施例を図14に示す。図14において再生手段60は、標準音声源601、属性データ解析手段602、音声合成手段603および音声発声手段604で構成される。次に動作を説明する。まず標準音声源601は基準となる音源であり、通常は子音と母音の合成による合成音で構成されるが、通常の個人の実際の発声音を登録し、ファイル化して保存することもできる。このとき各文字対応の音源を必要とし、五十音や撥音と濁音・半濁音・拗音を実際に発音して、個人標準音声源ファイルを用意してもよい。ここで「きっと」などの促音「っ」においては、単独での発音が困難であることより、無声音として発音せずに時間のみを考慮しても良い。
また、作成したテキスト文を通信手段40で送る場合に、この標準音声源601をファイル化して添付して送ることもできる。これにより孫の声で標準音声源601を作成し、テキスト文と一緒に祖父母に送ることにより、可愛い孫の声で読み上げる声付きメールを実現できる。
一方、表示手段30から”表現型テキスト文”に対応した、属性データを含む文字コード列が入力される。この文字コード列は属性データ解析手段602により、例えば文字の表示位置データや大きさデータなどを解析抽出する。この結果は音声合成手段603において標準音声源601の出力と合成され、各文字の上記属性データが制御される。この結果、合成音声データは、上記属性データにしたがって声の大きさや高さが変化した状態となる。この出力はスピーカなどの音声出力手段604にて音声となり、”表現型テキスト文”に表示された抑揚のように発声される。
次に、本発明の他の一実施例を図15に示す。同図は図6の画面表示例における気持表示ボタン910に示される「アニメ」表示顔の一実施例であり、図2の実施例に、表情添付手段70を追加した構成である。この表情選択手段70は、表情選択手段701と、画像発生手段702およびコメント発生手段703で構成される。画像発生手段702では送信者の感情を代表して表わすアニメ的な表情画像群を発生し、前述のように楽しい表情を示す「にこにこ顔」や悲しい表情の「しくしく顔」あるいは怒った表情の「ぷんぷん顔」など多種類の表情を示す顔画像や、感情を代表して愛情を示すハート記号あるいはテキスト文の内容を代表する情報のイラストを発生する。またコメント発生手段703では、この表情画像群に添えるコメント群を発生する。これらの画像群とコメント群は対になっており、表情選択手段701で選択されて文字属性制御手段20に送られる。
ここで画像発生手段702にて作成される表情画像の一例として、図5上部中央右にあるイラスト的な顔マークを発生する。このイラスト画像のみではその内容を正しく表現できない場合も想定されるので、コメント発生手段703からの簡潔なコメントを発生し添付する。これらのイラスト画像群とコメント群は対応が取れており、送信者のそのときの気分あるいは送信内容により選択される。したがって表情選択手段701で選択されたとイラストとコメントはコード化され、文字属性制御手段20によりテキスト文の構造化コードに添付される。
図2において基本的な構成を示し、”表現型テキスト文”の送受信可能なコミュニケーション方法およびコミュニケーション装置を示したが、ここで示した”表現型テキスト文”はいかなる通信手段によっても実現できる。オフィス内の小さな通信網や企業内のLAN(ローカル・エリア・ネットワーク)さらには携帯電話によるメール通信のような通信網や世界的なインターネットにおいても実現できる。
また図5において”表現型テキスト文”の表示画面あるいは操作画面を示したが、必ずしもこのような表現に限定されるものではない。つまり具体的に文字の表示位置や大きさを表現をすることなく、各文字に関連して表示位置や大きさに相当する数値や記号を添付することにより、同様に感情を表現できるテキスト文の通信が可能である。またテキスト文に関連して、抑揚を表わす波状のイラストを表示したり、表示位置や大きさの異なる●印で抑揚を表示するなどの方法および手段により実現することもできる。
さらに以上の利用方法において、健常者間による”表現型テキスト文”の送受信のみでなく、視覚障害者や聴覚障害者にも広く利用することができる。つまり視覚障害者から聴覚障害者に”表現型テキスト文”を送信する場合、視覚障害者は音声より作成した”表現型テキスト文”を、再生手段60における「PREVIEW」ボタンを用いて耳により確認して送信する。
一方、受信した聴覚障害者は、目によりメール受信を確認するとともに、表示手段30による表示画面の”表現型テキスト文”で送信者の意思や感情を理解することができる。もちろんこれらの障害者と健常者との間においても通信可能である。これにより従来のテキスト文のみの通信では理解しづらかった送信者の感情などが”表現型テキスト文”により理解でき、障害者間においてもより情報量の多いテキスト文により豊かな通信が可能になる。
本発明における表現型テキスト文の表示の一例である。 表現型テキスト文を実現する一実施例の構成図である。 図2の一実施例の詳細な一構成図である。 図2の一実施例における音声データの一例である。 図2の一実施例の他の詳細な一構成図である。 図2の一実施例による表示画面の一例である。 図2の一実施例による表示画面の他の一例である。 図2の一実施例による他の表示画面の一例である。 表現型テキスト文の他の表示の一例である。 図9の表現型テキスト文を実現する一実施例の構成図である。 図10の一実施例における音声データの一例である。 図10の一実施例における音声データの周波数解析データの一例である。 図2の一実施例によるさらに他の表示画面の一例である。 図2の一実施例による他の詳細な一構成図である。 表現型テキスト文を実現する他の一実施例の構成図である。
符号の説明
10 入力手段
20 文字属性制御手段
30 表示手段
40 通信手段
50 文字属性変更手段
60 再生手段
70 表情選択手段
80 音声データ処理手段
101 音声入力手段
102 音声認識手段
105 文字入力手段
106 テキスト配列手段
201 文字データ処理手段
501 表示位置変更手段
502 大きさ変更手段
503 表示図形発生手段
504 表示手段選択手段
701 表情選択手段
702 画像発生手段
703 コメント発生手段
801 振幅検出手段
802 周波数検出手段
803 分割処理手段
804 微小レベル検出手段
805 無音声時間測定手段

Claims (10)

  1. 連絡通信や意思伝達するテキスト文の表示において、テキスト文の音声入力手段と、音声から文字を認識する音声認識手段と、入力音声の最大振幅検出手段あるいは周波数検出手段を備えた音声データ処理手段と、該音声データ処理手段の検出出力により認識文字の属性データおよび表示位置データである文字属性を制御する文字属性制御手段と、該文字属性制御手段の出力文字を個々の文字属性に従って表示する表示手段と、入力音声データ長を分割処理する分割処理手段とを有し、該分割処理手段は入力音声データ長を該音声認識手段の認識文字数Nで分割して該振幅検出手段あるいは該周波数検出手段に供給するテキスト文の表示装置。
  2. 上記分割処理手段は、入力音声データ長を上記音声認識手段の認識文字数Nでほぼ等分割して最大振幅あるいは周波数を検出する請求項1に記載のテキスト文の表示装置。
  3. 前記音声データ処理手段はさらにレベル検出手段を備え、該レベル検出手段は入力音声データの閾値以下の微小レベル期間を検出し、検出した微小レベル期間の一部あるいは全部を入力音声データより除去して前記分割処理手段に供給する請求項1又は2に記載のテキスト文の表示装置。
  4. 上記音声データ処理手段はさらに時間測定手段を備え、該時間測定手段は上記レベル検出手段からの微小レベル時間を計測し、この計測時間が閾値以上であればこの期間を有効音声データの終端部として有効音声データ長Lを確定する請求項1〜3のいずれかに記載のテキスト文の表示装置。
  5. 連絡文や画像表示文あるいは歌詞などのテキスト文の表示において、表示すべきテキスト文の入力手段と、該入力テキスト文の個々の文字の属性データあるいは表示位置データである文字属性を制御する文字属性制御手段と、該文字属性制御手段の結果によるテキスト文を個々の文字属性に従って表示する表示手段とを有し、キーボードや操作ボタンあるいは該表示手段の出力表示画面上の操作により文字属性を変更する文字属性変更手段を有するテキスト文の表示装置。
  6. 連絡文や画像表示文あるいは歌詞などのテキスト文の表示において、表示すべきテキスト文の入力手段と、該入力テキスト文の個々の文字の属性データあるいは表示位置データである文字属性を制御する文字属性制御手段と、該文字属性制御手段の結果によるテキスト文を個々の文字属性に従って表示する表示手段とを有し、該表示手段はテキスト文の後あるいは各文字の周囲に、制御変更される各文字の属性データに関連して線や記号の属性や表示位置を変化させて表示するテキスト文の表示装置。
  7. 連絡通信や意思伝達するテキスト文の表示において、表示すべきテキスト文の個々の文字の属性データあるいは表示位置データである文字属性が変化して表示され、このテキスト文の表示手段と、文字属性の変化に応じてテキスト文を擬似音読する発声手段と、該発声手段用の標準音声源とを有し、該標準音声源は人による主要文字の発声データ群であり、文字属性の変化に応じて発声データ群の振幅あるいは周波数を変え抑揚をつけてテキスト文を擬似音読するテキスト文の表示装置。
  8. 前記発声手段あるいは前記標準音源において、小さい「っ」である促音の発声データとして時間のみを考慮する無声音により対処する請求項7に記載のテキスト文の表示装置。
  9. 前期表示手段と発声手段と標準音声源とに加えて通信手段を有し、該通信手段によるテキスト文の送信時に該標準音声源を添付して送信する請求項7に記載のテキスト文の表示装置。
  10. 連絡通信や意思伝達するテキスト文の表示において、テキスト文の表示手段と、このテキスト文の通信手段と、テキスト文全体の感情あるいはテキスト作成者の感情を簡潔に表現する複数の画像を有する感情表現手段と、この感情表現手段の出力を選択表示する画像選択表示手段を有し、該通信手段は選択した感情表現画像をテキスト文に付けて送信し、受信側における該通信手段での受信メールを該表示手段により表示するとともに、受信表示画面における受信マークあるいは受信表題として該感情表現画像で表示するテキスト文の表示装置。

JP2004020237A 2004-01-28 2004-01-28 テキスト文の表示装置 Pending JP2005215888A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004020237A JP2005215888A (ja) 2004-01-28 2004-01-28 テキスト文の表示装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004020237A JP2005215888A (ja) 2004-01-28 2004-01-28 テキスト文の表示装置

Publications (1)

Publication Number Publication Date
JP2005215888A true JP2005215888A (ja) 2005-08-11

Family

ID=34904210

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004020237A Pending JP2005215888A (ja) 2004-01-28 2004-01-28 テキスト文の表示装置

Country Status (1)

Country Link
JP (1) JP2005215888A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007101945A (ja) * 2005-10-05 2007-04-19 Fujifilm Corp 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2009527801A (ja) * 2006-02-21 2009-07-30 株式会社ソニー・コンピュータエンタテインメント 話者適応を用いた音声認識とピッチによる登録
JP2009217733A (ja) * 2008-03-12 2009-09-24 Yahoo Japan Corp 手書き文字認識装置
KR101185251B1 (ko) 2006-07-04 2012-09-21 엘지전자 주식회사 이동통신 단말기의 음악 편곡 장치 및 방법
US9251805B2 (en) 2012-12-18 2016-02-02 International Business Machines Corporation Method for processing speech of particular speaker, electronic system for the same, and program for electronic system
JP2016170218A (ja) * 2015-03-11 2016-09-23 カシオ計算機株式会社 音声出力装置およびプログラム
CN106447507A (zh) * 2016-10-16 2017-02-22 广东聚联电子商务股份有限公司 一种社交网络的信息处理系统和方法
JP2019208138A (ja) * 2018-05-29 2019-12-05 住友電気工業株式会社 発話認識装置、及びコンピュータプログラム
CN111462742A (zh) * 2020-03-05 2020-07-28 北京声智科技有限公司 基于语音的文本显示方法、装置、电子设备及存储介质
KR102692630B1 (ko) * 2021-11-29 2024-08-06 엑스퍼트아이엔씨 주식회사 Ar 스마트 글래스 및 스마트 글래스의 출력 제어 방법

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007101945A (ja) * 2005-10-05 2007-04-19 Fujifilm Corp 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2009527801A (ja) * 2006-02-21 2009-07-30 株式会社ソニー・コンピュータエンタテインメント 話者適応を用いた音声認識とピッチによる登録
KR101185251B1 (ko) 2006-07-04 2012-09-21 엘지전자 주식회사 이동통신 단말기의 음악 편곡 장치 및 방법
JP2009217733A (ja) * 2008-03-12 2009-09-24 Yahoo Japan Corp 手書き文字認識装置
US9251805B2 (en) 2012-12-18 2016-02-02 International Business Machines Corporation Method for processing speech of particular speaker, electronic system for the same, and program for electronic system
JP2016170218A (ja) * 2015-03-11 2016-09-23 カシオ計算機株式会社 音声出力装置およびプログラム
CN106447507A (zh) * 2016-10-16 2017-02-22 广东聚联电子商务股份有限公司 一种社交网络的信息处理系统和方法
JP2019208138A (ja) * 2018-05-29 2019-12-05 住友電気工業株式会社 発話認識装置、及びコンピュータプログラム
CN111462742A (zh) * 2020-03-05 2020-07-28 北京声智科技有限公司 基于语音的文本显示方法、装置、电子设备及存储介质
CN111462742B (zh) * 2020-03-05 2023-10-20 北京声智科技有限公司 基于语音的文本显示方法、装置、电子设备及存储介质
KR102692630B1 (ko) * 2021-11-29 2024-08-06 엑스퍼트아이엔씨 주식회사 Ar 스마트 글래스 및 스마트 글래스의 출력 제어 방법

Similar Documents

Publication Publication Date Title
JP4363590B2 (ja) 音声合成
Curl Practices in other-initiated repair resolution: The phonetic differentiation of'repetitions'
JP4125362B2 (ja) 音声合成装置
US8498867B2 (en) Systems and methods for selection and use of multiple characters for document narration
JPH05216618A (ja) 音声対話システム
JP2014501941A (ja) クライアント端末機を用いた音楽コンテンツ製作システム
WO2007148493A1 (ja) 感情認識装置
JP2004361965A (ja) 多重媒体との連動のためのテキスト/音声変換器及びその入力データ構造化方法
JP2005215888A (ja) テキスト文の表示装置
Iida et al. Speech database design for a concatenative text-to-speech synthesis system for individuals with communication disorders
Bharadwaj et al. Analysis of Prosodic features for the degree of emotions of an Assamese Emotional Speech
JPH11109991A (ja) マンマシンインターフェースシステム
Campbell Databases of expressive speech
Dall Statistical parametric speech synthesis using conversational data and phenomena
Aaron et al. Conversational computers
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
CN115956269A (zh) 语音转换装置、语音转换方法、程序及记录介质
JP3578961B2 (ja) 音声合成方法及び装置
Trouvain et al. Speech synthesis: text-to-speech conversion and artificial voices
JP6274470B1 (ja) 上下発声母音表記方法
JP2023121372A (ja) データ処理装置、データ処理方法及びプログラム
JP2007256815A (ja) 音声再生装置、音声再生方法、音声再生プログラム
Ojala Auditory quality evaluation of present Finnish text-to-speech systems
JPH0644247A (ja) 音声合成装置
JP3830200B2 (ja) 人物画像合成装置