JP4119880B2 - 端末装置及びプログラム - Google Patents

端末装置及びプログラム Download PDF

Info

Publication number
JP4119880B2
JP4119880B2 JP2004327885A JP2004327885A JP4119880B2 JP 4119880 B2 JP4119880 B2 JP 4119880B2 JP 2004327885 A JP2004327885 A JP 2004327885A JP 2004327885 A JP2004327885 A JP 2004327885A JP 4119880 B2 JP4119880 B2 JP 4119880B2
Authority
JP
Japan
Prior art keywords
input
voice
character
event
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004327885A
Other languages
English (en)
Other versions
JP2006139491A (ja
Inventor
昌穂 坂本
正男 加藤
太一 杉山
Original Assignee
日立情報通信エンジニアリング株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日立情報通信エンジニアリング株式会社 filed Critical 日立情報通信エンジニアリング株式会社
Priority to JP2004327885A priority Critical patent/JP4119880B2/ja
Publication of JP2006139491A publication Critical patent/JP2006139491A/ja
Application granted granted Critical
Publication of JP4119880B2 publication Critical patent/JP4119880B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明は、電子メール又はワープロなどの入力文書に音声及び又は映像を複合的に入力することのできる端末装置及びプログラムに関する。
近年のパーソナルコンピュータ(PC)及び通信環境の発展に伴い、電子メール及びワードプロセッサソフトを用いた文書入力業務は、最も主要な業務となっている。これら電子メール及び文書入力業務における文書入力は、キーボードやマウス並びに日本語入力ソフトウェアを使用し、文書を作成することが行われている。
このキーボードを用いた文書入力は、日本語入力ソフトウェアの機能向上や入力者の慣れによって、ある程度の速度向上が図れるものの、音声による入力速度や映像入力による表現力比較すれば、入力速度、表現力、総情報量に関して雲泥の差があることが知られている。
一方、近年のVoIP技術の発展にあいまって、PCにカメラ/マイクなどを標準で装備するケースが増えてきており、前述の音声入力や映像入力が容易な環境も整いつつある。
この文書入力に加えて音声や画像をも入力する技術が記載された文献としては、例えば下記特許公報が挙げられ、例えば特許文献1には、音声入力手段及び音声認識手段を備え、音声命令によって定型文書のテンプレートの読み出しや宛先の自動選択を行うことが記載され、特許文献2には、音声処理を行うアプリケーションプログラムを、音声入力/音声認識/音声合成/音声出力などの各種機能をメニューの中から選択しながら、PAD図に埋め込み、GUI的に作成構築を行なっていく技術が記載されている。
特開2001−188669号公報 特開平6−161704号公報
前記特許文献に記載された技術は、特に音声入力によりメニュー選択を行う技術や音声認識による入力等の音声のみの単一入力を想定しており、一般の文書入力において、音声/映像/キーボード/マウスなどの複数のデバイスを用いた文書と音声等の異種データの同時入力を想定した技術まで開示されていない。
従来技術によるキーボードとマウス間の入力の競合に関しては、一般に同じオペレータが操作することを考慮し、キーボードとマウスとを同時に操作したとしても、それぞれを瞬間のイベントとして発生させ、イベント発生時間を基にFast−In−Fast−Outで処理する様に構成されている。
しかしながら、前述のキーボード及びマウスを用いた入力に音声入力や映像入力が加わった場合、音声や映像の入力時間は瞬間でないため、即ちある程度長い時間をもって入力されるため、前述のイベント時間時間による単純な制御を行うとキーボードやマウスの入力との重なりが発生し、例えば音声入力中はマウス及びキーボード操作を受け付けることができず、操作上、ウィンドウの切替が発生して煩わしく、入力時間も冗長になると言う不具合があった。
本発明の目的は、前述の従来技術による不具合を除去することであり、文書入力中に音声や映像等の他イベント入力が発生しても、従来の入力作業の延長で、しかも、自然な形で入力を行うことができ、操作性向上、入力時間短縮を行うことができる端末装置及びプログラムを提供することである。
前記目的を達成するために本発明は、文字を入力するための文字入力手段と、音声を入力するための音声制御手段と、前記文字入力手段から入力された文字データと音声制御手段から入力された音声データとが混在した複合文書を生成する制御手段とを備える端末装置において、前記文字入力手段を用いて文字データが入力されたことを示す文字情報入力発生イベントと、前記音声データが入力されたことを示す音声入力開始イベントと、音声データの入力の完了を示す音声入力完了イベントと、文書入力の区切りを示すファンクションキーイベントとを入力とし、前記音声入力開始イベント及び音声入力完了イベントの入力を受けた後、ファンクションキーイベントの有無を判定し、該ファンクションキーイベントが有る場合、音声入力された音声データを前記ファンクションキーイベントにより文書入力の区切りが示された文字データの後に音声データの連結情報を埋め込む複合文書を生成する制御手段を備えることを第1の特徴とする。
また本発明は、文字を入力するための文字入力手段と、音声を入力するための音声制御手段と、前記文字入力手段から入力された文字データと音声制御手段から入力された音声データとが混在した複合文書を生成する制御手段とを備える端末装置において、前記文字入力手段を用いて文字データが入力されたことを示す文字情報入力発生イベントと、前記音声データが入力されたことを示す音声入力開始イベントと、音声データの入力の完了を示す音声入力完了イベントと、文書入力の区切りを示すファンクションキーイベントとを入力とし、前記音声入力開始イベント及び音声入力完了イベントとの入力を受けた後にファンクションキーイベントの入力を受け付けたとき、文字入力手段を用いたファンクションキーイベントにより文書入力の区切りが入力された文字データの後方に音声データの連結情報を埋め込む複合文書を生成する制御手段を備えることを第2の特徴とする。
更に本発明は、文字を入力するための文字入力手段と、音声を入力するための音声制御手段と、前記文字入力手段から入力された文字データと音声制御手段から入力された音声データとが混在した複合文書を生成する制御手段とを備える端末装置において、前記文字入力手段を用いて文字データが入力されたことを示す文字情報入力発生イベントと、前記音声データが入力されたことを示す音声入力開始イベントと、音声データの入力の完了を示す音声入力完了イベントと、文書入力の区切りを示すファンクションキーイベントとを入力とし、前記音声入力開始イベントの入力を受け付けてから音声入力完了イベントの入力を受けた間にファンクションキーイベントの入力を受け付けたとき前記文字データのファンクションキーイベントにより文書入力の区切りが入力された文字データの後方に音声データの連結情報を埋め込む複合文書を生成する制御手段を備えることを第3の特徴とする。
また本発明は、文字を入力するための文字入力手段と、音声を入力するための音声制御手段と、前記文字入力手段から入力された文字データと音声制御手段から入力された音声データとが混在した複合文書を生成する制御手段とを備える端末装置のプログラムにおいて、前記文字入力手段を用いて文字データが入力されたことを示す文字情報入力発生イベントと、前記音声データが入力されたことを示す音声入力開始イベントと、音声データの入力の完了を示す音声入力完了イベントと、文書入力の区切りを示すファンクションキーイベントとを入力する第1機能と、前記音声入力開始イベント及び音声入力完了イベントの入力を受けた後、ファンクションキーイベント入力の有無を判定する第2機能と、該第2機能によりファンクションキーイベントが有ると判定したとき、音声入力された音声データを前記ファンクションキーイベントにより文書入力の区切りが示された文字データの後に音声データの連結情報を埋め込む複合文書を生成する第3機能を実現することを第4の特徴とする。
更に本発明は、文字を入力するための文字入力手段と、音声を入力するための音声制御手段と、前記文字入力手段から入力された文字データと音声制御手段から入力された音声データとが混在した複合文書を生成する制御手段とを備える端末装置のプログラムにおいて、前記文字入力手段を用いて文字データが入力されたことを示す文字情報入力発生イベントと、前記音声データが入力されたことを示す音声入力開始イベントと、音声データの入力の完了を示す音声入力完了イベントと、文書入力の区切りを示すファンクションキーイベントとを入力する第1機能と、前記音声入力開始イベントの入力及び音声入力完了イベントの入力とを受けた後にファンクションキーイベントを受け付けたとき、文字入力手段を用いたファンクションキーイベントにより文書入力の区切りが入力された文字データの後方に音声データの連結情報を埋め込む複合文書を生成する第4機能とを実現させることを第5の特徴とする。
更に本発明は、文字を入力するための文字入力手段と、音声を入力するための音声制御手段と、前記文字入力手段から入力された文字データと音声制御手段から入力された音声データとが混在した複合文書を生成する制御手段とを備える端末装置のプログラムにおいて、前記文字入力手段を用いて文字データが入力されたことを示す文字情報入力発生イベントと、前記音声データが入力されたことを示す音声入力開始イベントと、音声データの入力の完了を示す音声入力完了イベントと、文書入力の区切りを示すファンクションキーイベントとを入力する第1機能と、前記音声入力開始イベントの入力を受け付けてから音声入力完了イベントの入力を受けた間にファンクションキーイベントの入力を受け付けたとき前記文字データのファンクションキーイベントにより文書入力の区切りが入力された文字データの後方に音声データの連結情報を埋め込む複合文書を生成する第5機能とを実現することを第6の特徴とする。
本発明によれば、音声データの発生を示す音声情報入力発生イベント及び音声データの入力の完了を示す音声入力完了イベントと、文字入力の区切りを示すファンクションキーイベントとの時間的相対位置を判定し、ファンクションキーイベントの発生に続いて音声入力完了イベントを受け付けたときには前記ファンクションキーイベントが発生した文書データに続いて音声データの連結情報を埋め込み、音声入力完了イベントとを受けた後にファンクションキーイベントを受け付けたとき、文字入力手段を用いて入力された文字データの後方に音声データの連結情報を埋め込み、前記音声入力開始イベントを受け付けてから音声入力完了イベントを受けた間にファンクションキーイベントを受け付け、文字入力手段を用いて入力された文書データが複数あるとき、該複数の文書データ間に音声データの連結情報を埋め込む複合文書を生成することによって、通常のキーボード、マウス操作の自然な流れに沿った、映像または音声の複合入力を可能とし、操作性向上、入力時間短縮を図ることができる。
以下、本発明による端末装置及びプログラムの一実施形態を図面を参照して詳細に説明する。図1は、本発明の一実施形態によるハードウェアブロック図、図2は本実施形態によるソフトウェアを説明するためのブロック図、図3は本実施形態における受信メールの一例を示す図、図4は本実施形態における返信メールの一例を示す図、図5は本実施形態における返信メールの音声リンク情報の一例を示す図、図6は本実施形態における返信メールへの音声入力操作ケース1の一例を示す図、図7は本実施形態における返信メールへの音声入力操作ケース2の一例を示す図、図8は本実施形態における返信メールへの音声入力操作ケース3の一例を示す図、図9は本実施形態におけるソフトウェアの処理部における動作の一例を説明する図、図10は本実施形態における入力電文の一例を説明する図、図11は本実施形態における音声入力方法のフローチャート図、図12は本実施形態における入力した音声KB入力ジャーナルの一例を示す図、図13は本実施形態における状態と入力のイベントによる処理を示す状態遷移図、図14は本実施形態における状態遷移図による処理内容を示す図である。
本実施形態による端末装置は、図1に示す如く、パーソナルコンピュータ(PC)11と、該PC11に接続され画面表示を行うモニタ12と、PC11に接続されるキーボード13/マウス14/マイク15/スピーカー16とから構成され、前記PC11は、PC11全体を制御するCPU101と、一時記憶手段であるメモリ102と、モニタ12を制御する表示制御手段103と、プログラム及びデータを記憶するHDD104と、前記キーボード13及びマウス14を制御する入力制御手段105と、マイク15及びスピーカー16を制御する音声制御手段106とを備える。尚、本発明による端末装置は、前記構成に限られるものではなく、外部とのデータ通信機能を備えるPCやPDAや携帯電話であっても良い。
前記HDD104に記憶される本実施形態によるソフトウェア2は、図2に示す如く、文書/音声入力の全体制御を行うアプリケーション部201と、該ソフトウェア2の入力処理を制御するイベント制御部202と、前記ソフトウェア2の日本語処理を行う日本語入力処理203と、ソフトウェア2の音声処理を行う音声入力処理204と、ソフトウェア2の基礎ソフトであるオペレーションシステム(OS)205と、ソフトウェア2のキーボードの制御を行うKB制御部206と、ソフトウェア2のマウス制御を行うマウス制御部207と、ソフトウェア2のマイク制御を行うマイク制御部208と、ソフトウェア2のOS205より音声出力を制御するスピーカー制御部209と、ソフトウェア2のアプリケーション部201からOS205を介して画面表示を制御する表示制御部210とから成る。
前記日本語入力処理部203は、通常モードと日本語入力モードを備え、通常モードは、キーボードより入力されたキーコードを英数字に変換し、イベント制御部202へ伝え、ENTERキーなどのファンクションキーも一般にイベント制御部202へ伝える機能を備え、日本語入力モードは、入力されたキーコードを日本語へ変換し、変換完了を一般にENTERキー入力で変換成立とみなし、変換の都度、変換成立した文字データを繰り返し、イベント制御部202へ伝え、前記変換完了のENTERキーその他のファンクションキーは、イベント制御部202へは伝えず、単独で入力されたENTERキーその他のファンクションキーは、イベント制御部202へ伝える機能を備える。
本実施形態の対象となる受信メール3は、例えば図3に示す如く、宛先/文書内容/発信者の文章が入力されるものであり、図3の例では文書のみのメール例を示しているが、表計算用のデータなどの文書等であってもよい。
本実施形態による受信メールに対する返信メール4は、図4に示す如く、返信メール4のオリジナルの受信部分である受信部分402と、この受信部分に対する返送内容である返信追加部分401とから成り、本例においては受信部分402に音声による回答コメントを挿入したことを示す音声コメントマーク403及び404を挿入したことを示しており、返信メールの参照側が前記音声コメント403及び404のマークをダブルクリックすることにより音声を再生することができる。
この図4に示した返信メール4のコンテンツのソース形式は、図5に示す如く、音声コメント403及び404の部分にHTMLと同様にソース文であるリンク情報501及び502が連結情報として埋めこまれ、例えば、リンク情報501の“LINK=001.mp3”が連結されている音声データのファイル名を示し、“LOGO=speaker.img”により、スピーカマークのロゴマークを表示することを示し、音声データが連結されていることを表示している。
<音声/文字入力例1>
図6は、音声入力とキーボード入力操作との組合せシーケンスのケース例1と、その結果作成された文書の表示例を示す。
このケース例1は、典型的なキーボード入力と音声入力とがシリアルに行われるケースを示し、キーボード13から入力された文字データA(符号601)と、キーボード13から入力されたファンクションキー、本例では、ENTERキー602と、マイク15から入力されている音声データA(符号603)と、文字データH(符号604)とが順次時間的重複がない状態で入力された例である。
本例における文書の表示例は、図6下段に示している。文字データA(符号611)の入力に続いてENTERキー602が押されることにより文字データA(符号611)が埋めこまれると共にカーソル位置が改行して移動し、この移動した位置に次に入力された音声データA(符号613)が音声データA(符号613)として埋めこまれ、この音声データA(符号613)に続いて文字データH(符号614)が埋め込まれることを表している。
<音声/文字入力例2>
前記ケース1の例では、文字データと音声データとがシリアルに行われるケースを示したが、キーボード入力と音声入力とが並行に行われても良く、このシーケンス例2を図7を参照して説明する。
図7に示す例は、たまたま、文字データC(符号702)の入力と音声データB(符号705)の入力とが重なった例を示しており、キーボード13から入力された文字データB(符号701)の入力に続いて文字データC(符号702)と音声データB(符号705)とが並行して入力され、これに続いて文字データD(符号703)が入力され、最後にENTERキー704が押された例を示している。
本例の入力シーケンスの結果、作成される文書例は、図7下段に示す如く、文字データB(符号711)と文字データC(符号712)文字データD(符号713)が同一行に一列に表示され、該文字データの表示行から改行した下位置に音声データB(符号715)が表示される形式となることを表している。
<音声/文字入力例3>
図8は、音声入力操作ケース3の組合せシーケンスと作成文書の一例であり、このケース3は、キーボード入力と音声入力が並行に行われる他の例である。
図8に示す例は、図7と同様に、たまたま、文字データF(符号802)、ENTERキー(符号803)の入力および、その以後に、音声データC(符号804)の入力とが重なった例を示しており、キーボード13から入力された文字データE(符号801)の入力に続いて文字データF(符号802)と音声データC(符号804)との入力が同時に並行して開始され、該文字データF(符号802)が音声データC(符号804)に比べて時間的に短く終了し、この終了をENTERキー803により確定し、前記音声データC(符号804)の終了後に再び文字データG(符号805)が入力される例を示している。
本例の入力シーケンスの結果、作成される文書例は、図8下段に示す如く、文字データE(符号811)と文字データF(符号812)とが連続して一行に表示され、該文字列行から改行した次行に音声データC(符号814)が表示され、該音声データC(符号814)に続いて文字データG(符号815)が表示される形式となることを表している。
<処理手順>
次に本実施形態による端末装置及びプログラムの処理手順を図9以降を参照して説明する。この処理手順は、前述のソフトウェア2の日本語入力処理部203/音声入力処理部204/イベント制御部202/アプリケーション部201が後述する処理を実行するものであり、まず、PC11のキーボード13からの入力又はマウス14からの入力があった場合、日本語入力処理部203が、KB入力処理(ステップS901)を実行することにより文字入力電文1030とファンクションキー電文1040とをイベント制御部202の音声KB入力処理(ステップS903)に送信する。
一方、本処理は、マイク15からの入力があった場合、音声入力処理部204が、音声入力処理(ステップS902)を実行することにより、音声入力開始1010の電文をイベント制御部202の音声KB入力処理(S903)に送信すると共に、音声をHDD104の音声ファイル1060に記録し、音声入力が終了したことを検知したときに音声入力完了1020の電文に、上記記録された音声データをセットし、同様に音声KB入力処理(ステップS903)に送信する。尚、前記音声入力開始イベント1010はマイクからの音声を自動認識することにより発生し、音声入力完了1020イベントはマイクからの無音状態が一定期間続くことで発生させる。また、前記音声データをセットする代わりに、音声ファイル名をセットし、音声KB入力処理(ステップS903)に送信する様にしても良い。
前記音声入力開始1010の電文を受けた音声KB入力処理(ステップS903)では、HDD104の音声KB入力ジャーナル1070に文字/音声データ/ファンクションキー等の入力トレースを記録し、入力された文字データと入力された音声データからなる複合文書1050をアプリケーション部201の文書処理(ステップS904)に送信する。これを受けた文書処理(ステップS904)は、複合文書1050を電子メールとして送信したり、ファイルへ保存する様に動作する。
<電文の説明>
次に前述した各種電文を図10を参照して説明する。図10中の符号(1)で示す音声入力開始電文1010は、音声入力処理部204で作成され、音声入力開始イベント1011がセットされた例であり、符号(2)で示す音声入力完了電文1020は、音声入力完了のイベント1021と音声データのコンテンツ2022がセットされている例であり、符号(3)で示す文字入力電文1030は、日本語入力処理部203で作成され、文字入力イベント1031及び文字データ“あいう”のコンテンツ1032がセットされている例であり、符号(4)で示すファンクションキー電文1040は、ファンクションキー入力によるイベント1041及びファンクションキーの種類(本例では、“ENTER”キー)を示すコンテンツ1042がセットされている例であり、符号(5)で示す複合電文1050は、イベント制御部202で作成され、文字入力されたテキストデータであるテキスト部1051と、複数の音声ファイル名(「001.mp3」1053、「002.mp3」1054)を含む音声部1052とがセットされた例である。
<音声入力処理>
次に本実施形態による端末装置及びプログラムによる音声入力処理を図11を参照して説明する。この音声入力処理は、図11に示す如く、マイク15が音声を検出(ステップS1101)すると、音声入力処理部204が音声入力開始電文1010を作成し、イベント制御部202に送信(ステップS1102)し、これを受けた音声入力処理部204がHDD104の音声ファイル1060に音声を記録(ステップS1103)し、マイク15が一定時間無音か否かを判定(ステップS1104)し、一定時間無音の場合、音声入力処理部204が音声入力が終了したとみなして音声入力完了電文1020を作成し、記録した音声データをセットし、イベント制御部202に送信(ステップS1105)する様に動作する。この様に本実施形態による音声入力処理は、マイクに音が入力されることにより録音を開始し、一定時間以上の無音を判定した際には音声データを含む音声入力完了電文1020をイベント制御部202へ報告する様に動作する。
<音声KB入力ジャーナル>
本実施形態による音声KB入力ジャーナル1070は、図12に示す如く、イベント発生記録日時欄1071と、イベントの種類(文字入力/ファンクションキー入力/音声入力開始/音声入力完了などのイベント種)を格納するイベント欄1072と、発生したイベントの補助データであるコンテンツデータを格納するコンテンツ欄1073と、本ジャーナルデータを順次参照しながら、文書作成する際、参照完了した場合処理済フラグとして“○”がセットされる処理済みフラグ欄1074との各欄から成り、各レコードが発生順に記録されている。
<状態遂移>
次いで本実施形態による端末装置及びプログラムによるイベントとステータスとの関係を図13及び図14を参照して説明する。まず、本端末装置の処理は、図14の処理表1400に示す如く、処理P0は、[1]音声KB入力ジャーナル1070へ文字入力イベント/コンテンツを追加書き込みを行う処理であり、処理P1は、[1]音声KB入力ジャーナル1070へファンクションキー入力イベント/コンテンツの追加書き込みを行い、且つ[2]本ジャーナルを過去に遡って、処理済フラグ1074がスペース(未処理)のレコードを調べ、入力された文字データの合成、音声入力レコードが含まれていれば、音声入力開始から音声入力完了までの音声データを合成し、複合文書形式にし、アプリケーション部201の文書処理S904へ送信し、[3]処理対象となったレコードの処理済フラグ1074を○(処理済)にセットする処理である。尚、複合文書形式への文字、音声の埋め込む位置は、入力文字、ファンクションキーの種類に応じて、文字入力位置のカーソル制御を行うことにより、埋め込む位置が決められる。
また処理P2は、[1]音声KB入力ジャーナル1070へ、音声入力開始入力イベントの追加書き込みを行うことを示し、処理P3は、[1]音声KB入力ジャーナル1070へ音声入力完了イベント/コンテンツの追加書き込みを行い、且つ[2]直前のレコード(最近にキーボードから入力されたレコード)がファンクションキー入力のレコードかどうか検査し、[3]もし、ファンクションキー入力レコードであれば、本ジャーナルを過去に遡って、処理済フラグ1074がスペース(未処理)のレコードを調べ、音声入力開始から今回の音声入力完了までの音声データを合成し、複合文書形式にして、アプリケーション部201の文書処理S904へ送信し、その後、処理対象となったレコードの処理済フラグ1074を○(処理済)にセットする処理である。この処理P3において、[4]ファンクションキー入力レコードが直前にある場合は、リターンコードをYESにして、それ以外は、NOにして、本処理をリターンする。
更に処理P4は、[1]本ジャーナルを直前に遡って処理済フラグ1074がスペース(未処理)のレコードを調べ、音声入力開始から今回の音声入力完了までの音声データを合成し、複合文書形式にして、アプリケーション部201の文書処理S904へ送信する処理である。
ここで図13は、イベント制御部202における音声KB入力処理(S903)の処理内容を状態遷移図1300として表したものであり、ステータス1301である状態は、S0(初期状態)、S1(音声入力中)、S2(音声入力完了かつ直前にファンクションキー入力待ち)から成り、イベント1302は、E0(文字入力)、E1(ファンクションキー入力)、E2(音声入力開始)、E3(音声入力完了)から成り、符号1303は、該当する状態で該当イベントが発生した場合の処理(P0、P1、P2、P3,P4)と、処理結果の分岐先を示している。
本実施形態による状態遂移は、図13に示す如く、初期状態S0且つ文字入力イベントE0の場合は、「ジャーナルへ“文字入力”のレコードを追加」する処理P0から初期状態S0に戻り、初期状態S0且つファンクションキー入力イベントE1の場合は、「ジャーナルの過去の未処理の文字データ、音声入力完了があれば音声データを合成した複合文書形式に47変換し、アプリケーション部へ送信」する処理P1から初期状態S0に戻り、初期状態S0で音声入力開始イベントE2が発生した場合は、「ジャーナルに“音声入力開始”のレコードを追加」する処理P2から音声入力中状態S1に移り、初期状態S0且つ音声入力完了のイベントE3が発生し、直前のレコードが“ファンクションキー入力”の場合、初期状態S0に移行し、直前のレコードが“ファンクションキー入力”でない場合、音声入力完了且つファンクションキー入力待ち状態を状態S2に移行する。
更に本例においては、ステータスが音声入力中状態S1において、a:文字入力イベントE0が発生した場合、「ジャーナルへ“文字入力”のレコードを追加」する処理P0からステータスS1に戻り、b:ファンクションキー入力イベントE1が発生した場合、ステータスS1に戻り、c:音声入力完了イベントE3が発生し、直前のレコードが“ファンクションキー入力”の場合、初期状態S0に移行し、直前のレコードが“ファンクションキー入力”でない場合、音声入力完了且つファンクションキー入力待ち状態を状態S2に移行することを示す。
更に本例は、ステータスが音声入力完了且つファンクションキー入力待ちの状態S2において、a:文字入力イベントE0が発生した場合、「ジャーナルへ“文字入力”のレコードを追加」する処理P0からステータスS0に戻り、b:ファンクションキー入力イベントE1が発生した場合、ステータスS0に戻り、c:音声入力完了イベントE3が発生した場合、ステータスS1に移行することを示す。
即ち本実施形態による端末装置及びプログラムは、(A)ステータスS0〜S3(初期状態、音声入力中、音声入力完了且つファンクションキー入力待ち)において、ファンクションキー入力イベントE1が発生した場合、「ジャーナルの過去の未処理の文字データ、音声入力完了があれば音声データを合成紙複合文書形式に47変換」を含む処理P1を実行し、(B)ステータスS2において音声入力開始イベントE2が発生したとき、「直前の“音声入力開始”〜“音声入力完了”までの音声データを複合文書形式に変換」を含む処理P4を実行し、(C)ステータスS0又はS1において、音声入力完了イベントE3が発生したとき、「直前のレコードが“ファンクションキー入力”のレコードのとき、“音声入力開始”〜“音声入力完了”までの音声データを、複合文書形式に変換」を含む処理P3を実行することによって、キーボート等を用いた文章の入力中にマイクから入力した音声データを容易に付加することができる。
この図13を用いて前述の図6に示した入力ケース1を説明すると、状態S0において、イベントE0(文字データA)→状態S0→イベントE1(ENTERキー)→状態S0→イベントE2(音声データA開始)→状態S1→イベントE3(音声データA完了)→状態S0という遷移を行っていくことが判り、図7の入力ケース2においては、状態S0において、イベントE0(文字データB)→状態S0→イベントE2(音声データB開始)→状態S1→イベントE0(文字データC)→状態S1→イベントE3(音声データB完了)→状態S2→イベントE0(文字データD)→状態S0→イベントE1(ENTERキー)→状態S0という遷移を行っていくことが判り、図8の入力ケース3においては、状態S0において、イベントE0(文字データE)→状態S0→イベントE2(音声データC開始)→状態S1→イベントE0(文字データF)→状態S1→イベントE1(ENTERキー)→状態S1→イベントE3(音声データC完了)→状態S0→イベントE0(文字データG)→状態S0という遷移を行っていくことが判る。
尚、本明細書においては、ファンクションキーの典型例として文書入力においてポピュラーなENTERキーを例として説明したが、本発明はこれに限られるものではなく、他のファンクションキーであっても良く、マウスによる選択により同様のファンクションキー入力相当の効果を生み出すことでも良い。また前記実施形態においては、ENTERキーをきっかけに、音声データを埋め込む方式としたが、例えば、図8の入力ケース3の場合などにおいて、音声データを埋め込むタイミングとして、ENTERキー入力直後の最初の任意のキー入力で埋め込む方法を取っても良い。また音声入力開始1010イベントは、マイクからの音声を自動認識することにより発生し、音声入力完了1020イベントは、マイクからの無音状態を検出することにより発生させる例を説明したが、本発明はこれに限られるものではなく、マイクのオン/オフスイッチによりそれぞれ、発生させる様に構成しても良い。更に、音声/マイクを映像/カメラに置換えることにより、キーボード/マウスと、ビデオ映像の入力にも同様に適用することができる。ビデオ入力の開始/完了に関しても、音声と同様に、特定の像の自動検出又はカメラのスイッチのオンオフで発生する様にしても良い。この時、音声データを映像データに置換え、音声制御手段、音声入力処理部の代わりに、映像制御手段、映像入力処理部とすることで適用可能である。
尚、挿入された音声データ/ビデオ映像データは、リプレイ/削除/差替えは通常の文書ファイルと同様に行えることは言うまでもなく、更に対象となる文書としては、メールだけでなく、ワープロ/表計算などにも同様に適用することができる。
更に本発明は、IP電話機能を装備しているPCにおいて、IP電話用のカメラ/マイクを、上記入力用に兼用することでも良く、更に話相手のスピーカーからの音声データも同様に音声入力情報として取り扱っても良い。更に電話会議システムにおいて、キーボードによる議事録作成と同時に、それに対応して、音声情報を埋め込む様に構成しても良い。
本発明の一実施形態によるハードウェアブロック図。 本実施形態によるソフトウェアを説明するためのブロック図。 本実施形態における受信メールの一例を示す図。 本実施形態における返信メールの一例を示す図。 本実施形態における返信メールの音声リンク情報の一例を示す図。 本実施形態における返信メールへの音声入力操作ケース1を示す図。 本実施形態における返信メールへの音声入力操作ケース2を示す図。 本実施形態における返信メールへの音声入力操作ケース3を示す図。 本実施形態におけるソフトウェアの処理部における動作を示す図。 本実施形態における入力電文の一例を説明する図。 本実施形態における音声入力方法のフローチャート図。 本実施形態における入力した音声KB入力ジャーナルを示す図。 本実施形態における状態と入力のイベント処理を示す状態遷移図。 本実施形態における状態遷移図による処理内容を示す図。
符号の説明
11:PC、12:モニタ、13:キーボード、14:マウス、15:マイク、16:スピーカー、101:CPU、102:メモリ、103:表示制御手段、104:HDD、105:入力制御手段、106:音声制御手段、2:ソフトウェア、201:アプリケーション部、202:イベント制御部、203:日本語入力処理、204:音声入力処理、205:OS、206:KB制御部、207:マウス制御部、208:マイク制御部、209:スピーカー制御部、210:表示制御部、3:受信メール、4:返信メール、401:返信追加部分、402:受信部分、403及び404:音声コメント、5:文書例、501及び502:リンク情報、601及び611:文字データA、602及び604:ENTERキー、603及び613:音声データA、701及び711:文字データB、702及び712:文字データC、703及び713:文字データD、704:ENTERキー、705及び715:音声データB、801及び811:文字データE、802及び812:文字データF、803:ENTERキー、804及び814:音声データC、805及び815:文字データG、1010:音声入力開始電文、1011:音声入力開始イベント、1020:音声入力完了電文、1021:音声入力完了イベント、1022:音声データコンテンツ、1030:文字入力電文、1031:文字入力イベント、1032:文字コンテンツ、1040:ファンクションキー電文、1041:ファンクションキー入力イベント、1042:ENTERコンテンツ、1050:複合電文、1051:テキスト部、1052:音声部、1053:音声例(001.mp3)、1054:音声例(002.mp3)、1070:音声KB入力ジャーナル、1071:日時、1072:イベント、1073:コンテンツ、1074:処理済フラグ、1075:入力ケース1、1076:入力ケース2、1077:入力ケース3、1300:状態遷移、1301:ステータス、1302:イベント、1303:処理、1400:処理表、1401:処理名、1402:処理内容。

Claims (6)

  1. 文字を入力するための文字入力手段と、音声を入力するための音声制御手段と、前記文字入力手段から入力された文字データと音声制御手段から入力された音声データとが混在した複合文書を生成する制御手段とを備える端末装置であって、
    前記文字入力手段を用いて文字データが入力されたことを示す文字情報入力発生イベントと、前記音声データが入力されたことを示す音声入力開始イベントと、音声データの入力の完了を示す音声入力完了イベントと、文書入力の区切りを示すファンクションキーイベントとを入力とし、
    前記音声入力開始イベント及び音声入力完了イベントの入力を受けた後、ファンクションキーイベントの有無を判定し、該ファンクションキーイベントが有る場合、音声入力された音声データを前記ファンクションキーイベントにより文書入力の区切りが示された文字データの後に音声データの連結情報を埋め込む複合文書を生成する制御手段を備えることを特徴とする端末装置。
  2. 文字を入力するための文字入力手段と、音声を入力するための音声制御手段と、前記文字入力手段から入力された文字データと音声制御手段から入力された音声データとが混在した複合文書を生成する制御手段とを備える端末装置であって、
    前記文字入力手段を用いて文字データが入力されたことを示す文字情報入力発生イベントと、前記音声データが入力されたことを示す音声入力開始イベントと、音声データの入力の完了を示す音声入力完了イベントと、文書入力の区切りを示すファンクションキーイベントとを入力とし、
    前記音声入力開始イベント及び音声入力完了イベントとの入力を受けた後にファンクションキーイベントの入力を受け付けたとき、文字入力手段を用いたファンクションキーイベントにより文書入力の区切りが入力された文字データの後方に音声データの連結情報を埋め込む複合文書を生成する制御手段を備えることを特徴とする端末装置。
  3. 文字を入力するための文字入力手段と、音声を入力するための音声制御手段と、前記文字入力手段から入力された文字データと音声制御手段から入力された音声データとが混在した複合文書を生成する制御手段とを備える端末装置であって、
    前記文字入力手段を用いて文字データが入力されたことを示す文字情報入力発生イベントと、前記音声データが入力されたことを示す音声入力開始イベントと、音声データの入力の完了を示す音声入力完了イベントと、文書入力の区切りを示すファンクションキーイベントとを入力とし、
    前記音声入力開始イベントの入力を受け付けてから音声入力完了イベントの入力を受けた間にファンクションキーイベントの入力を受け付けたとき前記文字データのファンクションキーイベントにより文書入力の区切りが入力された文字データの後方に音声データの連結情報を埋め込む複合文書を生成する制御手段を備えることを特徴とする端末装置。
  4. 文字を入力するための文字入力手段と、音声を入力するための音声制御手段と、前記文字入力手段から入力された文字データと音声制御手段から入力された音声データとが混在した複合文書を生成する制御手段とを備える端末装置のプログラムであって、
    前記文字入力手段を用いて文字データが入力されたことを示す文字情報入力発生イベントと、前記音声データが入力されたことを示す音声入力開始イベントと、音声データの入力の完了を示す音声入力完了イベントと、文書入力の区切りを示すファンクションキーイベントとを入力する第1機能と、前記音声入力開始イベント及び音声入力完了イベントを受けた後、ファンクションキーイベント入力の有無を判定する第2機能と、該第2機能によりファンクションキーイベントの入力が有ると判定したとき、音声入力された音声データを前記ファンクションキーイベントにより文書入力の区切りが示された文字データの後に音声データの連結情報を埋め込む複合文書を生成する第3機能を実現することを特徴とする端末装置のプログラム。
  5. 文字を入力するための文字入力手段と、音声を入力するための音声制御手段と、前記文字入力手段から入力された文字データと音声制御手段から入力された音声データとが混在した複合文書を生成する制御手段とを備える端末装置のプログラムであって、
    前記文字入力手段を用いて文字データが入力されたことを示す文字情報入力発生イベントと、前記音声データが入力されたことを示す音声入力開始イベントと、音声データの入力の完了を示す音声入力完了イベントと、文書入力の区切りを示すファンクションキーイベントとを入力する第1機能と、前記音声入力開始イベントの入力及び音声入力完了イベントの入力とを受けた後にファンクションキーイベントの入力を受け付けたとき、文字入力手段を用いたファンクションキーイベントにより文書入力の区切りが入力された文字データの後方に音声データの連結情報を埋め込む複合文書を生成する第4機能とを実現させることを特徴とする端末装置のプログラム。
  6. 文字を入力するための文字入力手段と、音声を入力するための音声制御手段と、前記文字入力手段から入力された文字データと音声制御手段から入力された音声データとが混在した複合文書を生成する制御手段とを備える端末装置のプログラムであって、
    前記文字入力手段を用いて文字データが入力されたことを示す文字情報入力発生イベントと、前記音声データが入力されたことを示す音声入力開始イベントと、音声データの入力の完了を示す音声入力完了イベントと、文書入力の区切りを示すファンクションキーイベントとを入力する第1機能と、前記音声入力開始イベントの入力を受け付けてから音声入力完了イベントの入力を受けた間にファンクションキーイベントを受け付けたとき前記文字データのファンクションキーイベントにより文書入力の区切りが入力された文字データの後方に音声データの連結情報を埋め込む複合文書を生成する第5機能とを実現することを特徴とする端末装置のプログラム。
JP2004327885A 2004-11-11 2004-11-11 端末装置及びプログラム Expired - Fee Related JP4119880B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004327885A JP4119880B2 (ja) 2004-11-11 2004-11-11 端末装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004327885A JP4119880B2 (ja) 2004-11-11 2004-11-11 端末装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2006139491A JP2006139491A (ja) 2006-06-01
JP4119880B2 true JP4119880B2 (ja) 2008-07-16

Family

ID=36620286

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004327885A Expired - Fee Related JP4119880B2 (ja) 2004-11-11 2004-11-11 端末装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4119880B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10339934B2 (en) 2016-06-27 2019-07-02 Google Llc Asynchronous processing of user requests

Also Published As

Publication number Publication date
JP2006139491A (ja) 2006-06-01

Similar Documents

Publication Publication Date Title
KR101109293B1 (ko) 순차 멀티모드 입력
US20120011426A1 (en) Automatic linking of contacts in message content
CN101998107B (zh) 信息处理装置、会议系统和信息处理方法
JP2011504304A (ja) パーソナル通信デバイス用のスピーチ・トゥ・テキスト・トランスクリプション
JP2007299352A (ja) メッセージ出力装置及びメッセージ出力方法及びメッセージ出力プログラム
JP3485898B2 (ja) コンピュータ読み取り可能な記録媒体およびメッセージ送信プログラム、メッセージ受信プログラム、メッセージ送受信プログラムおよびメッセージ送信方法、メッセージ受信方法、メッセージ送受信方法および情報処理装置
JP5366412B2 (ja) コールフロー作成システム、方法及びプログラム
JP4119880B2 (ja) 端末装置及びプログラム
EP2405631B1 (en) Automatic linking of contacts in message content
JP2022025665A (ja) 要約文作成装置、要約文作成方法及びプログラム
KR100784263B1 (ko) 클립보드를 이용한 메시지 전송 방법 및 이를 위한 장치
JP2008153968A (ja) アドレス管理プログラム、該プログラムを記録した記録媒体、アドレス管理方法および携帯電話端末
JP2008108275A (ja) 端末装置
JP4824595B2 (ja) データ送受信装置及びデータ送受信方法
JP2005174251A (ja) オーダー処理装置、オーダー処理方法、オーダー処理プログラム、オーダー処理プログラム記録媒体及びオーダー処理システム
JP4256435B2 (ja) メールシステム、メール送信方法およびプログラム
JP4635219B2 (ja) グラフィクス対話装置およびグラフィクス対話プログラム
KR100587578B1 (ko) 메신저를 통해 작성된 메시지 통신 방법
JP2004054811A (ja) 入力表示方法、入力表示装置、入力表示プログラム及び入力表示プログラムを記録した記録媒体
JP2010003148A (ja) 通信端末装置、及びプログラム
JP3987172B2 (ja) 対話型コミュニケーション端末装置
JP2005157950A (ja) 情報処理装置
JP2001005634A (ja) 電子メール受信装置
JP2007257562A (ja) 音声ファイルアップロードシステム
WO2003052370A1 (en) Information processing apparatus and method, and program

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20061220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080425

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110502

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees