JP2007018290A - 手書き文字入力表示支援装置及び方法並びにプログラム - Google Patents
手書き文字入力表示支援装置及び方法並びにプログラム Download PDFInfo
- Publication number
- JP2007018290A JP2007018290A JP2005199464A JP2005199464A JP2007018290A JP 2007018290 A JP2007018290 A JP 2007018290A JP 2005199464 A JP2005199464 A JP 2005199464A JP 2005199464 A JP2005199464 A JP 2005199464A JP 2007018290 A JP2007018290 A JP 2007018290A
- Authority
- JP
- Japan
- Prior art keywords
- character
- handwritten
- handwritten character
- screen
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】手書き入力作業を阻害することなく、音声認識の結果を、手書き文字表示の支援に利用することができる手書き文字入力表示支援装置を提供する。
【解決手段】選択候補決定手段19が、認識結果記憶手段14に記憶されている認識結果から、手書き文字判別手段18が判別した手書き文字に対応する文字を先頭に含む1以上の文字列を予測する。予測した1以上の文字列から手書き文字に対応する文字を除いた1以上の文字からなる1以上の文字列構成部分を選択候補として画面5A上に表示する。文字列構成部分から選択した文字を、手書き文字判別手段18が判別した手書き文字に対応する文字と一緒に、作業者の手書き文字に近似したフォントで画面5A上に表示する。画面表示制御手段15は、確定文字表示指令が入力されないときには、確定文字と一緒に手書き文字をそのまま画面5A上に表示し続ける。
【選択図】図3
【解決手段】選択候補決定手段19が、認識結果記憶手段14に記憶されている認識結果から、手書き文字判別手段18が判別した手書き文字に対応する文字を先頭に含む1以上の文字列を予測する。予測した1以上の文字列から手書き文字に対応する文字を除いた1以上の文字からなる1以上の文字列構成部分を選択候補として画面5A上に表示する。文字列構成部分から選択した文字を、手書き文字判別手段18が判別した手書き文字に対応する文字と一緒に、作業者の手書き文字に近似したフォントで画面5A上に表示する。画面表示制御手段15は、確定文字表示指令が入力されないときには、確定文字と一緒に手書き文字をそのまま画面5A上に表示し続ける。
【選択図】図3
Description
本発明は、音声認識結果を利用して、画面に表示する手書き文字の入力表示作業を支援する手書き文字入力表示支援装置及び方法並びにプログラムに関するものである。
例えば、大学等における講義においては、講演者・講師が黒板に情報を書き込みながら話を進め、聴衆・学生がそれを見聞きしながら各自のノートにまとめていく。これは今日においても日常的に繰り返されるコミュニケーション様式の一つである。近年の技術進歩により講義において講演者や聴衆をサポートする様々なシステムの開発が盛んになってきた。例えば、事前にスライド資料を用意し、スライド資料を電子的に聴衆・学生に対して順に示していく手法は一般的になっている。一方で講義の進行中において、資料を作成し、それを聴衆・学生に対して提示するという講義本来のスタイルを、電子的に支援する手法の研究も進められている。
例えば、非特許文献1(Schilit et al.: Beyond Paper: Supporting Active Reading with Free Form Digital Ink Annotations. CHI’98,pp.249-256,1998.)は、「書く」という作業は単に準備されたスライド資料を見せるだけの講義やプレゼンテーションに比べて、より柔軟であり、聴衆が集中して取り組めるために優れているという結果を発表している。「書く」ことをテーマにした研究として、事前に作ったスライド資料に対して発表時に追加的に電子ペンによる書き込みを行えるようにすることが、非特許文献2(Kam et al.: A System for Cooperative and Augmented Note-Taking in Lectures. CHI’05,pp.531-540,2005.)及び非特許文献3(Anderson et al.: A Study of Digital Ink in Lecture Presentation. CHI’04,pp.567-574,2004.)に発表されている。また、電子ペンによる資料作成作業自体を扱った研究も発表されている[非特許文献4(Elrod et al.: Liveboard: A Large Interactive Display Supporting Group meetings, Presentations, and Remote Collaboration. CHI’92,pp.599-607,1992.)、非特許文献5(Denoue et al.: Shared Freeform Input for Note Taking across Devices. CHI’03,pp.170-171,2003.)、非特許文献6(Stifelman et al.: The Audio Notebook. CHI’01,pp.182.189,2001.)などを例として挙げることができる]。
しかし書くという作業には大きな問題がある。キーボードを用いたテキスト入力に比べて、長いテキストを入力するのに労力と時間を必要とするという点である。非特許文献7(岩田陽子,加藤直樹,中川正樹:“対話型電子白板を用いた電子化授業への遠隔受講者参加方式の試作”,情処研報2002-CE-67,pp.33-40,2002.)は、講義時間全体の18%もの時間が板書に費やされていたことを報告している。
また音声認識のインタフェースとしての新たな可能性を論じた関連研究としては、非特許文献8(後藤真孝:解説“音声補完:言い淀むと助けてくれる音声インタフェース”,情報処理(情報処理学会誌),Vol.43,No.11,pp.1210-1216,2002.)や、非特許文献9(後藤真孝:“非言語情報を活用した音声インタフェース”,情処研報2004-SLP-52-7,pp.41-46,2004.)に示される非言語情報を活用した「音声補完シリーズ」があげられる。
また、複数のモダリティの認識技術を相補的に組み合わせることで全体の認識率を向上させることは、非特許文献10(Oviatt: Mutual Disambiguation of Recognition Errors in a Multimodal Architecture. CHI’99,pp.576-583,1999.)に提唱されている。そして、非特許文献11(中川竜太,小林唯,小林隆二,篠田浩一,古井貞煕:“音声と手書き文字の同時入力インタフェース”,情処研報2005-SLP-56,pp.29-34,2005.)には、そのための統合的な認識エンジンを開発し、これを応用したテキスト入力インタフェースの一例について開示されている。
さらに、現状の音声認識技術では認識が困難である、日常の自然な発話や会話を積極的に活用したインタフェースやその重要性について、非特許文献12(Hindus et al.: Ubiquitous Audio: Capturing Spontaneous Collaboration. CSCW’92,pp.210-217,1992.)や、非特許文献13(Lyons et al.: Augmenting Conversations Using Dual-Purpose Speech. UIST’04,pp-237-246,2004.)で開示されている。
また非特許文献14(Mankoff et al.: Interaction techniques for ambiguity resolution in recognition-based interfaces. UIST’00,pp.11-20,2000.)には、認識技術の誤認識とそれに伴うあいまい性の存在を前提としたツールキットが開示されている。
さらに非特許文献15(Masui: An Efficient Text Input Method for Pen-based Computers. CHI’98,pp.328-335,1998.)及び非特許文献16(福島俊一,山田洋志:“予測ペン入力インタフェースとその手書き操作削減効果”,情処学論,Vol. 37,No. 1,pp. 23〜30,1996.)には、手書き認識技術を用いた従来のテキスト入力システムが開示されている。
Schilit et al.: Beyond Paper: Supporting Active Reading with Free Form Digital Ink Annotations. CHI’98,pp.249-256,1998. Kam et al.: A System for Cooperative and Augmented Note-Taking in Lectures. CHI’05,pp.531-540,2005. Anderson et al.: A Study of Digital Ink in Lecture Presentation. CHI’04,pp.567-574,2004. Elrod et al.: Liveboard: A Large Interactive Display Supporting Group meetings, Presentations, and Remote Collaboration. CHI’92,pp.599-607,1992. Denoue et al.: Shared Freeform Input for Note Taking across Devices. CHI’03,pp.170-171,2003. Stifelman et al.: The Audio Notebook. CHI’01,pp.182.189,2001. 岩田陽子,加藤直樹,中川正樹:"対話型電子白板を用いた電子化授業への遠隔受講者参加方式の試作",情処研報2002-CE-67,pp.33-40,2002. 後藤真孝:解説"音声補完:言い淀むと助けてくれる音声インタフェース",情報処理(情報処理学会誌),Vol.43,No.11,pp.1210-1216,2002. 後藤真孝:"非言語情報を活用した音声インタフェース",情処研報2004-SLP-52-7,pp.41-46,2004. Oviatt: Mutual Disambiguation of Recognition Errors in a Multimodal Architecture. CHI’99,pp.576-583,1999. 中川竜太,小林唯,小林隆二,篠田浩一,古井貞煕:"音声と手書き文字の同時入力インタフェース",情処研報2005-SLP-56,pp.29-34,2005. Hindus et al.: Ubiquitous Audio: Capturing Spontaneous Collaboration. CSCW’92,pp.210-217,1992. Lyons et al.: Augmenting Conversations Using Dual-Purpose Speech. UIST’04,pp-237-246,2004. Mankoff et al.: Interaction techniques for ambiguity resolution in recognition-based interfaces. UIST’00,pp.11-20,2000. Masui: An Efficient Text Input Method for Pen-based Computers. CHI’98,pp.328-335,1998. 福島俊一,山田洋志:"予測ペン入力インタフェースとその手書き操作削減効果",情処学論,Vol. 37,No. 1,pp. 23〜30,1996.
Schilit et al.: Beyond Paper: Supporting Active Reading with Free Form Digital Ink Annotations. CHI’98,pp.249-256,1998. Kam et al.: A System for Cooperative and Augmented Note-Taking in Lectures. CHI’05,pp.531-540,2005. Anderson et al.: A Study of Digital Ink in Lecture Presentation. CHI’04,pp.567-574,2004. Elrod et al.: Liveboard: A Large Interactive Display Supporting Group meetings, Presentations, and Remote Collaboration. CHI’92,pp.599-607,1992. Denoue et al.: Shared Freeform Input for Note Taking across Devices. CHI’03,pp.170-171,2003. Stifelman et al.: The Audio Notebook. CHI’01,pp.182.189,2001. 岩田陽子,加藤直樹,中川正樹:"対話型電子白板を用いた電子化授業への遠隔受講者参加方式の試作",情処研報2002-CE-67,pp.33-40,2002. 後藤真孝:解説"音声補完:言い淀むと助けてくれる音声インタフェース",情報処理(情報処理学会誌),Vol.43,No.11,pp.1210-1216,2002. 後藤真孝:"非言語情報を活用した音声インタフェース",情処研報2004-SLP-52-7,pp.41-46,2004. Oviatt: Mutual Disambiguation of Recognition Errors in a Multimodal Architecture. CHI’99,pp.576-583,1999. 中川竜太,小林唯,小林隆二,篠田浩一,古井貞煕:"音声と手書き文字の同時入力インタフェース",情処研報2005-SLP-56,pp.29-34,2005. Hindus et al.: Ubiquitous Audio: Capturing Spontaneous Collaboration. CSCW’92,pp.210-217,1992. Lyons et al.: Augmenting Conversations Using Dual-Purpose Speech. UIST’04,pp-237-246,2004. Mankoff et al.: Interaction techniques for ambiguity resolution in recognition-based interfaces. UIST’00,pp.11-20,2000. Masui: An Efficient Text Input Method for Pen-based Computers. CHI’98,pp.328-335,1998. 福島俊一,山田洋志:"予測ペン入力インタフェースとその手書き操作削減効果",情処学論,Vol. 37,No. 1,pp. 23〜30,1996.
しかしながら、非特許文献11に提案されている音声と手書き文字の同時入力インターフェース、また非特許文献15及び16に見られるように、従来は、手書き文字の入力の認識誤りを訂正する作業が必ず必要になっていた。しかし、音声認識と手書き文字認識とを組み合わせて手書き文字表示及び入力を行おうとする場合に、すべての文字認識を確定または誤りを訂正しようとすると、作業の流れが阻害され、例えば講義中であるとすれば、講義をスムーズに進行することができない問題が発生する。
本発明の目的は、手書き入力作業を阻害することなく、音声認識の結果を、手書き文字表示の支援に利用することができる手書き文字入力表示支援装置及び方法並びにこれらに使用するプログラムを提供することにある。
本発明の他の目的は、手書き文字の認識をすべて電子的に確定することなく、音声認識の結果を、手書き文字表示の支援に利用することができる手書き文字入力表示支援装置及び方法並びにこれらに使用するプログラムを提供することにある。
本発明の別の目的は、手書き文字の認識をすべて電子的に確定しない場合でも、後から検索が可能なデータを保存することが可能な手書き文字入力表示支援装置及び方法並びにこれらに使用するプログラムを提供することにある。
本発明は、音声を認識し、また手書き文字入力を認識し、音声認識の結果と手書き文字入力の認識結果を画面に表示し、画面に表示された音声認識の結果を用いて手書き文字入力の認識結果に修正、変更または追加を加えて手書き文字入力を表示するための、手書き入力表示装置、方法及びプログラムである。
本発明の装置では、発表者の声を入力するための音声入力手段と、音声認識手段と、認識結果記憶手段と、画面表示制御手段と、手書き文字検出手段と、手書き文字判別手段と、選択候補決定手段と、文字確定手段とを備えている。発表者とは、講義の講師等、声を出して発表する人を意味する。したがって音声入力手段は、マイクロフォン等のように音声を信号に変換する機能を備えた装置である。なお後述する作業者は、発表者の場合もあれば、講義に出席している受講者の場合もある。
音声認識手段は、予め定めた判定手法に従って、音声認識を行う。例えば、音声認識手段は、音声入力手段から入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とすることができる。ここで「予め定めた判定手法」としては、公知の各種の判定手法を用いることができる。例えば、コンフュージョン・ネットワークを用いて音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、複数の単語の区間ごとに後述する競合確率を求めて、一番競合確率の高い単語を決定する判定手法を用いるのが好ましい。コンフュージョン・ネットワークを用いると、大語彙、小語彙を問わず多様な入力音声に対して効果的な候補の提示、訂正が可能になる。
認識結果記憶手段は、音声認識手段により認識された認識結果を記憶する。例えば、認識結果記憶手段は、音声認識手段により認識された認識結果を複数の文字からなる文字列や複数の単語からなる単語列として記憶することができる。なお文字列を構成する文字と競合する文字や単語列と競合する競合単語を併せて記憶しておいてもよい。
また画面表示制御手段は、指令を入力として画面の表示を制御する。そして手書き文字検出手段は、作業者の手書き文字を検出して画面表示制御手段に手書き文字表示指令を出力する。手書き文字検出手段としては、光学的読み取り手段を用いて手書き文字を読み取る公知の装置を用いることができる。そして手書き文字判別手段は、手書き文字検出手段が認識して画面に表示しようとする文字に対応する1種類以上の文字を判別する。なお使用する判別技術によって、1つの検出文字に対して1種類の文字だけでなく、複数種類の文字を判別することがある。また手書き文字がいかなる文字に該当するかを判別する技術は、すでに各種の技術が開発されており、本発明ではいかなる技術を用いることも許容する。なお利用する技術によって、判別精度には差が出ることになる。しかし本発明では、判別できない場合には、後述するように、認識した手書き文字をそのまま表示することになるので、再入力や訂正等を必ず行う必要はない。また本発明では、一部の手書き文字が入力された段階で、その文字の全てまたはその文字を含む文字列構成部を作業者に表示して、すべての文字を手書き入力しなくても、文字入力を行えるようにする。
このことを実現するためには、まず選択候補決定手段は、認識結果記憶手段に記憶されている認識結果から、手書き文字判別手段が判別した手書き文字に対応する1種類以上の文字を先頭に含む1以上の文字列を予測する。そして選択候補決定手段は、予測した1以上の文字列から手書き文字に対応する文字を除いた1以上の文字からなる1以上の文字列構成部分に含まれる文字を選択候補として画面上に表示するための選択候補表示指令を画面表示制御手段に出力する。なお文字列構成部分に含まれる文字と競合する文字を選択候補に含めることができる。このような競合する文字を選択候補に含めれば、選択の幅が広がるため、さらに入力支援の効果が高くなる。なお音声認識結果が、単語を単位として記憶されている場合には、競合する文字の選択を、単語を単位として選択可能にしてよいのは勿論である。
例えば、選択候補決定手段は、音声認識で認識した認識結果に基づいて、現在入力中の文字を予測するだけでなく(例えば“音”の文字の入力から“音声”の文字列を予測するだけでなく)、現在入力中の文字を含んだ他の文字列(例えば“音”の文字から“音声認識の結果”等)を選択候補として画面に表示する機能を有する。この選択候補の数は、一つでも、また複数でもよく、さらに選択候補が無ければ、ゼロであってもよい(すなわち選択候補を出さなくともよい)。なお選択候補決定手段は、文字列構成部分を構成する一番競合確率の高い文字と一緒に該一番競合確率の高い単語の競合候補を選択候補として画面上に表示するための選択候補表示指令を画面表示制御手段に出力するように構成してもよい。すなわち音”の文字の入力から“音声”の文字列を予測するだけでなく、“音楽”“音符”“音階”を予測し、“声”が一番競合確率の高い単語であれば、競合候補として“符”“階”を選択可能に一緒に表示するようにしてもよい。
また文字確定手段は、選択候補から作業者のマニュアル操作により選択した文字を、手書き文字判別手段が判別した手書き文字に対応する文字と一緒に、作業者の手書き文字に近似したフォントで画面上に確定文字として表示するための確定文字表示指令を画面表示制御手段に出力するように構成されている。
作業者の手書き文字に近似したフォントは、作業者の手書き文字を解析して予め作成しておいてもよいし、予め用意した複数の種類の手書きフォントの中から一番作業者の手書き文字に近いものを選択するようにしてもよい。また作業者の筆跡を自動的に判断して、筆跡に近似したフォントを作製または選択するようにしてもよい。
なお本発明では、文字確定手段により毎回単語を確定する必要はない。文字確定手段が、単語を確定しない場合には、確定文字表示指令は出力されることがない。
上記の各手段を用いることを前提として、本発明の装置では、画面表示制御手段は、手書き文字表示指令が入力されると手書き文字を画面に表示し、選択候補表示指令が入力されると選択候補を画面上に表示し、確定文字表示指令が入力されると確定文字を手書き文字に代えて画面上に表示し、確定文字表示指令が入力されないときには、既に画面に表示された確定文字と一緒に手書き文字をそのまま画面上に表示し続ける。ここで確定文字を手書き文字に代えることは、代替の他に置き換えを含むものである。また選択候補は、手書き文字と隣接して画面に表示するのが好ましい。このようにすると文字の選択をスムーズに行える。また隣接して表示する場合には、手書き文字に隣接して文字列構成部分の文字を表記し、文字列構成部分の文字に隣接して他の選択候補を表示するようにするのが好ましい。
本発明では、事前に発表者が発表した内容(音声認識結果)に含まれる単語や文字列が、手書き入力される可能性が高いことを前提にしている。そこで発表者の発表を音声認識してその認識結果を記憶しておく。そして手書き文字の入力があると、音声認識結果に基づいて、手書き文字またはその文字を含む文字列を予測して、それらを選択候補として画面に表示する。その上で、手書き文字入力の途中で、入力しようとする文字を先頭に含む予測した1以上文字列の文字列構成部分(文字列から先頭の文字を除いた部分)を作業者に画面上で見せて、作業者に選択候補を選択する機会を与えることにより、手書き文字の入力を支援する。その結果、本発明によれば、手書きのみで文字を入力している場合と比べて、かなり早く手書き文字入力を行うことができる。
また本発明では、手書き文字判別手段が手書き文字を判別できなかった場合や、選択候補決定手段が決定した選択候補を作業者が選択しないときには、手書き文字をそのまま画面に表示したままで手書き入力を続けることができる。そのため講義中であっても、黒板に文字を書く感覚を残して、実際に手書き文字ですべてを書く場合よりも速く画面に文字情報を表示することができる。また手書き文字をそのまま表示し続けることがあるため、本発明では、確定した手書き文字であっても手書き文字に近似したフォントで画面に表示し、見る者に違和感を与えないようにしている。
なお画面に表示された手書き文字と確定文字からなる文字データを、再利用可能に保存する保存手段を更に備えていてもよい。このような保存手段を備えていれば、保存内容を画面に表示することができるので、時と場所とが変わったときに、手書き入力を繰り返し行う必要がなくなる。
手書き文字をデータの中に残した状態で保存をすると、手書き文字の存在が原因となって、テキストデータのように後になって検索をすることができないまたは検索精度が悪くなるといった問題が生じる。そこでこのような問題を解決するためには、手書き文字と一緒に手書き文字判別手段が判別した手書き文字に対応する文字または選択候補についてのデータを一緒に保存する。このようにすると、手書きのまま残された単語に付随するデータが検索の対象となるため、保存データに手書き文字のデータを含めていても、後から検索が充分に可能になる。この後からの検索を可能にするための技術的思想は、音声認識の結果を利用して入力を支援する場合と必ず組み合わされなければならないものではなく、その他の技術手書き入力技術と組み合わされてもよく、また手書きテキストデータの検索にも単独で使用することが可能である。
本発明を方法として表現すると、本発明は、コンピュータを利用して、音声を認識し且つ手書き文字入力を認識し、音声認識の結果を利用して手書き文字入力を支援する手書き文字入力表示支援方法であって、予め定めた判定手法に従って音声認識を行う音声認識ステップと、前記音声認識ステップにより認識された認識結果を認識結果記憶手段に記憶する認識結果記憶ステップと、作業者の手書き文字を検出して手書き文字表示指令を出力する手書き文字認識ステップと、前記手書き文字に対応する文字を判別する手書き文字判別ステップと、前記認識結果記憶手段に記憶されている前記認識結果から、前記手書き文字判別ステップで判別した前記手書き文字に対応する1種類以上の文字を先頭に含む1以上の文字列を予測し、予測した前記1以上の文字列から前記手書き文字に対応する文字を除いた1以上の文字からなる1以上の文字列構成部分に含まれる文字を選択候補として前記画面上に表示するための選択候補表示指令を出力する選択候補決定ステップと、前記作業者のマニュアル操作により前記選択候補から選択した文字を、前記手書き文字判別ステップで判別した前記手書き文字に対応する文字と一緒に、前記作業者の手書き文字に近似したフォントで前記画面上に確定文字として表示するための確定文字表示指令を出力する単語確定ステップと、前記手書き文字表示指令が出力されると前記手書き文字を前記画面に表示し、前記選択候補表示指令が出力されると前記選択候補を前記画面上に表示し、前記確定文字表示指令が出力されると前記確定文字を前記手書き文字に代えて前記画面上に表示し、前記確定文字表示指令が出力されないときには、既に前記画面に表示された前記確定文字と一緒に前記手書き文字をそのまま前記画面上に表示し続ける画面表示ステップとからなる。
また本発明を、音声を認識し且つ手書き文字入力を認識し、音声認識の結果を利用して手書き文字入力を支援する手書き文字入力表示支援装置を、コンピュータを用いて実現するために、以下の手順をコンピュータに実行させるためのプログラムとして表現すると以下のようになる。
すなわち、予め定めた判定手法に従って音声認識を行う音声認識手順と、前記音声認識手順により認識された認識結果を認識結果記憶手段に記憶する認識結果記憶手順と、作業者の手書き文字を検出して手書き文字表示指令を出力する手書き文字認識手順と、前記手書き文字に対応する文字を判別する手書き文字判別手順と、前記認識結果記憶手段に記憶されている前記認識結果から、前記手書き文字判別手順で判別した前記手書き文字に対応する1種類以上の文字を先頭に含む1以上の文字列を予測し、予測した前記1以上の文字列から前記手書き文字に対応する文字を除いた1以上の文字からなる1以上の文字列構成部分に含まれる文字を選択候補として前記画面上に表示するための選択候補表示指令を出力する選択候補決定手順と、前記作業者のマニュアル操作により前記選択候補から選択した文字を、前記手書き文字判別手順で判別した前記手書き文字に対応する文字と一緒に、前記作業者の手書き文字に近似したフォントで前記画面上に確定文字として表示するための確定文字表示指令を出力する単語確定手順と、前記手書き文字表示指令が出力されると前記手書き文字を前記画面に表示し、前記選択候補表示指令が出力されると前記選択候補を前記画面上に表示し、前記確定文字表示指令が出力されると前記確定文字を前記手書き文字に代えて前記画面上に表示し、前記確定文字表示指令が出力されないときには、既に前記画面に表示された前記確定文字と一緒に前記手書き文字をそのまま前記画面上に表示し続ける画面表示手順とを前記コンピュータに実行させる。
本発明の方法及びプログラムにおいても、選択候補を表示する際に、競合する文字の候補を表示するようにしてもよいのは勿論である。
本発明によれば、音声認識結果に基づいて、手書き文字またはその文字を含む文字列を予測して、文字列を構成する文字列構成部分を選択候補として画面に表示し、手書き文字入力の途中で、作業者に選択候補を選択する機会を与えることにより、手書き文字の入力を支援することができる。その結果、本発明によれば、手書きのみで文字を入力している場合と比べて、かなり早く手書き文字入力を行うことができる利点が得られる。
また本発明では、手書き文字判別手段が手書き文字を判別できなかった場合や、選択候補決定手段が表示した選択候補を作業者が選択しないときには、手書き文字をそのまま画面に表示したままで手書き入力を続けることができるので、実際に手書き文字ですべてを書く場合よりも速く画面に文字情報を表示することができる。また手書き文字をそのまま表示し続けるために、本発明では、確定した手書き文字であっても手書き文字に近似したフォントで画面に表示することができ、見る者に違和感を与えることがない利点が得られる。
以下図面を参照して本発明の実施の形態を詳細に説明する。図1は、本発明の一実施の形態の構成の概念を説明するための図である。この実施の形態では、音声認識の新たな利用法として、講義中における発表者1(この場合は作業者でもある)及び受講者2(この場合は、聴衆であり作業者である)のそれぞれの文字入力作業を支援する「音声ペン」システムと呼ばれる手書き入力表示装置である。本実施の形態は、発表者の発言の音声認識結果をそのまま画面3に表示せず、音声認識結果は手書き文字入力の際に予測選択候補の生成に使用される。発表者1は、音声認識用のマイクに向かって話し、プロジェクタ4に接続された電子ペンを用いてタブレットに文字を手書きすることにより入力を行うタブレット式のパーソナルコンピュータであるタブレットPC(Tablet PC)5を用いて、入力ペンで書き込みを行うことで講義を進める。タブレットPC5に書かれた手書き文字は、表示装置であるプロジェクタの画面3に表示される。なおタブレットPCを用いずに、いわゆる電子白板を手書き文字入力装置として用いてもよいのは勿論である。発表者1のタブレットPCはネットワーク6のハブを介して音声認識処理とデータ処理用のコンピュータ8に接続されている。この例では、このコンピュータ8が、辞書機能を備えており、タブレットPCと協働して文字認識処理の一部も実行される。そしてこの例では、受講者2もそれぞれ独立して各自のノート(記録)をタブレットPC(Tablet PC)9で取る。したがって発表者1の音声は音声認識サーバとなるコンピュータ8で処理され、認識結果が発表者1だけでなく受講者2を含むすべてのユーザにネットワーク6経由で配信される。
発表者1は、普段通り話しながら手書き文字入力でいわゆる板書を行えばよい。本実施の形態の手書き文字入力装置では、音声認識や手書き文字認識が、うまく実行されると、手書き文字入力が速くなり、たとえ誤認識があっても、手書き文字が残るため、発表者の手書き文字入力をスムーズに実施することができる。また本実施の形態では、発表者1だけでなく受講者2も同様のメリットを享受することができるので、受講者2もノートを取る作業を省力化することができる。
図2は、発表者1を中心にして、本実施の形態を実施する場合の構成の概略を示す図である。そして図3は、図2に示すように発表者1を中心にして上記実施の形態の一例をコンピュータを用いて実現する場合にコンピュータ内に実現される機能実現手段を概略的に示したブロック図である。図4はこの装置をコンピュータを利用して実現する場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。本実施の形態の手書き文字入力表示装置では、発表者1の声を入力するための音声入力手段11と、音声認識手段12と、辞書手段13と、認識結果記憶手段14と、画面表示制御手段15と、手書き文字入力手段16と、手書き文字検出手段17と、手書き文字判別手段18と、選択候補決定手段19と、文字選択手段20と、文字確定手段21と、保存手段22とを備えている。音声入力手段11は、マイクロフォン等のように音声を信号に変換する機能を備えた装置である。
本実施の形態の音声認識手段12は、予め定めた判定手法に従って、音声入力手段11から入力された音声に含まれる複数の単語を予め辞書手段13に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする。ここで「予め定めた判定手法」としては、公知の各種の判定手法を用いることができる。例えば、本実施の形態では、コンフュージョン・ネットワークを用いて音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、複数の単語の区間ごとに後述する競合確率を求めて、一番競合確率の高い単語を決定する判定手法を用いる。例えば、緒方淳及び後藤真孝共著の“音声訂正:“CHOICE” on Speech”,情処研報2004-SLP-54-54,pp.319-324,2004.に記載の技術や、緒方淳及び後藤真孝共著の“音声訂正:認識誤りを選択操作だけで訂正ができる新たな音声入力インタフェース”,WISS 2004論文集,pp.47-52,2004.に記載の技術で採用している、大規模な単語グラフを効率よく圧縮した形式であるコンフュージョン・ネットワーク(confusion network)[L.Mangu,E.Brill及びA.Stolcke著“Finding Consensus in Speech Recognition:Word Error Minimization and Other Applications of Confusion Network”Computer Speech and Language,Vol.14,No.4,pp.373−400,2000.]を作業者に提示する入力予測候補の決定に利用する。コンフュージョン・ネットワークは、元々、音声認識率の向上のためにデコーディングアルゴリズムにおいて使用された途中結果である。そのため、当業者には、このコンフュージョン・ネットワークを本実施の形態のような文字の選択目的に応用しようという発想は従来なかった。コンフュージョン・ネットワークを利用して選択候補を決定して表示する手法については、前述の緒方淳及び後藤真孝共著の論文に詳しく説明されているので、ここでは説明を省略する。コンフュージョン・ネットワークは、単語グラフを音響的なクラスタリングによりリニアな形式に圧縮する。その結果、コンフュージョン・ネットワークを利用することにより、図7に示すように、各文字候補間の競合関係を明確化した選択候補を表示することができる。その結果、作業者は効率よく入力ペン等を用いて候補の選択をすることができる。
一般的に、ディクテーションを目的とした音声認識を考えた場合、少しでも高い認識率を得るためには、システムに用いる語彙や言語モデルの精度が重要なファクターとなる。特に講演や講義を認識対象にした場合、話題が多岐に渡ることや、話し言葉の影響などから、どのような音声に対しても高精度に認識可能な言語モデルを作成することは不可能である。それに対して、本発明では、作業者が誤りを含めた全ての音声認識結果を利用することは想定しておらず、認識誤りを避けながら作業者の欲しい結果だけを積極的に利用する。したがって、ディクテーション目的の音声認識システムのように、言語モデルや語彙の不備による認識誤りが、システム全体に大きく影響することはない。
認識結果記憶手段14は、音声認識手段12により認識された認識結果を記憶する。なお認識結果には、音声認識された結果だけでなく、辞書手段に予め記憶されているある文字及び単語に対する競合候補についてのデータも合わせて記憶しておいてもよい。認識結果は、使用されるか否かに係わらず、認識結果記憶手段14に記憶される。記憶手段の記憶容量が大きければ、発表が行われている間に認識したすべての認識結果を記憶しておいてもよいが、記憶してから予め定めた時間経過すると、使用される可能性が低くなったと考えて、認識結果を認識結果記憶手段14から削除するようにしてもよいのは勿論である。
また画面表示制御手段15は、各手段からの指令を入力としタブレットPCの画面の表示を制御する。本実施の形態の画面表示制御手段15は、図1に示す発表者1が使用するタブレットPC5の画面5Aに表示したデータを保存手段22に保存する際には、データ書き込み手段として機能する。なお図1の画面3には、タブレットPC5の画面5Aに表示した文字のうち、必要なものだけを表示すればよい。なおこの選択は、タブレットPC5に実装した別のプロジェクタ駆動ソフトにより実現可能である。
そして手書き文字検出手段17は、作業者の手書き文字を検出して画面表示制御手段15に手書き文字表示指令を出力する。手書き文字検出手段17としては、光学的読み取り手段を用いて手書き文字を読み取る公知の装置を用いることができる。図1に示すようにタブレットPC5を手書き文字検出手段17として用いる場合には、例えば、Microsoft(登録商標)の Tablet PC Platform SDK(商標)の文字認識エンジンを用いることができる。
手書き文字判別手段18は、手書き文字検出手段17が認識して画面5Aに表示しようとする文字に対応する1種類以上の文字を判別する。手書き文字がいかなる文字に該当するかを判別する技術は、すでに各種の技術が開発されており、いかなる技術を用いることもできる。本実施の形態では、発表者(作業者)は、タブレットPC上の任意の場所に任意の大きさで手書きを行うことができる。即ち文字入力用の複数のセル(長方形領域)への書き込みを強制されないようにしている。これを実現するためには、文字認識に先立ち、まずストロークのセグメンテーション(ストロークを文字単位にグループ化する作業)を行う。図5にセグメンテーションと手書き文字認識の結果の例を示す。日本語では文字が意味的な単位となるので文字単位のセグメンテーション(セグメント化)を行うが、例えばヨーロッパ言語の場合には、語(アルファベットであれば“A”の文字一文字)を単位とするセグメンテーションを行う必要がある。手書き文字判別の結果は、N-bestリストの系列として次の処理段階すなわち選択候補決定手段19へと送られる。本実施の形態では前述の、Microsoft(登録商標)の文字認識エンジンを用いており、セグメンテーション結果に複数の可能性が考えられる場合については考慮していない。なお利用する技術によって、判別精度には差が出ることになる。しかし本実施の形態では、手書き文字を判別できない場合には、後述するように、認識した手書き文字をそのまま表示することになるので、再入力や訂正等を必ず行う必要はない。
選択候補決定手段19は、認識結果記憶手段14に記憶されている認識結果から、手書き文字判別手段18が判別した手書き文字に対応する1種類以上の文字を先頭に含む1以上の文字列を予測する。そして選択候補決定手段19は、予測した1以上の文字列から手書き文字に対応する文字を除いた1以上の文字からなる1以上の文字列構成部分を選択候補として画面上に表示するための選択候補表示指令を画面表示制御手段15に出力する。例えば“音”の手書き文字を判定したときに、認識結果記憶手段14に記憶されている認識結果から、“音声認識”を予測した場合には、手書き文字に対応する“音”の文字を除いた“声認識”が文字列構成部分となる。選択候補決定手段19は、この文字列構成部分“声認識”に含まれる文字を選択候補として画面5Aに表示する選択候補表示指令を出力する。複数の文字列が予測される場合には、複数の文字列構成部分を画面に表示する。
本実施の形態の選択候補決定手段19は、1以上の文字列構成部分に含まれる文字の他に、1以上の文字列構成部分に含まれる文字と競合する文字を選択候補として、画面に表示することができる。音声認識結果が単語を単位として行われる場合には、文字列構成部分を構成する一番競合確率の高い文字と一緒に該一番競合確率の高い単語の競合候補を選択候補として画面5A上に表示するようにしてもよい。競合する文字は、認識結果記憶手段に認識結果と一緒に記憶されていてもよいが、辞書手段13に競合する文字の候補を記憶しておき、辞書手段13から競合する候補を取得するようにしてもよい。すなわち選択候補決定手段19が、例えば“認”の手書き文字の入力が判定されときに、“認識記述”の文字列を予測したとする。この文字列の文字列構成部分“識記述”が、一番競合確率の高い単語によって構成されているものとする。もし認識結果記憶手段14の認識結果から、文字列構成部分“識記述”を構成する一番競合確率の高い単語「記述」に対する競合する候補(例えば「技術」「奇術」)が存在していれば、その競合する候補を選択可能に画面5A上に表示する。例えば図6の3には、一番競合確率の高い文字とその競合する候補とを表示する態様の一例が示されている。なお図6の3では、「認識記述」の文字列の他に「認知問題」の文字列も予測したため、「知問題」を別の文字列構成部分として画面に表示し、併せて「問題」の単語の「競合候補」を選択可能に表示している。競合候補の数は、一つでも、また複数でもよく、さらに競合する候補が無ければ、ゼロであってもよい(すなわち競合候補を出さなくともよい)。
図7に示す例では、競合候補の中から一番競合確率の高い単語の競合確率に近い競合確率を持つ1以上の競合単語を選び、対応する一番競合確率の高い単語を最も上に表示し、この一番競合確率の高い単語に隣接して競合単語を画面上に表示している。すなわち図7の例では、音声認識手段12により認識された一番競合確率の高い単語から構成される文字列である「通常の認識結果」の下に、多数の競合候補の中から文字列の単語(一番競合確率の高い単語)の競合確率に近い競合確率を持つ1以上の競合単語を選び、これを表示している。例えば図7に示す例では、最初の単語について表示された競合候補中、最初に表示された「声」が競合候補の中でもっとも競合確率が高いもので、それよりも下にいくほど競合確率が低い単語となる。なお文字列の下の競合候補のうち、空白はスキップ候補である。このスキップ候補を選択すると、スキップ候補が含まれている文字列の単語は削除される(すなわち使用されない)。このスキップ候補については、前述の緒方淳及び後藤真孝共著の論文に詳しく説明されているので、ここでは詳しい説明は省略する。スキップ候補が選択されると、音声認識でしばしば生じる湧き出し単語(発音されていないのに、発音されたかのように認識されて表示される単語)を、競合単語の選択作業と同じ作業で削除することができる。なおスキップ候補にも競合確率を付与すれば、スキップ候補の表示位置が一定になることがない。そのため競合単語の選択と文字列からの単語の削除の選択を同じレベルで実行することができ、作業者の選択作業に要する時間を更に短縮することができる。
なお図7において、一つ単語の選択が行われると、訂正された単語との関係で見ると、先に決定して画面に表示している競合単語が不適切なものになることもある。そこで一部の単語の選択がなされたときには、その訂正された単語を本来正解である単語として、再度競合単語の選び直しを行って、再度表示する機能を設けてもよい。このような機能を設けると、まだ選択をしていない単語に対する競合単語を、より適正な単語に変更することができるので、後の選択作業が容易になる。なおこのような再度競合単語の選び直しをして選択可能に表示することについても、前述の緒方淳及び後藤真孝共著の論文に説明されている。
次に本実施の形態で採用できる文字の競合候補を選択候補とする場合の決定手法を、図5を参照して説明する。まず手書き文字認識の結果をクエリとして、音声認識手段12で認識して認識結果記憶手段14に記憶したデータ(具体的にはコンフュージョン・ネットワークのデータベース)を検索する。その際、まず一番最近書かれた文字(もしくは語)を取り出してクエリとし、認識結果記憶手段14の対応するデータベース上のコンフュージョン・ネットワークを検索する。もしも多くの選択候補がマッチした場合は、クエリに最近書かれた文字の一つ前の文字を加える。つまり認識結果記憶手段14の対応するコンフュージョン・ネットワークの中から2文字の文字列(文字列構成部分)と同じものを探す。この作業により、一般的にマッチした候補の数は1文字クエリの場合よりも減少する。この作業を繰り返し、マッチする候補がなくなるまでクエリの文字数を多くしていく。図5右の例では、「し」、「たし」、「わたし」、「たわたし」の順で検索を行っていく。最終的にシステムはもっとも長いクエリにマッチした候補を出力とする。この方法では、はじめから検索候補が見つからない場合がある。つまり認識結果記憶手段14のコンフュージョン・ネットワークのデータベースの中に最近書いた文字が存在しない場合である。このような場合、本実施の形態では、代わりに次に尤度の高い文字認識結果を用いる。そしてマッチする検索結果が多かった場合は、先述のように最近の文字からさかのぼってマッチしなくなるまで検索を進めていく。図5右の例では、もしも「し」が見つからなかった場合、「1」、「た1」のように進める。この例では、このような作業を、予め設定してある数(現在の実装では最大3つ)のマッチする検索結果が得られるまで行う。得られた検索結果は尤度の高い順に並べられて、作業者の画面5Aに表示される。なおこの例では、コンフュージョン・ネットワーク上の文字に付随している音声認識時の尤度を単に最終的なソートの目的のみに利用している。しかしながら、検索候補を得る過程でもこれを考慮すれば、性能向上は期待できる。
文字列構成部分(選択候補)に含まれる文字の選択とこの文字と競合する文字を選択するために、文字選択手段20を用いて行われる。なお文字選択手段20は、別に設けてもよいが、本実施の形態では手書き文字入力手段16を用いて、選択候補及び競合候補に線を引くことにより選択を行うことを可能にするように、文字選択手段20が構成されている。
文字確定手段21は、作業者のマニュアル操作により文字列構成部分から選択した文字(選択候補、競合候補)を、作業者の手書き文字に近似したフォントで画面5A上に確定文字として表示するための確定文字表示指令を出力する。
なお文字確定手段21により毎回単語を確定する必要はない。文字確定手段21が、単語を確定しない場合には、確定文字表示指令は出力されることがない。画面表示制御手段15は、手書き文字検出手段17から出力される手書き文字表示指令、選択候補決定手段19から出力される選択候補表示指令及び文字確定手段21から出力される確定文字表示指令を入力とする。そして画面表示制御手段15は、手書き文字表示指令が入力されると手書き文字を画面5Aに表示し、選択候補表示指令が入力されると競合候補を含む選択候補を画面上に表示し、確定文字表示指令が入力されると確定文字を手書き文字に代えて画面5A上に表示する。画面表示制御手段15は、確定文字表示指令が入力されないときには、既に画面5Aに表示された確定文字と一緒に手書き文字をそのまま画面上に表示し続ける。
具体的には、例えば図6に示すように、選択候補決定手段19の出力に基づいて、複数の予測した選択候補が発表者(作業者)の最新の書き込み位置の周辺に表示される(図6の3)。図6の3の例では、2つの文字列構成部分(選択候補)を画面5A上に表示している。すなわちこの例では、「認」の文字の手書き入力に対して、次の文字として「識」を予測して競合候補を含む選択候補と、次の文字として「知」を予測して競合候補を含む選択候補とを一緒に表示している。
また図7は、得られた発言の音声認識結果を複数の競合候補とともに尤度の高い順に並べた文字列構成部分の表示態様の異なる例を示している。図7に示す表示は、音声認識の誤り訂正用インタフェース「音声訂正」(緒方淳,後藤真孝:“音声訂正:“CHOICE” on Speech”,情処研報2004-SLP-54-54,pp.319-324,2004.、緒方淳,後藤真孝:“音声訂正:認識誤りを選択操作だけで訂正ができる新たな音声入力インタフェース”,WISS 2004論文集,pp.47-52,2004.)の競合候補の表示を応用したものである。
これらの予測結果は、過去の発話の音声認識結果に対応しており、直前の手書き文字認識結果に基づき音声認識結果データベースである認識結果記憶手段14から検索された「最後に書かれた文字や語から始まるような過去の発言」である。
本実施の形態によれば、画面5A上に選択候補が表示されたときに、発表者1はそれらを選択して手書き文字に代えて挿入するか、無視して手書き作業を続行するかを任意に決定できる。選択候補の選択は、例えば、図6の4b及び図7に示すように、作業者のマニュアル操作による一筆書きでリスト中の選択候補を入力用のペンでなぞっていくクロッシング・インターフェース(crossing interface)で行うことができる。そして選択された文字列構成部分に対応する文字列が、図6の4b及び5bに示すように、手書き中の画面5Aの手書き領域(白板領域)に、発表者1の筆跡を模したフォントを用いて挿入される。すなわち「識技術」が選択された場合には、「認識技術」の電子データが、「認」の手書き文字に代えて画面5A上に表示される。
なおこのようなフォントとしては、例えば、「マイフォントサービス(商標)」(TechnoAdvance,. Co Ltd., http://www.techno-advance.co.jp/product/myfont/)を利用して用意することができる。フォントの表示サイズは、直前の手書き文字を分析し自動的に決定する。
また予測した選択候補が役に立たないとき又は選択候補を選択せずに手書きを継続する場合には、図6の4aに示すように、再び手書きを始めることにより、選択候補は消去される。図3の実施の形態では、選択候補決定手段19が、手書き文字判別手段18から新たな判別結果の入力を得ることにより、選択候補が選択されずに手書きが継続されたことを判定して、画面表示制御手段15に前の選択候補の消去を指令する消去指令を出力する。消去指令が出力されると、保存手段22は、手書き文字に対する選択候補が選択されていないときには、前の手書き文字に対応する手書き文字判別手段18の判定結果または選択候補を保存する。また選択候補決定手段19は、手書き文字判別手段18から新たな判別結果の入力が一定時間の間入力されない場合にも、何らかの理由で手書き入力が休止されていると判定して、画面表示制御手段15に前の選択候補の消去を画面表示制御手段15に指令する。なおこの一定時間は、作業者(この場合には発表者)が自由に設定できるのが好ましい。この場合においても、手書き文字に関して選択候補の選択が行われていなければ、前述と同様に、保存手段22は判定結果または選択候補の保存を指令する。このような機能を備えていると、他の余分な操作をすることなく、作業者は選択候補を無視できる。
保存手段22は、画面5Aに表示された手書き文字と確定文字からなる文字データを、再利用可能に保存する。手書き文字の保存は、例えば、手書き文字検出手段17の認識方法が、イメージ認識であれば、手書き文字はイメージデータとして保存される。認識方法に応じて、手書き文字の保存条件は任意に定めることができる。このような保存手段22を備えていれば、保存内容を表示装置の画面3に再度表示することができるので、時と場所とが変わったときに、手書き入力を繰り返し行う必要がなくなる。なお手書き文字を文字データの中に残した状態で保存をすると、手書き文字の存在が原因となって、テキストデータのように後になって検索をすることができないかまたは検索精度が悪くなるといった問題が生じる。そこでこのような問題を解決するためには、本実施の形態では、前述のように手書き文字と一緒に手書き文字判別手段18が判別した手書き文字に対応する文字または選択候補決定手段19が決定した選択候補についてのデータを一緒に保存手段22に保存している。このようにすると、手書きのまま残された文字に付随するデータが検索の対象となるため、保存データに手書き文字のデータを含めていても、後から検索が充分に可能になる。保存手段22に保存したデータの検索は、公知の検索ソフトを用いて行うことができる。
図4に示したフローチャートは、図3に示した実施の形態の装置をコンピュータを利用し実現する場合に用いるプログラムのアルゴリズムを示している。ステップST1では、手書き入力があるか否かの判定が行われ、手書き入力がなければ、ステップST2へと進んで音声入力があるか否かの判定が行われる。音声入力があれば、ステップST3へと進んで音声認識が実行される。ステップST2及びST3によって、本発明の方法及びプログラムの音声認識ステップ及び音声認識手順並びに認識結果記憶ステップ及び認識結果記憶手順が構成され、図3の装置の音声認識手段12及び認識結果記憶手段14が実現される。ステップST3では、予め定めた判定手法に従って、発表者の声を入力する音声入力手段11から入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする。ステップST4では、認識された認識結果を認識結果記憶手段14に記憶する。音声入力がある毎に上記ステップST1乃至ステップST4が繰り返される。
手書き入力があると、ステップST1からステップST11へと進み、手書き文字認識が実行され、手書き文字が画面表示され(ステップST12)、手書き文字の判別が実行される(ステップST13)。これらステップST11乃至ステップST13は、本発明の方法の手書き文字認識ステップと手書き文字判別ステップを構成し、本発明のプログラムの手書き文字認識手順と手書き文字判別手順とを構成し、図3の装置の手書き文字検出手段17と手紙文字判別手段18を実現する。ステップST11では、作業者の手書き文字を検出して手書き文字表示指令を出力する。ステップST12では、手書き文字に対応する文字を判別する。
ステップST14では、選択候補の決定と表示が実行される。このステップST14は、本発明の方法の選択候補決定ステップと画面表示ステップの一部を構成し、本発明のプログラムの選択候補決定手順と画面表示手順の一部とを構成し、このステップで図3の装置の選択候補決定手段19と画面表示制御手段15の一部とが実現される。ステップST14では、認識結果記憶手段に記憶されている認識結果から、ステップST13で判別した手書き文字に対応する文字を先頭に含む1以上の文字列を予測し、予測した1以上の文字列から手書き文字に対応する文字を除いた1以上の文字からなる1以上の文字列構成部分を選択候補として画面上に表示する。
次にステップST15で表示された選択候補のマニュアル操作による選択の有無の確認がなされ、選択がなされると確定文字の表示がステップST16で実行される。これらステップST15及びステップST16は、本発明の方法の単語確定ステップと画面表示ステップの一部を構成し、本発明のプログラムの単語確定手順と画面表示手順の一部を構成し、図3の装置の文字確定手段21と画面表示制御手段15の一部とを実現する。ステップST16では、文字列構成部分から作業者のマニュアル操作により選択した文字を、ステップST13で判別した手書き文字に対応する文字と一緒に、作業者の手書き文字に近似したフォントで画面上に確定文字として表示する。
ステップST15で選択候補の選択がなされなかったとき及びステップST16で確定文字の表示がなされたときには、ステップST17へと進み、新規文字の入力が確認される。新規文字の入力があれば、ステップST18へと進んだ後、ステップST19へと進み、ステップST11に戻る。ステップST18では、手書き文字と一緒にステップST13で判別した手書き文字に対応する文字についてのデータまたは選択候補が一緒に保存手段22に保存される。このステップでは、手書き文字を保存するデータに対して検索可能な電子データの付加が実行される。そしてステップST19では、画面に表示した選択候補の消去を行う。これにより次の文字入力が継続可能になる。またステップST17で新規文字入力が一定時間内に無いことが確認されると、ステップST21及びステップST22へと進みステップST1へ戻る。すなわち手書き文字入力が検出された後、または確定文字の表示がされた後、新規の手書き文字入力が検出されると、前の手書き文字入力はステップST18で保存され、ステップST19で画面に表示されている前の手書き文字入力に対する選択候補は消去される(画面から消される)。なおステップST18に進んでも、すでに手書き文字がステップST16で確定されて電子データに置き換わっている場合がある。その場合は、ステップST18での手書き文字の保存は行われない。
新規文字の入力が無い場合には、ステップST20へと進んで、一定時間が経過したか否かの判定が行われる。ステップST20は、ある程度の長さの期間にわたって、特に手書き入力が無い期間が続いた場合の処理である。選択候補の選択がなされずにある程度時間が経過すると、ステップST21では手書き文字の保存がなされると一緒にステップST13で判別した手書き文字に対応する文字についてのデータまたは選択候補が一緒に保存手段22に保存される。なお手書き文字が既にステップST16で確定文字に変わっている場合は、ステップST21は実行されない。そしてその後ステップST22へと進んで、画面に表示された選択候補が消去される。これによって長期間放置された場合には、まだ選択がなされていない場合でも選択ができなくなくなる。
ステップST17乃至ステップST22は、本発明の方法では、選択候補決定ステップ及び保存ステップの中で実行され、選択候補決定ステップ及び保存ステップの一部を構成する。またこれらのステップは、本発明のプログラムでは、選択候補決定手順及び保存手順の中で実行され、選択候補決定手順及び保存手順の一部を構成する。さらに図3の装置では、これらステップST17乃至ステップST22は選択候補決定手段19の一部と保存手段22の一部を実現する。
ステップST20で一定時間の経過が判定するまでは、ステップST23へと進んで画面に表示されたか確定された文字データを保存することによって指示の有無が判定される。もし保存の指示がなされると、ステップST24へと進んで保存が実行される。このステップST24での保存でも、手書き文字の保存がなされるのと一緒にステップST13で判別した手書き文字に対応する文字についてのデータまたは選択候補が一緒に保存手段22に保存される。なおステップST23及びステップST24によって、本発明の方法で採用する保存ステップの一部及び選択候補決定ステップの一部と、本発明のプログラムの保存手順の一部及び選択候補決定ステップの一部とが構成され、図3に示した装置の選択候補決定手段19の一部と保存手段22の一部とが実現されている。
ステップST24での保存が行われた後は、ステップST25で終了するか否かの判定がなされ、終了であればエンドとなる。終了にしない場合には、ステップST26で、選択候補の消去が実行された後、ステップST1へと戻る。
図4のフローチャートは、本発明の方法を、コンピュータを用いて実施し、また本発明の装置の機能構成手段の大部分をコンピュータを用いて実現する場合のプログラムのアルゴリズムの一例を示しているが、図4に示したアルゴリズム以外の他のアルゴリズムを用いることができるのは勿論である。
上記の実施の形態によれば、講演者(発表者)1は自由に発話しながらタブレットPC5上に手書き入力を行い、入力結果は表示装置の画面3に表示される。書くことを少し静止すると、音声認識と手書き文字認識結果に基づき次に書く可能性が高い文字、語、文(文字列)の一部(文字列構成部分)を選択候補として提示する。これらの選択候補は書く作業の邪魔にならないように画面5Aの上に置かれる手の周りに表示される(図6の3)。選択候補は過去の発言履歴(認識結果記憶手段14に記憶した内容)や予め設定しておいた辞書手段13の辞書の内容から生成される。そしてもし発表者が予測を利用したくないときや、正しい予測候補が得られない場合はそのまま手書き作業を継続できる(図6の4a)。そして入力したい候補を発見できた場合は、選択候補をなぞるジェスチャーにより、それを画面上に挿入できる(図6の4b,5b)。画面に表示される文字は、発表者の筆跡に似せて作られたフォントで表示される。このようなことから、本実施の形態によれば、選択候補を選択することなく、手書き文字を残したままで、手書き文字入力の表示を支援しながら入力結果の表示を行うことができる。
図1に示したように、本発明の装置及び方法並びにプログラムは、受講者2が自分のタブレットPC9を用いて自分のノートを作製する場合にも利用できる。この場合には、受講者2が作業者となる。すなわち発表者の音声認識結果は逐次受講者にも分配され、共有される。共有されている音声認識結果は、各ユーザ(発表者、受講者)がこれまでに述べたような予測付の手書き入力を行う際にデータベースとして用いられる。前述の発表者1が手書き入力する場合と同様に、受講者2の手書き文字認識が行われ、発表者1の場合と同様に、受講者2も本発明の支援を受けて、スムーズに手書き文字入力を行うことができる。したがって本発明によれば、作業者が受講者2であれば、発表者1の発言というある種のコンテクスト情報が、入力支援というアンビエントな形で共有されるため、各ユーザの主体性を反映した資料作成が可能である。
なお本発明では、共有する対象が音声認識結果に限定されている。しかし、手書き認識情報、各ユーザがどのような認識候補を採用して挿入したか、といった情報も共有することは可能である。
上記実施の形態は、見方を変えると、図2のように、主に音声認識部と手書き文字入力管理部とで構成されているものと考えることができる。この場合、音声認識部は、ユーザの発話を常時認識しており、手書き入力予測候補の元となるコンフュージョン・ネットワーク(ambient contextの実体となるデータ)を生成して出力する。それと平行して、手書き文字入力管理部では、ユーザの手書き文字を認識し、その先の予測候補を画面表示する。通常の使用では、発表者(講演者)のみが音声認識部、手書き文字入力管理部の両方用い、受講者(聴衆)は後者のみを用いる。これらの構成要素は別々のプロセスとして、ネットワーク(LAN)上の複数の計算機で負荷分散して実行することが可能である。図1の例では、音声認識部をワークステーションで実行し、手書き文字入力管理部をタブレットPC上で実行している。なおすべてをタブレットPCで実行することも理論的は可能であるが、計算速度を考慮すると付加分散することが好ましい。プロセス間の通信には、音声言語情報をネットワーク上で効率よく共有することを可能にするネットワークプロトコルRVCP (Remote Voice Control Protocol)(後藤真孝,伊藤克亘,秋葉友良,速水悟:“音声補完:音声入力インタフェースへの新しいモダリティの導入”,コンピュータソフトウェア,Vol.19,No.4,pp.10-21,2002.)を用いることができる。また音声認識部では、効率的なN-best探索手法を用いることにより、コンフュージョン・ネットワークの生成・送信をリアルタイムで実行することが可能になる。この点については、前述の緒方淳,後藤真孝共著の“音声訂正:“CHOICE” on Speech”(情処研報2004-SLP-54-54,pp.319-324,2004.)と緒方淳, 後藤真孝共著の“音声訂正:認識誤りを選択操作だけで訂正ができる新たな音声入力インタフェース”(WISS 2004論文集,pp.47-52,2004.)に記載の技術を利用する。
そして音声認識部は、逐次入力される発表者の発話に対して認識を行い、図7に示されるようなシンプルな入力予測候補(選択候補)をリアルタイムで生成することが好ましい。講演者により発声が開始されると、発声中のパワー情報をもとに発話区間が検出され、得られた区間ごとに認識処理が実行される。ここで音声認識部は、入力発話に対してN-best探索を行い、何らかの中間結果(複数候補)を生成する。通常、大語彙連続音声認識における中間結果(例えば単語グラフ、N-bestリスト)は非常に膨大な数の候補を含んでおり、図7のようなシンプルな入力予測候補(選択候補)を表現することは不可能である。そこで、前述の技術を利用すれば、入力予測候補(選択候補)の表現はスムーズに実現できる。
手書き文字入力管理部では、ユーザは例えば、電子白板上の任意の場所に任意の大きさで手書きを行うことができる。即ち、福島俊一,山田洋志共著の“予測ペン入力インタフェースとその手書き操作削減効果”(情処学論,Vol. 37,No. 1,pp. 23〜30,1996.)(非特許文献16)などの多くの従来の手書き文字認識によるテキスト入力システムとは異なり、文字入力用のセル(長方形領域)への書き込みを強制されないようにするのが好ましい。これを実現するためには、文字認識に先立ち、まずストロークのセグメンテーション(ストロークを文字単位にグループ化する作業)を行う必要がある。前述の図5は、セグメンテーションと手書き文字認識の結果の一例を示している。日本語では文字が意味的な単位となるので文字単位のセグメンテーションを行うが、例えばヨーロッパ言語の場合には、語を単位とするセグメンテーションを行う必要がある。手書き文字認識の結果は、N-bestリストの系列として次の処理段階に送られる。現在の実装では、Microsoft(登録商標) Tablet PC Platform SDKの文字認識エンジンを用いる。そして手書き文字認識の結果をクエリとしてconfusion networkのデータベースを検索して選択候補を提示する。なおこの検索方法については、図3の実施の形態の説明において、図5を参照して説明したので省略する。
1 発表者
2 受講者
3 画面
5,9 タブレットPC
5A 画面
11 音声入力手段
12 音声認識手段
13 辞書手段
14 認識結果記憶手段
15 画面表示制御手段
16 手書き文字入力手段
17 手書き文字検出手段
18 手書き文字判別手段
19 選択候補決定手段
20 文字選択手段
21 文字確定手段
22 保存手段
2 受講者
3 画面
5,9 タブレットPC
5A 画面
11 音声入力手段
12 音声認識手段
13 辞書手段
14 認識結果記憶手段
15 画面表示制御手段
16 手書き文字入力手段
17 手書き文字検出手段
18 手書き文字判別手段
19 選択候補決定手段
20 文字選択手段
21 文字確定手段
22 保存手段
Claims (15)
- 発表者の声を入力するための音声入力手段と、
予め定めた判定手法に従って音声認識を行う音声認識手段と、
前記音声認識手段により認識された認識結果を記憶する認識結果記憶手段と、
画面の表示を制御する画面表示制御手段と、
作業者の手書き文字を検出して前記画面表示制御手段に手書き文字表示指令を出力する手書き文字検出手段と、
前記手書き文字に対応する文字を判別する手書き文字判別手段と、
前記認識結果記憶手段に記憶されている前記認識結果から、前記手書き文字判別手段が判別した前記手書き文字に対応する1種類以上の文字を先頭に含む1以上の文字列を予測し、予測した前記1以上の文字列から前記手書き文字に対応する文字を除いた1以上の文字からなる1以上の文字列構成部分に含まれる文字を選択候補として前記画面上に表示するための選択候補表示指令を前記画面表示制御手段に出力する選択候補決定手段と、
前記文字列構成部分から前記作業者のマニュアル操作により選択した文字を、前記手書き文字判別手段が判別した前記手書き文字に対応する文字と一緒に、前記作業者の手書き文字に近似したフォントで前記画面上に確定文字として表示するための確定文字表示指令を前記画面表示制御手段に出力する文字確定手段とを備え、
前記画面表示制御手段は、前記手書き文字表示指令が入力されると前記手書き文字を前記画面に表示し、前記選択候補表示指令が入力されると前記選択候補を前記画面上に表示し、前記確定文字表示指令が入力されると前記確定文字を前記手書き文字に代えて前記画面上に表示し、前記確定文字表示指令が入力されないときには、既に前記画面に表示された前記確定文字と一緒に前記手書き文字をそのまま前記画面上に表示し続けることを特徴とする手書き文字入力表示支援装置。 - 発表者の音声を入力するための音声入力手段と、
予め定めた判定手法に従って音声認識を行う音声認識手段と、
前記音声認識手段により認識された認識結果を記憶する認識結果記憶手段と、
画面の表示を制御する画面表示制御手段と、
作業者の手書き文字を検出して前記画面表示制御手段に手書き文字表示指令を出力する手書き文字検出手段と、
前記手書き文字に対応する文字を判別する手書き文字判別手段と、
前記認識結果記憶手段に記憶されている内容に基づいて、前記手書き文字判別手段が判別した前記手書き文字に対応する1種類以上の文字を先頭に含む1以上の文字列を予測し、予測した前記1以上の文字列から前記手書き文字に対応する文字を除いた1以上の文字からなる1以上の文字列構成部分に含まれる文字と、前記1以上の文字列構成部分に含まれる文字と競合する文字を選択候補として、前記画面に表示するための選択候補表示指令を前記画面表示制御手段に出力する選択候補決定手段と、
前記作業者のマニュアル操作により前記選択候補から選択した文字を、前記手書き文字判別手段が判別した前記手書き文字に対応する文字と一緒に、前記作業者の手書き文字に近似したフォントで前記画面上に確定文字として表示するための確定文字表示指令を前記画面表示制御手段に出力する文字確定手段とを備え、
前記画面表示制御手段は、前記手書き文字表示指令が入力されると前記手書き文字を前記画面に表示し、前記選択候補表示指令が入力されると前記選択候補を前記手書き文字に隣接して前記画面上に表示し、前記確定文字表示指令が入力されると前記確定文字を前記手書き文字に代えて前記画面上に表示し、前記確定文字表示指令が入力されないときには、既に前記画面に表示された前記確定文字と一緒に前記手書き文字をそのまま前記画面上に表示し続けることを特徴とする手書き文字入力表示支援装置。 - 前記画面に表示された前記手書き文字と前記確定文字とからなる文字データを、再利用可能に保存する保存手段を更に備えている請求項1または2に記載の手書き文字入力表示支援装置。
- 前記手書き文字の文字データと一緒に前記手書き文字判別手段が判別した前記手書き文字に対応する前記1種類上の文字についてのデータまたは前記選択候補が前記保存手段に保存される請求項3に記載の手書き文字入力表示支援装置。
- 前記選択候補決定手段は、新たに手書き文字が入力されたとき及び前記選択候補を表示してから予め定めた一定時間が経過したときに、前記画面に表示している前記選択候補を消去する指令を前記画面表示制御手段に出力するように構成されている請求項1に記載の手書き文字入力表示支援装置。
- コンピュータを利用して、音声を認識し且つ手書き文字入力を認識し、音声認識の結果を利用して手書き文字入力を支援する手書き文字入力表示支援方法であって、
予め定めた判定手法に従って音声認識を行う音声認識ステップと、
前記音声認識ステップにより認識された認識結果を認識結果記憶手段に記憶する認識結果記憶ステップと、
作業者の手書き文字を検出して手書き文字表示指令を出力する手書き文字認識ステップと、
前記手書き文字に対応する文字を判別する手書き文字判別ステップと、
前記認識結果記憶手段に記憶されている前記認識結果から、前記手書き文字判別ステップで判別した前記手書き文字に対応する1種類以上の文字を先頭に含む1以上の文字列を予測し、予測した前記1以上の文字列から前記手書き文字に対応する文字を除いた1以上の文字からなる1以上の文字列構成部分に含まれる文字を選択候補として前記画面上に表示するための選択候補表示指令を出力する選択候補決定ステップと、
前記作業者のマニュアル操作により前記選択候補から選択した文字を、前記手書き文字判別ステップで判別した前記手書き文字に対応する文字と一緒に、前記作業者の手書き文字に近似したフォントで前記画面上に確定文字として表示するための確定文字表示指令を出力する単語確定ステップと、
前記手書き文字表示指令が出力されると前記手書き文字を前記画面に表示し、前記選択候補表示指令が出力されると前記選択候補を前記画面上に表示し、前記確定文字表示指令が出力されると前記確定文字を前記手書き文字に代えて前記画面上に表示し、前記確定文字表示指令が出力されないときには、既に前記画面に表示された前記確定文字と一緒に前記手書き文字をそのまま前記画面上に表示し続ける画面表示ステップとからなる手書き文字入力表示支援方法。 - 前記選択候補決定ステップでは、前記1以上の文字列構成部分に含まれる文字と、前記1以上の文字列構成部分に含まれる文字と競合する文字を選択候補として、前記画面に表示するための選択候補表示指令を出力することを特徴とする請求項6に記載の手書き文字入力表示支援方法。
- 前記画面に表示された前記手書き文字と前記確定文字とからなる文字データを、再利用可能に保存する保存ステップを更に備えている請求項6または7に記載の手書き文字入力表示支援方法。
- 前記手書き文字の文字データと一緒に前記手書き文字判別手段が判別した前記手書き文字に対応する前記1種類以上の文字についてのデータまたは前記選択候補が保存される請求項8に記載の手書き文字入力表示支援方法。
- 前記選択候補決定ステップでは、新たに手書き文字が入力されたとき及び前記選択候補を表示してから予め定めた一定時間が経過したときに、前記画面に表示している前記選択候補を消去する消去指令を出力し、前記画面表示ステップでは前記消去指令を受けて前記選択候補の表示を消去する請求項6に記載の手書き文字入力表示支援方法。
- 音声を認識し且つ手書き文字入力を認識し、音声認識の結果を利用して手書き文字入力を支援する手書き文字入力表示支援装置を、コンピュータを用いて実現するために、以下の手順をコンピュータに実行させるためのプログラムであって、
予め定めた判定手法に従って音声認識を行う音声認識手順と、
前記音声認識手順により認識された認識結果を認識結果記憶手段に記憶する認識結果記憶手順と、
作業者の手書き文字を検出して手書き文字表示指令を出力する手書き文字認識手順と、
前記手書き文字に対応する文字を判別する手書き文字判別手順と、
前記認識結果記憶手段に記憶されている前記認識結果から、前記手書き文字判別手順で判別した前記手書き文字に対応する1種類以上の文字を先頭に含む1以上の文字列を予測し、予測した前記1以上の文字列から前記手書き文字に対応する文字を除いた1以上の文字からなる1以上の文字列構成部分に含まれる文字を選択候補として前記画面上に表示するための選択候補表示指令を出力する選択候補決定手順と、
前記作業者のマニュアル操作により前記選択候補から選択した文字を、前記手書き文字判別手順で判別した前記手書き文字に対応する文字と一緒に、前記作業者の手書き文字に近似したフォントで前記画面上に確定文字として表示するための確定文字表示指令を出力する単語確定手順と、
前記手書き文字表示指令が出力されると前記手書き文字を前記画面に表示し、前記選択候補表示指令が出力されると前記選択候補を前記画面上に表示し、前記確定文字表示指令が出力されると前記確定文字を前記手書き文字に代えて前記画面上に表示し、前記確定文字表示指令が出力されないときには、既に前記画面に表示された前記確定文字と一緒に前記手書き文字をそのまま前記画面上に表示し続ける画面表示手順とを前記コンピュータに実行させるためのプログラム。 - 前記選択候補決定手順では、前記1以上の文字列構成部分に含まれる文字と、前記1以上の文字列構成部分に含まれる文字と競合する文字を選択候補として、前記画面に表示するための選択候補表示指令を出力することを特徴とする請求項11に記載のプログラム。
- 前記画面に表示された前記手書き文字と前記確定文字とからなる文字データを、再利用可能に保存する保存手順を更にコンピュータに実行させる請求項11または12に記載のプログラム。
- 前記手書き文字の文字データと一緒に前記手書き文字判別手段が判別した前記手書き文字に対応する前記1種類以上の文字についてのデータまたは前記選択候補が保存される請求項13に記載のプログラム。
- 前記選択候補決定手順では、新たに手書き文字が入力されたとき及び前記選択候補を表示してから予め定めた一定時間が経過したときに、前記画面に表示している前記選択候補を消去する消去指令を出力し、
前記画面表示ステップでは前記消去指令が入力されると前記選択候補を消去する請求項11に記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005199464A JP2007018290A (ja) | 2005-07-07 | 2005-07-07 | 手書き文字入力表示支援装置及び方法並びにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005199464A JP2007018290A (ja) | 2005-07-07 | 2005-07-07 | 手書き文字入力表示支援装置及び方法並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007018290A true JP2007018290A (ja) | 2007-01-25 |
Family
ID=37755409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005199464A Pending JP2007018290A (ja) | 2005-07-07 | 2005-07-07 | 手書き文字入力表示支援装置及び方法並びにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007018290A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008299431A (ja) * | 2007-05-29 | 2008-12-11 | Casio Comput Co Ltd | 手書き文字入力装置およびその制御プログラム |
JP2009169139A (ja) * | 2008-01-17 | 2009-07-30 | Alpine Electronics Inc | 音声認識装置 |
WO2011074465A1 (ja) * | 2009-12-15 | 2011-06-23 | 京セラ株式会社 | 携帯電子機器及び携帯電子機器の制御方法 |
JP2016071382A (ja) * | 2014-09-26 | 2016-05-09 | 株式会社東芝 | 電子機器、方法及びプログラム |
US11250253B2 (en) | 2018-06-19 | 2022-02-15 | Ricoh Company, Ltd. | Handwriting input display apparatus, handwriting input display method and recording medium storing program |
WO2022215162A1 (ja) * | 2021-04-06 | 2022-10-13 | 日本電信電話株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07311656A (ja) * | 1994-05-17 | 1995-11-28 | Toshiba Corp | マルチモーダル文字入力装置 |
JPH08221408A (ja) * | 1995-02-15 | 1996-08-30 | Toshiba Corp | 文字認識方法、仮名漢字変換方法及び情報処理装置 |
JPH0944600A (ja) * | 1995-08-01 | 1997-02-14 | Toshiba Corp | オンライン文字認識に於ける入力文字予測方法、及びその装置 |
JP2000099635A (ja) * | 1998-09-17 | 2000-04-07 | Toshiba Corp | 文字列予測装置及び文字列予測方法 |
JP2003233825A (ja) * | 2002-02-06 | 2003-08-22 | Victor Co Of Japan Ltd | 文書処理装置 |
-
2005
- 2005-07-07 JP JP2005199464A patent/JP2007018290A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07311656A (ja) * | 1994-05-17 | 1995-11-28 | Toshiba Corp | マルチモーダル文字入力装置 |
JPH08221408A (ja) * | 1995-02-15 | 1996-08-30 | Toshiba Corp | 文字認識方法、仮名漢字変換方法及び情報処理装置 |
JPH0944600A (ja) * | 1995-08-01 | 1997-02-14 | Toshiba Corp | オンライン文字認識に於ける入力文字予測方法、及びその装置 |
JP2000099635A (ja) * | 1998-09-17 | 2000-04-07 | Toshiba Corp | 文字列予測装置及び文字列予測方法 |
JP2003233825A (ja) * | 2002-02-06 | 2003-08-22 | Victor Co Of Japan Ltd | 文書処理装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008299431A (ja) * | 2007-05-29 | 2008-12-11 | Casio Comput Co Ltd | 手書き文字入力装置およびその制御プログラム |
JP2009169139A (ja) * | 2008-01-17 | 2009-07-30 | Alpine Electronics Inc | 音声認識装置 |
WO2011074465A1 (ja) * | 2009-12-15 | 2011-06-23 | 京セラ株式会社 | 携帯電子機器及び携帯電子機器の制御方法 |
JP2011128704A (ja) * | 2009-12-15 | 2011-06-30 | Kyocera Corp | 携帯電子機器及び携帯電子機器の制御方法 |
US8977319B2 (en) | 2009-12-15 | 2015-03-10 | Kyocera Corporation | Portable electronic device and method for controlling portable electronic device |
JP2016071382A (ja) * | 2014-09-26 | 2016-05-09 | 株式会社東芝 | 電子機器、方法及びプログラム |
US11250253B2 (en) | 2018-06-19 | 2022-02-15 | Ricoh Company, Ltd. | Handwriting input display apparatus, handwriting input display method and recording medium storing program |
WO2022215162A1 (ja) * | 2021-04-06 | 2022-10-13 | 日本電信電話株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4416643B2 (ja) | マルチモーダル入力方法 | |
US8457959B2 (en) | Systems and methods for implicitly interpreting semantically redundant communication modes | |
JP3848319B2 (ja) | 情報処理方法及び情報処理装置 | |
KR102390940B1 (ko) | 음성 인식을 위한 컨텍스트 바이어싱 | |
US9093072B2 (en) | Speech and gesture recognition enhancement | |
US20150170648A1 (en) | Ebook interaction using speech recognition | |
WO2006054724A1 (ja) | 音声認識装置及び方法ならびにプログラム | |
JP2006351028A (ja) | 音声認識中に可変数の代替ワードを表示する方法及びシステム | |
Kumar et al. | Voice typing: a new speech interaction model for dictation on touchscreen devices | |
EP2548201A1 (en) | Enhanced speech-to-speech translation system and methods | |
Delgado et al. | Spoken, multilingual and multimodal dialogue systems: development and assessment | |
JP2007018290A (ja) | 手書き文字入力表示支援装置及び方法並びにプログラム | |
US11922726B2 (en) | Systems for and methods of creating a library of facial expressions | |
US20230177878A1 (en) | Systems and methods for learning videos and assessments in different languages | |
Ciobanu et al. | Speech recognition and synthesis technologies in the translation workflow | |
US20020152075A1 (en) | Composite input method | |
JP3104661B2 (ja) | 日本語文章作成装置 | |
CN114492375A (zh) | 文本处理方法和装置、电子设备以及计算机可读存储介质 | |
US11257484B2 (en) | Data-driven and rule-based speech recognition output enhancement | |
Suhm | Multimodal interactive error recovery for non-conversational speech user interfaces | |
JP4229627B2 (ja) | ディクテーション装置、方法及びプログラム | |
TWI752437B (zh) | 基於至少雙音素的語音輸入操作方法及電腦程式產品 | |
CN113393831B (zh) | 基于至少双音素的语音输入操作方法及计算机可读介质 | |
KR102305184B1 (ko) | 다양한 입력 방식 전환을 통한 전자문서 표시 방법 및 장치 | |
JP2009080614A (ja) | 表示制御装置、プログラム及び表示システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080624 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110308 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110628 |