JP2007018290A

JP2007018290A - 手書き文字入力表示支援装置及び方法並びにプログラム

Info

Publication number: JP2007018290A
Application number: JP2005199464A
Authority: JP
Inventors: Takeo Igarashi; 健夫五十嵐; Kazutaka Kurihara; 一貴栗原; Masataka Goto; 真孝後藤; Atsushi Ogata; 淳緒方
Original assignee: National Institute of Advanced Industrial Science and Technology AIST; University of Tokyo NUC
Current assignee: National Institute of Advanced Industrial Science and Technology AIST; University of Tokyo NUC
Priority date: 2005-07-07
Filing date: 2005-07-07
Publication date: 2007-01-25

Abstract

【課題】手書き入力作業を阻害することなく、音声認識の結果を、手書き文字表示の支援に利用することができる手書き文字入力表示支援装置を提供する。
【解決手段】選択候補決定手段１９が、認識結果記憶手段１４に記憶されている認識結果から、手書き文字判別手段１８が判別した手書き文字に対応する文字を先頭に含む１以上の文字列を予測する。予測した１以上の文字列から手書き文字に対応する文字を除いた１以上の文字からなる１以上の文字列構成部分を選択候補として画面５Ａ上に表示する。文字列構成部分から選択した文字を、手書き文字判別手段１８が判別した手書き文字に対応する文字と一緒に、作業者の手書き文字に近似したフォントで画面５Ａ上に表示する。画面表示制御手段１５は、確定文字表示指令が入力されないときには、確定文字と一緒に手書き文字をそのまま画面５Ａ上に表示し続ける。
【選択図】図３

Description

本発明は、音声認識結果を利用して、画面に表示する手書き文字の入力表示作業を支援する手書き文字入力表示支援装置及び方法並びにプログラムに関するものである。

例えば、大学等における講義においては、講演者・講師が黒板に情報を書き込みながら話を進め、聴衆・学生がそれを見聞きしながら各自のノートにまとめていく。これは今日においても日常的に繰り返されるコミュニケーション様式の一つである。近年の技術進歩により講義において講演者や聴衆をサポートする様々なシステムの開発が盛んになってきた。例えば、事前にスライド資料を用意し、スライド資料を電子的に聴衆・学生に対して順に示していく手法は一般的になっている。一方で講義の進行中において、資料を作成し、それを聴衆・学生に対して提示するという講義本来のスタイルを、電子的に支援する手法の研究も進められている。

例えば、非特許文献１（Schilit et al.: Beyond Paper: Supporting Active Reading with Free Form Digital Ink Annotations. CHI’98，pp.249-256，1998.）は、「書く」という作業は単に準備されたスライド資料を見せるだけの講義やプレゼンテーションに比べて、より柔軟であり、聴衆が集中して取り組めるために優れているという結果を発表している。「書く」ことをテーマにした研究として、事前に作ったスライド資料に対して発表時に追加的に電子ペンによる書き込みを行えるようにすることが、非特許文献２（Kam et al.: A System for Cooperative and Augmented Note-Taking in Lectures. CHI’05，pp.531-540，2005.）及び非特許文献３（Anderson et al.: A Study of Digital Ink in Lecture Presentation. CHI’04，pp.567-574，2004.）に発表されている。また、電子ペンによる資料作成作業自体を扱った研究も発表されている［非特許文献４（Elrod et al.: Liveboard: A Large Interactive Display Supporting Group meetings, Presentations, and Remote Collaboration. CHI’92，pp.599-607，1992.）、非特許文献５（Denoue et al.: Shared Freeform Input for Note Taking across Devices. CHI’03，pp.170-171，2003.）、非特許文献６（Stifelman et al.: The Audio Notebook. CHI’01，pp.182.189，2001.）などを例として挙げることができる］。

しかし書くという作業には大きな問題がある。キーボードを用いたテキスト入力に比べて、長いテキストを入力するのに労力と時間を必要とするという点である。非特許文献７（岩田陽子，加藤直樹，中川正樹：“対話型電子白板を用いた電子化授業への遠隔受講者参加方式の試作”，情処研報2002-CE-67，pp.33-40，2002.）は、講義時間全体の１８％もの時間が板書に費やされていたことを報告している。

また音声認識のインタフェースとしての新たな可能性を論じた関連研究としては、非特許文献８（後藤真孝：解説“音声補完：言い淀むと助けてくれる音声インタフェース”，情報処理（情報処理学会誌），Vol.43，No.11，pp.1210-1216，2002.）や、非特許文献９（後藤真孝：“非言語情報を活用した音声インタフェース”，情処研報2004-SLP-52-7，pp.41-46，2004.）に示される非言語情報を活用した「音声補完シリーズ」があげられる。

また、複数のモダリティの認識技術を相補的に組み合わせることで全体の認識率を向上させることは、非特許文献１０（Oviatt: Mutual Disambiguation of Recognition Errors in a Multimodal Architecture. CHI’99，pp.576-583，1999.）に提唱されている。そして、非特許文献１１（中川竜太，小林唯，小林隆二，篠田浩一，古井貞煕：“音声と手書き文字の同時入力インタフェース”，情処研報2005-SLP-56，pp.29-34，2005.）には、そのための統合的な認識エンジンを開発し、これを応用したテキスト入力インタフェースの一例について開示されている。

さらに、現状の音声認識技術では認識が困難である、日常の自然な発話や会話を積極的に活用したインタフェースやその重要性について、非特許文献１２（Hindus et al.: Ubiquitous Audio: Capturing Spontaneous Collaboration. CSCW’92，pp.210-217，1992.）や、非特許文献１３（Lyons et al.: Augmenting Conversations Using Dual-Purpose Speech. UIST’04，pp-237-246，2004.）で開示されている。

また非特許文献１４（Mankoff et al.: Interaction techniques for ambiguity resolution in recognition-based interfaces. UIST’00，pp.11-20，2000.）には、認識技術の誤認識とそれに伴うあいまい性の存在を前提としたツールキットが開示されている。

さらに非特許文献１５（Masui: An Efficient Text Input Method for Pen-based Computers. CHI’98，pp.328-335，1998.）及び非特許文献１６（福島俊一，山田洋志：“予測ペン入力インタフェースとその手書き操作削減効果”，情処学論，Vol. 37，No. 1，pp. 23〜30，1996.）には、手書き認識技術を用いた従来のテキスト入力システムが開示されている。
Schilit et al.: Beyond Paper: Supporting Active Reading with Free Form Digital Ink Annotations. CHI’98，pp.249-256，1998. Kam et al.: A System for Cooperative and Augmented Note-Taking in Lectures. CHI’05，pp.531-540，2005. Anderson et al.: A Study of Digital Ink in Lecture Presentation. CHI’04，pp.567-574，2004. Elrod et al.: Liveboard: A Large Interactive Display Supporting Group meetings, Presentations, and Remote Collaboration. CHI’92，pp.599-607，1992. Denoue et al.: Shared Freeform Input for Note Taking across Devices. CHI’03，pp.170-171，2003. Stifelman et al.: The Audio Notebook. CHI’01，pp.182.189，2001. 岩田陽子，加藤直樹，中川正樹："対話型電子白板を用いた電子化授業への遠隔受講者参加方式の試作"，情処研報2002-CE-67，pp.33-40，2002. 後藤真孝：解説"音声補完：言い淀むと助けてくれる音声インタフェース"，情報処理（情報処理学会誌），Vol.43，No.11，pp.1210-1216，2002. 後藤真孝："非言語情報を活用した音声インタフェース"，情処研報2004-SLP-52-7，pp.41-46，2004. Oviatt: Mutual Disambiguation of Recognition Errors in a Multimodal Architecture. CHI’99，pp.576-583，1999. 中川竜太，小林唯，小林隆二，篠田浩一，古井貞煕："音声と手書き文字の同時入力インタフェース"，情処研報2005-SLP-56，pp.29-34，2005. Hindus et al.: Ubiquitous Audio: Capturing Spontaneous Collaboration. CSCW’92，pp.210-217，1992. Lyons et al.: Augmenting Conversations Using Dual-Purpose Speech. UIST’04，pp-237-246，2004. Mankoff et al.: Interaction techniques for ambiguity resolution in recognition-based interfaces. UIST’00，pp.11-20，2000. Masui: An Efficient Text Input Method for Pen-based Computers. CHI’98，pp.328-335，1998. 福島俊一，山田洋志："予測ペン入力インタフェースとその手書き操作削減効果"，情処学論，Vol. 37，No. 1，pp. 23〜30，1996.

しかしながら、非特許文献１１に提案されている音声と手書き文字の同時入力インターフェース、また非特許文献１５及び１６に見られるように、従来は、手書き文字の入力の認識誤りを訂正する作業が必ず必要になっていた。しかし、音声認識と手書き文字認識とを組み合わせて手書き文字表示及び入力を行おうとする場合に、すべての文字認識を確定または誤りを訂正しようとすると、作業の流れが阻害され、例えば講義中であるとすれば、講義をスムーズに進行することができない問題が発生する。

本発明の目的は、手書き入力作業を阻害することなく、音声認識の結果を、手書き文字表示の支援に利用することができる手書き文字入力表示支援装置及び方法並びにこれらに使用するプログラムを提供することにある。

本発明の他の目的は、手書き文字の認識をすべて電子的に確定することなく、音声認識の結果を、手書き文字表示の支援に利用することができる手書き文字入力表示支援装置及び方法並びにこれらに使用するプログラムを提供することにある。

本発明の別の目的は、手書き文字の認識をすべて電子的に確定しない場合でも、後から検索が可能なデータを保存することが可能な手書き文字入力表示支援装置及び方法並びにこれらに使用するプログラムを提供することにある。

本発明は、音声を認識し、また手書き文字入力を認識し、音声認識の結果と手書き文字入力の認識結果を画面に表示し、画面に表示された音声認識の結果を用いて手書き文字入力の認識結果に修正、変更または追加を加えて手書き文字入力を表示するための、手書き入力表示装置、方法及びプログラムである。

本発明の装置では、発表者の声を入力するための音声入力手段と、音声認識手段と、認識結果記憶手段と、画面表示制御手段と、手書き文字検出手段と、手書き文字判別手段と、選択候補決定手段と、文字確定手段とを備えている。発表者とは、講義の講師等、声を出して発表する人を意味する。したがって音声入力手段は、マイクロフォン等のように音声を信号に変換する機能を備えた装置である。なお後述する作業者は、発表者の場合もあれば、講義に出席している受講者の場合もある。

音声認識手段は、予め定めた判定手法に従って、音声認識を行う。例えば、音声認識手段は、音声入力手段から入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とすることができる。ここで「予め定めた判定手法」としては、公知の各種の判定手法を用いることができる。例えば、コンフュージョン・ネットワークを用いて音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、複数の単語の区間ごとに後述する競合確率を求めて、一番競合確率の高い単語を決定する判定手法を用いるのが好ましい。コンフュージョン・ネットワークを用いると、大語彙、小語彙を問わず多様な入力音声に対して効果的な候補の提示、訂正が可能になる。

認識結果記憶手段は、音声認識手段により認識された認識結果を記憶する。例えば、認識結果記憶手段は、音声認識手段により認識された認識結果を複数の文字からなる文字列や複数の単語からなる単語列として記憶することができる。なお文字列を構成する文字と競合する文字や単語列と競合する競合単語を併せて記憶しておいてもよい。

また画面表示制御手段は、指令を入力として画面の表示を制御する。そして手書き文字検出手段は、作業者の手書き文字を検出して画面表示制御手段に手書き文字表示指令を出力する。手書き文字検出手段としては、光学的読み取り手段を用いて手書き文字を読み取る公知の装置を用いることができる。そして手書き文字判別手段は、手書き文字検出手段が認識して画面に表示しようとする文字に対応する１種類以上の文字を判別する。なお使用する判別技術によって、１つの検出文字に対して１種類の文字だけでなく、複数種類の文字を判別することがある。また手書き文字がいかなる文字に該当するかを判別する技術は、すでに各種の技術が開発されており、本発明ではいかなる技術を用いることも許容する。なお利用する技術によって、判別精度には差が出ることになる。しかし本発明では、判別できない場合には、後述するように、認識した手書き文字をそのまま表示することになるので、再入力や訂正等を必ず行う必要はない。また本発明では、一部の手書き文字が入力された段階で、その文字の全てまたはその文字を含む文字列構成部を作業者に表示して、すべての文字を手書き入力しなくても、文字入力を行えるようにする。

このことを実現するためには、まず選択候補決定手段は、認識結果記憶手段に記憶されている認識結果から、手書き文字判別手段が判別した手書き文字に対応する１種類以上の文字を先頭に含む１以上の文字列を予測する。そして選択候補決定手段は、予測した１以上の文字列から手書き文字に対応する文字を除いた１以上の文字からなる１以上の文字列構成部分に含まれる文字を選択候補として画面上に表示するための選択候補表示指令を画面表示制御手段に出力する。なお文字列構成部分に含まれる文字と競合する文字を選択候補に含めることができる。このような競合する文字を選択候補に含めれば、選択の幅が広がるため、さらに入力支援の効果が高くなる。なお音声認識結果が、単語を単位として記憶されている場合には、競合する文字の選択を、単語を単位として選択可能にしてよいのは勿論である。

例えば、選択候補決定手段は、音声認識で認識した認識結果に基づいて、現在入力中の文字を予測するだけでなく（例えば“音”の文字の入力から“音声”の文字列を予測するだけでなく）、現在入力中の文字を含んだ他の文字列（例えば“音”の文字から“音声認識の結果”等）を選択候補として画面に表示する機能を有する。この選択候補の数は、一つでも、また複数でもよく、さらに選択候補が無ければ、ゼロであってもよい（すなわち選択候補を出さなくともよい）。なお選択候補決定手段は、文字列構成部分を構成する一番競合確率の高い文字と一緒に該一番競合確率の高い単語の競合候補を選択候補として画面上に表示するための選択候補表示指令を画面表示制御手段に出力するように構成してもよい。すなわち音”の文字の入力から“音声”の文字列を予測するだけでなく、“音楽”“音符”“音階”を予測し、“声”が一番競合確率の高い単語であれば、競合候補として“符”“階”を選択可能に一緒に表示するようにしてもよい。

また文字確定手段は、選択候補から作業者のマニュアル操作により選択した文字を、手書き文字判別手段が判別した手書き文字に対応する文字と一緒に、作業者の手書き文字に近似したフォントで画面上に確定文字として表示するための確定文字表示指令を画面表示制御手段に出力するように構成されている。

作業者の手書き文字に近似したフォントは、作業者の手書き文字を解析して予め作成しておいてもよいし、予め用意した複数の種類の手書きフォントの中から一番作業者の手書き文字に近いものを選択するようにしてもよい。また作業者の筆跡を自動的に判断して、筆跡に近似したフォントを作製または選択するようにしてもよい。

なお本発明では、文字確定手段により毎回単語を確定する必要はない。文字確定手段が、単語を確定しない場合には、確定文字表示指令は出力されることがない。

上記の各手段を用いることを前提として、本発明の装置では、画面表示制御手段は、手書き文字表示指令が入力されると手書き文字を画面に表示し、選択候補表示指令が入力されると選択候補を画面上に表示し、確定文字表示指令が入力されると確定文字を手書き文字に代えて画面上に表示し、確定文字表示指令が入力されないときには、既に画面に表示された確定文字と一緒に手書き文字をそのまま画面上に表示し続ける。ここで確定文字を手書き文字に代えることは、代替の他に置き換えを含むものである。また選択候補は、手書き文字と隣接して画面に表示するのが好ましい。このようにすると文字の選択をスムーズに行える。また隣接して表示する場合には、手書き文字に隣接して文字列構成部分の文字を表記し、文字列構成部分の文字に隣接して他の選択候補を表示するようにするのが好ましい。

本発明では、事前に発表者が発表した内容（音声認識結果）に含まれる単語や文字列が、手書き入力される可能性が高いことを前提にしている。そこで発表者の発表を音声認識してその認識結果を記憶しておく。そして手書き文字の入力があると、音声認識結果に基づいて、手書き文字またはその文字を含む文字列を予測して、それらを選択候補として画面に表示する。その上で、手書き文字入力の途中で、入力しようとする文字を先頭に含む予測した１以上文字列の文字列構成部分（文字列から先頭の文字を除いた部分）を作業者に画面上で見せて、作業者に選択候補を選択する機会を与えることにより、手書き文字の入力を支援する。その結果、本発明によれば、手書きのみで文字を入力している場合と比べて、かなり早く手書き文字入力を行うことができる。

また本発明では、手書き文字判別手段が手書き文字を判別できなかった場合や、選択候補決定手段が決定した選択候補を作業者が選択しないときには、手書き文字をそのまま画面に表示したままで手書き入力を続けることができる。そのため講義中であっても、黒板に文字を書く感覚を残して、実際に手書き文字ですべてを書く場合よりも速く画面に文字情報を表示することができる。また手書き文字をそのまま表示し続けることがあるため、本発明では、確定した手書き文字であっても手書き文字に近似したフォントで画面に表示し、見る者に違和感を与えないようにしている。

なお画面に表示された手書き文字と確定文字からなる文字データを、再利用可能に保存する保存手段を更に備えていてもよい。このような保存手段を備えていれば、保存内容を画面に表示することができるので、時と場所とが変わったときに、手書き入力を繰り返し行う必要がなくなる。

手書き文字をデータの中に残した状態で保存をすると、手書き文字の存在が原因となって、テキストデータのように後になって検索をすることができないまたは検索精度が悪くなるといった問題が生じる。そこでこのような問題を解決するためには、手書き文字と一緒に手書き文字判別手段が判別した手書き文字に対応する文字または選択候補についてのデータを一緒に保存する。このようにすると、手書きのまま残された単語に付随するデータが検索の対象となるため、保存データに手書き文字のデータを含めていても、後から検索が充分に可能になる。この後からの検索を可能にするための技術的思想は、音声認識の結果を利用して入力を支援する場合と必ず組み合わされなければならないものではなく、その他の技術手書き入力技術と組み合わされてもよく、また手書きテキストデータの検索にも単独で使用することが可能である。

本発明を方法として表現すると、本発明は、コンピュータを利用して、音声を認識し且つ手書き文字入力を認識し、音声認識の結果を利用して手書き文字入力を支援する手書き文字入力表示支援方法であって、予め定めた判定手法に従って音声認識を行う音声認識ステップと、前記音声認識ステップにより認識された認識結果を認識結果記憶手段に記憶する認識結果記憶ステップと、作業者の手書き文字を検出して手書き文字表示指令を出力する手書き文字認識ステップと、前記手書き文字に対応する文字を判別する手書き文字判別ステップと、前記認識結果記憶手段に記憶されている前記認識結果から、前記手書き文字判別ステップで判別した前記手書き文字に対応する１種類以上の文字を先頭に含む１以上の文字列を予測し、予測した前記１以上の文字列から前記手書き文字に対応する文字を除いた１以上の文字からなる１以上の文字列構成部分に含まれる文字を選択候補として前記画面上に表示するための選択候補表示指令を出力する選択候補決定ステップと、前記作業者のマニュアル操作により前記選択候補から選択した文字を、前記手書き文字判別ステップで判別した前記手書き文字に対応する文字と一緒に、前記作業者の手書き文字に近似したフォントで前記画面上に確定文字として表示するための確定文字表示指令を出力する単語確定ステップと、前記手書き文字表示指令が出力されると前記手書き文字を前記画面に表示し、前記選択候補表示指令が出力されると前記選択候補を前記画面上に表示し、前記確定文字表示指令が出力されると前記確定文字を前記手書き文字に代えて前記画面上に表示し、前記確定文字表示指令が出力されないときには、既に前記画面に表示された前記確定文字と一緒に前記手書き文字をそのまま前記画面上に表示し続ける画面表示ステップとからなる。

また本発明を、音声を認識し且つ手書き文字入力を認識し、音声認識の結果を利用して手書き文字入力を支援する手書き文字入力表示支援装置を、コンピュータを用いて実現するために、以下の手順をコンピュータに実行させるためのプログラムとして表現すると以下のようになる。

すなわち、予め定めた判定手法に従って音声認識を行う音声認識手順と、前記音声認識手順により認識された認識結果を認識結果記憶手段に記憶する認識結果記憶手順と、作業者の手書き文字を検出して手書き文字表示指令を出力する手書き文字認識手順と、前記手書き文字に対応する文字を判別する手書き文字判別手順と、前記認識結果記憶手段に記憶されている前記認識結果から、前記手書き文字判別手順で判別した前記手書き文字に対応する１種類以上の文字を先頭に含む１以上の文字列を予測し、予測した前記１以上の文字列から前記手書き文字に対応する文字を除いた１以上の文字からなる１以上の文字列構成部分に含まれる文字を選択候補として前記画面上に表示するための選択候補表示指令を出力する選択候補決定手順と、前記作業者のマニュアル操作により前記選択候補から選択した文字を、前記手書き文字判別手順で判別した前記手書き文字に対応する文字と一緒に、前記作業者の手書き文字に近似したフォントで前記画面上に確定文字として表示するための確定文字表示指令を出力する単語確定手順と、前記手書き文字表示指令が出力されると前記手書き文字を前記画面に表示し、前記選択候補表示指令が出力されると前記選択候補を前記画面上に表示し、前記確定文字表示指令が出力されると前記確定文字を前記手書き文字に代えて前記画面上に表示し、前記確定文字表示指令が出力されないときには、既に前記画面に表示された前記確定文字と一緒に前記手書き文字をそのまま前記画面上に表示し続ける画面表示手順とを前記コンピュータに実行させる。

本発明の方法及びプログラムにおいても、選択候補を表示する際に、競合する文字の候補を表示するようにしてもよいのは勿論である。

本発明によれば、音声認識結果に基づいて、手書き文字またはその文字を含む文字列を予測して、文字列を構成する文字列構成部分を選択候補として画面に表示し、手書き文字入力の途中で、作業者に選択候補を選択する機会を与えることにより、手書き文字の入力を支援することができる。その結果、本発明によれば、手書きのみで文字を入力している場合と比べて、かなり早く手書き文字入力を行うことができる利点が得られる。

また本発明では、手書き文字判別手段が手書き文字を判別できなかった場合や、選択候補決定手段が表示した選択候補を作業者が選択しないときには、手書き文字をそのまま画面に表示したままで手書き入力を続けることができるので、実際に手書き文字ですべてを書く場合よりも速く画面に文字情報を表示することができる。また手書き文字をそのまま表示し続けるために、本発明では、確定した手書き文字であっても手書き文字に近似したフォントで画面に表示することができ、見る者に違和感を与えることがない利点が得られる。

以下図面を参照して本発明の実施の形態を詳細に説明する。図１は、本発明の一実施の形態の構成の概念を説明するための図である。この実施の形態では、音声認識の新たな利用法として、講義中における発表者１（この場合は作業者でもある）及び受講者２（この場合は、聴衆であり作業者である）のそれぞれの文字入力作業を支援する「音声ペン」システムと呼ばれる手書き入力表示装置である。本実施の形態は、発表者の発言の音声認識結果をそのまま画面３に表示せず、音声認識結果は手書き文字入力の際に予測選択候補の生成に使用される。発表者１は、音声認識用のマイクに向かって話し、プロジェクタ４に接続された電子ペンを用いてタブレットに文字を手書きすることにより入力を行うタブレット式のパーソナルコンピュータであるタブレットＰＣ（Tablet PC）５を用いて、入力ペンで書き込みを行うことで講義を進める。タブレットＰＣ５に書かれた手書き文字は、表示装置であるプロジェクタの画面３に表示される。なおタブレットＰＣを用いずに、いわゆる電子白板を手書き文字入力装置として用いてもよいのは勿論である。発表者１のタブレットＰＣはネットワーク６のハブを介して音声認識処理とデータ処理用のコンピュータ８に接続されている。この例では、このコンピュータ８が、辞書機能を備えており、タブレットＰＣと協働して文字認識処理の一部も実行される。そしてこの例では、受講者２もそれぞれ独立して各自のノート（記録）をタブレットＰＣ（Tablet PC）９で取る。したがって発表者１の音声は音声認識サーバとなるコンピュータ８で処理され、認識結果が発表者１だけでなく受講者２を含むすべてのユーザにネットワーク６経由で配信される。

発表者１は、普段通り話しながら手書き文字入力でいわゆる板書を行えばよい。本実施の形態の手書き文字入力装置では、音声認識や手書き文字認識が、うまく実行されると、手書き文字入力が速くなり、たとえ誤認識があっても、手書き文字が残るため、発表者の手書き文字入力をスムーズに実施することができる。また本実施の形態では、発表者１だけでなく受講者２も同様のメリットを享受することができるので、受講者２もノートを取る作業を省力化することができる。

図２は、発表者１を中心にして、本実施の形態を実施する場合の構成の概略を示す図である。そして図３は、図２に示すように発表者１を中心にして上記実施の形態の一例をコンピュータを用いて実現する場合にコンピュータ内に実現される機能実現手段を概略的に示したブロック図である。図４はこの装置をコンピュータを利用して実現する場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。本実施の形態の手書き文字入力表示装置では、発表者１の声を入力するための音声入力手段１１と、音声認識手段１２と、辞書手段１３と、認識結果記憶手段１４と、画面表示制御手段１５と、手書き文字入力手段１６と、手書き文字検出手段１７と、手書き文字判別手段１８と、選択候補決定手段１９と、文字選択手段２０と、文字確定手段２１と、保存手段２２とを備えている。音声入力手段１１は、マイクロフォン等のように音声を信号に変換する機能を備えた装置である。

本実施の形態の音声認識手段１２は、予め定めた判定手法に従って、音声入力手段１１から入力された音声に含まれる複数の単語を予め辞書手段１３に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする。ここで「予め定めた判定手法」としては、公知の各種の判定手法を用いることができる。例えば、本実施の形態では、コンフュージョン・ネットワークを用いて音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、複数の単語の区間ごとに後述する競合確率を求めて、一番競合確率の高い単語を決定する判定手法を用いる。例えば、緒方淳及び後藤真孝共著の“音声訂正：“CHOICE” on Speech”，情処研報2004-SLP-54-54，pp.319-324，2004.に記載の技術や、緒方淳及び後藤真孝共著の“音声訂正：認識誤りを選択操作だけで訂正ができる新たな音声入力インタフェース”，WISS 2004論文集，pp.47-52，2004.に記載の技術で採用している、大規模な単語グラフを効率よく圧縮した形式であるコンフュージョン・ネットワーク（ｃｏｎｆｕｓｉｏｎｎｅｔｗｏｒｋ）［Ｌ．Ｍａｎｇｕ，Ｅ．Ｂｒｉｌｌ及びＡ．Ｓｔｏｌｃｋｅ著“ＦｉｎｄｉｎｇＣｏｎｓｅｎｓｕｓｉｎＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ：ＷｏｒｄＥｒｒｏｒＭｉｎｉｍｉｚａｔｉｏｎａｎｄＯｔｈｅｒＡｐｐｌｉｃａｔｉｏｎｓｏｆＣｏｎｆｕｓｉｏｎＮｅｔｗｏｒｋ”ＣｏｍｐｕｔｅｒＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ，Ｖｏｌ．１４，Ｎｏ．４，ｐｐ．３７３−４００，２０００．］を作業者に提示する入力予測候補の決定に利用する。コンフュージョン・ネットワークは、元々、音声認識率の向上のためにデコーディングアルゴリズムにおいて使用された途中結果である。そのため、当業者には、このコンフュージョン・ネットワークを本実施の形態のような文字の選択目的に応用しようという発想は従来なかった。コンフュージョン・ネットワークを利用して選択候補を決定して表示する手法については、前述の緒方淳及び後藤真孝共著の論文に詳しく説明されているので、ここでは説明を省略する。コンフュージョン・ネットワークは、単語グラフを音響的なクラスタリングによりリニアな形式に圧縮する。その結果、コンフュージョン・ネットワークを利用することにより、図７に示すように、各文字候補間の競合関係を明確化した選択候補を表示することができる。その結果、作業者は効率よく入力ペン等を用いて候補の選択をすることができる。

一般的に、ディクテーションを目的とした音声認識を考えた場合、少しでも高い認識率を得るためには、システムに用いる語彙や言語モデルの精度が重要なファクターとなる。特に講演や講義を認識対象にした場合、話題が多岐に渡ることや、話し言葉の影響などから、どのような音声に対しても高精度に認識可能な言語モデルを作成することは不可能である。それに対して、本発明では、作業者が誤りを含めた全ての音声認識結果を利用することは想定しておらず、認識誤りを避けながら作業者の欲しい結果だけを積極的に利用する。したがって、ディクテーション目的の音声認識システムのように、言語モデルや語彙の不備による認識誤りが、システム全体に大きく影響することはない。

認識結果記憶手段１４は、音声認識手段１２により認識された認識結果を記憶する。なお認識結果には、音声認識された結果だけでなく、辞書手段に予め記憶されているある文字及び単語に対する競合候補についてのデータも合わせて記憶しておいてもよい。認識結果は、使用されるか否かに係わらず、認識結果記憶手段１４に記憶される。記憶手段の記憶容量が大きければ、発表が行われている間に認識したすべての認識結果を記憶しておいてもよいが、記憶してから予め定めた時間経過すると、使用される可能性が低くなったと考えて、認識結果を認識結果記憶手段１４から削除するようにしてもよいのは勿論である。

また画面表示制御手段１５は、各手段からの指令を入力としタブレットＰＣの画面の表示を制御する。本実施の形態の画面表示制御手段１５は、図１に示す発表者１が使用するタブレットＰＣ５の画面５Ａに表示したデータを保存手段２２に保存する際には、データ書き込み手段として機能する。なお図１の画面３には、タブレットＰＣ５の画面５Ａに表示した文字のうち、必要なものだけを表示すればよい。なおこの選択は、タブレットＰＣ５に実装した別のプロジェクタ駆動ソフトにより実現可能である。

そして手書き文字検出手段１７は、作業者の手書き文字を検出して画面表示制御手段１５に手書き文字表示指令を出力する。手書き文字検出手段１７としては、光学的読み取り手段を用いて手書き文字を読み取る公知の装置を用いることができる。図１に示すようにタブレットＰＣ５を手書き文字検出手段１７として用いる場合には、例えば、Microsoft（登録商標）の Tablet PC Platform SDK（商標）の文字認識エンジンを用いることができる。

手書き文字判別手段１８は、手書き文字検出手段１７が認識して画面５Ａに表示しようとする文字に対応する１種類以上の文字を判別する。手書き文字がいかなる文字に該当するかを判別する技術は、すでに各種の技術が開発されており、いかなる技術を用いることもできる。本実施の形態では、発表者（作業者）は、タブレットＰＣ上の任意の場所に任意の大きさで手書きを行うことができる。即ち文字入力用の複数のセル（長方形領域）への書き込みを強制されないようにしている。これを実現するためには、文字認識に先立ち、まずストロークのセグメンテーション（ストロークを文字単位にグループ化する作業）を行う。図５にセグメンテーションと手書き文字認識の結果の例を示す。日本語では文字が意味的な単位となるので文字単位のセグメンテーション（セグメント化）を行うが、例えばヨーロッパ言語の場合には、語（アルファベットであれば“Ａ”の文字一文字）を単位とするセグメンテーションを行う必要がある。手書き文字判別の結果は、N-bestリストの系列として次の処理段階すなわち選択候補決定手段１９へと送られる。本実施の形態では前述の、Microsoft（登録商標）の文字認識エンジンを用いており、セグメンテーション結果に複数の可能性が考えられる場合については考慮していない。なお利用する技術によって、判別精度には差が出ることになる。しかし本実施の形態では、手書き文字を判別できない場合には、後述するように、認識した手書き文字をそのまま表示することになるので、再入力や訂正等を必ず行う必要はない。

選択候補決定手段１９は、認識結果記憶手段１４に記憶されている認識結果から、手書き文字判別手段１８が判別した手書き文字に対応する１種類以上の文字を先頭に含む１以上の文字列を予測する。そして選択候補決定手段１９は、予測した１以上の文字列から手書き文字に対応する文字を除いた１以上の文字からなる１以上の文字列構成部分を選択候補として画面上に表示するための選択候補表示指令を画面表示制御手段１５に出力する。例えば“音”の手書き文字を判定したときに、認識結果記憶手段１４に記憶されている認識結果から、“音声認識”を予測した場合には、手書き文字に対応する“音”の文字を除いた“声認識”が文字列構成部分となる。選択候補決定手段１９は、この文字列構成部分“声認識”に含まれる文字を選択候補として画面５Ａに表示する選択候補表示指令を出力する。複数の文字列が予測される場合には、複数の文字列構成部分を画面に表示する。

本実施の形態の選択候補決定手段１９は、１以上の文字列構成部分に含まれる文字の他に、１以上の文字列構成部分に含まれる文字と競合する文字を選択候補として、画面に表示することができる。音声認識結果が単語を単位として行われる場合には、文字列構成部分を構成する一番競合確率の高い文字と一緒に該一番競合確率の高い単語の競合候補を選択候補として画面５Ａ上に表示するようにしてもよい。競合する文字は、認識結果記憶手段に認識結果と一緒に記憶されていてもよいが、辞書手段１３に競合する文字の候補を記憶しておき、辞書手段１３から競合する候補を取得するようにしてもよい。すなわち選択候補決定手段１９が、例えば“認”の手書き文字の入力が判定されときに、“認識記述”の文字列を予測したとする。この文字列の文字列構成部分“識記述”が、一番競合確率の高い単語によって構成されているものとする。もし認識結果記憶手段１４の認識結果から、文字列構成部分“識記述”を構成する一番競合確率の高い単語「記述」に対する競合する候補（例えば「技術」「奇術」）が存在していれば、その競合する候補を選択可能に画面５Ａ上に表示する。例えば図６の３には、一番競合確率の高い文字とその競合する候補とを表示する態様の一例が示されている。なお図６の３では、「認識記述」の文字列の他に「認知問題」の文字列も予測したため、「知問題」を別の文字列構成部分として画面に表示し、併せて「問題」の単語の「競合候補」を選択可能に表示している。競合候補の数は、一つでも、また複数でもよく、さらに競合する候補が無ければ、ゼロであってもよい（すなわち競合候補を出さなくともよい）。

図７に示す例では、競合候補の中から一番競合確率の高い単語の競合確率に近い競合確率を持つ１以上の競合単語を選び、対応する一番競合確率の高い単語を最も上に表示し、この一番競合確率の高い単語に隣接して競合単語を画面上に表示している。すなわち図７の例では、音声認識手段１２により認識された一番競合確率の高い単語から構成される文字列である「通常の認識結果」の下に、多数の競合候補の中から文字列の単語（一番競合確率の高い単語）の競合確率に近い競合確率を持つ１以上の競合単語を選び、これを表示している。例えば図７に示す例では、最初の単語について表示された競合候補中、最初に表示された「声」が競合候補の中でもっとも競合確率が高いもので、それよりも下にいくほど競合確率が低い単語となる。なお文字列の下の競合候補のうち、空白はスキップ候補である。このスキップ候補を選択すると、スキップ候補が含まれている文字列の単語は削除される（すなわち使用されない）。このスキップ候補については、前述の緒方淳及び後藤真孝共著の論文に詳しく説明されているので、ここでは詳しい説明は省略する。スキップ候補が選択されると、音声認識でしばしば生じる湧き出し単語（発音されていないのに、発音されたかのように認識されて表示される単語）を、競合単語の選択作業と同じ作業で削除することができる。なおスキップ候補にも競合確率を付与すれば、スキップ候補の表示位置が一定になることがない。そのため競合単語の選択と文字列からの単語の削除の選択を同じレベルで実行することができ、作業者の選択作業に要する時間を更に短縮することができる。

なお図７において、一つ単語の選択が行われると、訂正された単語との関係で見ると、先に決定して画面に表示している競合単語が不適切なものになることもある。そこで一部の単語の選択がなされたときには、その訂正された単語を本来正解である単語として、再度競合単語の選び直しを行って、再度表示する機能を設けてもよい。このような機能を設けると、まだ選択をしていない単語に対する競合単語を、より適正な単語に変更することができるので、後の選択作業が容易になる。なおこのような再度競合単語の選び直しをして選択可能に表示することについても、前述の緒方淳及び後藤真孝共著の論文に説明されている。

次に本実施の形態で採用できる文字の競合候補を選択候補とする場合の決定手法を、図５を参照して説明する。まず手書き文字認識の結果をクエリとして、音声認識手段１２で認識して認識結果記憶手段１４に記憶したデータ（具体的にはコンフュージョン・ネットワークのデータベース）を検索する。その際、まず一番最近書かれた文字（もしくは語）を取り出してクエリとし、認識結果記憶手段１４の対応するデータベース上のコンフュージョン・ネットワークを検索する。もしも多くの選択候補がマッチした場合は、クエリに最近書かれた文字の一つ前の文字を加える。つまり認識結果記憶手段１４の対応するコンフュージョン・ネットワークの中から２文字の文字列（文字列構成部分）と同じものを探す。この作業により、一般的にマッチした候補の数は１文字クエリの場合よりも減少する。この作業を繰り返し、マッチする候補がなくなるまでクエリの文字数を多くしていく。図５右の例では、「し」、「たし」、「わたし」、「たわたし」の順で検索を行っていく。最終的にシステムはもっとも長いクエリにマッチした候補を出力とする。この方法では、はじめから検索候補が見つからない場合がある。つまり認識結果記憶手段１４のコンフュージョン・ネットワークのデータベースの中に最近書いた文字が存在しない場合である。このような場合、本実施の形態では、代わりに次に尤度の高い文字認識結果を用いる。そしてマッチする検索結果が多かった場合は、先述のように最近の文字からさかのぼってマッチしなくなるまで検索を進めていく。図５右の例では、もしも「し」が見つからなかった場合、「１」、「た１」のように進める。この例では、このような作業を、予め設定してある数（現在の実装では最大３つ）のマッチする検索結果が得られるまで行う。得られた検索結果は尤度の高い順に並べられて、作業者の画面５Ａに表示される。なおこの例では、コンフュージョン・ネットワーク上の文字に付随している音声認識時の尤度を単に最終的なソートの目的のみに利用している。しかしながら、検索候補を得る過程でもこれを考慮すれば、性能向上は期待できる。

文字列構成部分（選択候補）に含まれる文字の選択とこの文字と競合する文字を選択するために、文字選択手段２０を用いて行われる。なお文字選択手段２０は、別に設けてもよいが、本実施の形態では手書き文字入力手段１６を用いて、選択候補及び競合候補に線を引くことにより選択を行うことを可能にするように、文字選択手段２０が構成されている。

文字確定手段２１は、作業者のマニュアル操作により文字列構成部分から選択した文字（選択候補、競合候補）を、作業者の手書き文字に近似したフォントで画面５Ａ上に確定文字として表示するための確定文字表示指令を出力する。

なお文字確定手段２１により毎回単語を確定する必要はない。文字確定手段２１が、単語を確定しない場合には、確定文字表示指令は出力されることがない。画面表示制御手段１５は、手書き文字検出手段１７から出力される手書き文字表示指令、選択候補決定手段１９から出力される選択候補表示指令及び文字確定手段２１から出力される確定文字表示指令を入力とする。そして画面表示制御手段１５は、手書き文字表示指令が入力されると手書き文字を画面５Ａに表示し、選択候補表示指令が入力されると競合候補を含む選択候補を画面上に表示し、確定文字表示指令が入力されると確定文字を手書き文字に代えて画面５Ａ上に表示する。画面表示制御手段１５は、確定文字表示指令が入力されないときには、既に画面５Ａに表示された確定文字と一緒に手書き文字をそのまま画面上に表示し続ける。

具体的には、例えば図６に示すように、選択候補決定手段１９の出力に基づいて、複数の予測した選択候補が発表者（作業者）の最新の書き込み位置の周辺に表示される（図６の３）。図６の３の例では、２つの文字列構成部分（選択候補）を画面５Ａ上に表示している。すなわちこの例では、「認」の文字の手書き入力に対して、次の文字として「識」を予測して競合候補を含む選択候補と、次の文字として「知」を予測して競合候補を含む選択候補とを一緒に表示している。

また図７は、得られた発言の音声認識結果を複数の競合候補とともに尤度の高い順に並べた文字列構成部分の表示態様の異なる例を示している。図７に示す表示は、音声認識の誤り訂正用インタフェース「音声訂正」（緒方淳，後藤真孝：“音声訂正：“CHOICE” on Speech”，情処研報2004-SLP-54-54，pp.319-324，2004.、緒方淳，後藤真孝：“音声訂正：認識誤りを選択操作だけで訂正ができる新たな音声入力インタフェース”，WISS 2004論文集，pp.47-52，2004.）の競合候補の表示を応用したものである。

これらの予測結果は、過去の発話の音声認識結果に対応しており、直前の手書き文字認識結果に基づき音声認識結果データベースである認識結果記憶手段１４から検索された「最後に書かれた文字や語から始まるような過去の発言」である。

本実施の形態によれば、画面５Ａ上に選択候補が表示されたときに、発表者１はそれらを選択して手書き文字に代えて挿入するか、無視して手書き作業を続行するかを任意に決定できる。選択候補の選択は、例えば、図６の４ｂ及び図７に示すように、作業者のマニュアル操作による一筆書きでリスト中の選択候補を入力用のペンでなぞっていくクロッシング・インターフェース（crossing interface）で行うことができる。そして選択された文字列構成部分に対応する文字列が、図６の４ｂ及び５ｂに示すように、手書き中の画面５Ａの手書き領域（白板領域）に、発表者１の筆跡を模したフォントを用いて挿入される。すなわち「識技術」が選択された場合には、「認識技術」の電子データが、「認」の手書き文字に代えて画面５Ａ上に表示される。

なおこのようなフォントとしては、例えば、「マイフォントサービス（商標）」（TechnoAdvance,. Co Ltd., http://www.techno-advance.co.jp/product/myfont/）を利用して用意することができる。フォントの表示サイズは、直前の手書き文字を分析し自動的に決定する。

また予測した選択候補が役に立たないとき又は選択候補を選択せずに手書きを継続する場合には、図６の４ａに示すように、再び手書きを始めることにより、選択候補は消去される。図３の実施の形態では、選択候補決定手段１９が、手書き文字判別手段１８から新たな判別結果の入力を得ることにより、選択候補が選択されずに手書きが継続されたことを判定して、画面表示制御手段１５に前の選択候補の消去を指令する消去指令を出力する。消去指令が出力されると、保存手段２２は、手書き文字に対する選択候補が選択されていないときには、前の手書き文字に対応する手書き文字判別手段１８の判定結果または選択候補を保存する。また選択候補決定手段１９は、手書き文字判別手段１８から新たな判別結果の入力が一定時間の間入力されない場合にも、何らかの理由で手書き入力が休止されていると判定して、画面表示制御手段１５に前の選択候補の消去を画面表示制御手段１５に指令する。なおこの一定時間は、作業者（この場合には発表者）が自由に設定できるのが好ましい。この場合においても、手書き文字に関して選択候補の選択が行われていなければ、前述と同様に、保存手段２２は判定結果または選択候補の保存を指令する。このような機能を備えていると、他の余分な操作をすることなく、作業者は選択候補を無視できる。

保存手段２２は、画面５Ａに表示された手書き文字と確定文字からなる文字データを、再利用可能に保存する。手書き文字の保存は、例えば、手書き文字検出手段１７の認識方法が、イメージ認識であれば、手書き文字はイメージデータとして保存される。認識方法に応じて、手書き文字の保存条件は任意に定めることができる。このような保存手段２２を備えていれば、保存内容を表示装置の画面３に再度表示することができるので、時と場所とが変わったときに、手書き入力を繰り返し行う必要がなくなる。なお手書き文字を文字データの中に残した状態で保存をすると、手書き文字の存在が原因となって、テキストデータのように後になって検索をすることができないかまたは検索精度が悪くなるといった問題が生じる。そこでこのような問題を解決するためには、本実施の形態では、前述のように手書き文字と一緒に手書き文字判別手段１８が判別した手書き文字に対応する文字または選択候補決定手段１９が決定した選択候補についてのデータを一緒に保存手段２２に保存している。このようにすると、手書きのまま残された文字に付随するデータが検索の対象となるため、保存データに手書き文字のデータを含めていても、後から検索が充分に可能になる。保存手段２２に保存したデータの検索は、公知の検索ソフトを用いて行うことができる。

図４に示したフローチャートは、図３に示した実施の形態の装置をコンピュータを利用し実現する場合に用いるプログラムのアルゴリズムを示している。ステップＳＴ１では、手書き入力があるか否かの判定が行われ、手書き入力がなければ、ステップＳＴ２へと進んで音声入力があるか否かの判定が行われる。音声入力があれば、ステップＳＴ３へと進んで音声認識が実行される。ステップＳＴ２及びＳＴ３によって、本発明の方法及びプログラムの音声認識ステップ及び音声認識手順並びに認識結果記憶ステップ及び認識結果記憶手順が構成され、図３の装置の音声認識手段１２及び認識結果記憶手段１４が実現される。ステップＳＴ３では、予め定めた判定手法に従って、発表者の声を入力する音声入力手段１１から入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする。ステップＳＴ４では、認識された認識結果を認識結果記憶手段１４に記憶する。音声入力がある毎に上記ステップＳＴ１乃至ステップＳＴ４が繰り返される。

手書き入力があると、ステップＳＴ１からステップＳＴ１１へと進み、手書き文字認識が実行され、手書き文字が画面表示され（ステップＳＴ１２）、手書き文字の判別が実行される（ステップＳＴ１３）。これらステップＳＴ１１乃至ステップＳＴ１３は、本発明の方法の手書き文字認識ステップと手書き文字判別ステップを構成し、本発明のプログラムの手書き文字認識手順と手書き文字判別手順とを構成し、図３の装置の手書き文字検出手段１７と手紙文字判別手段１８を実現する。ステップＳＴ１１では、作業者の手書き文字を検出して手書き文字表示指令を出力する。ステップＳＴ１２では、手書き文字に対応する文字を判別する。

ステップＳＴ１４では、選択候補の決定と表示が実行される。このステップＳＴ１４は、本発明の方法の選択候補決定ステップと画面表示ステップの一部を構成し、本発明のプログラムの選択候補決定手順と画面表示手順の一部とを構成し、このステップで図３の装置の選択候補決定手段１９と画面表示制御手段１５の一部とが実現される。ステップＳＴ１４では、認識結果記憶手段に記憶されている認識結果から、ステップＳＴ１３で判別した手書き文字に対応する文字を先頭に含む１以上の文字列を予測し、予測した１以上の文字列から手書き文字に対応する文字を除いた１以上の文字からなる１以上の文字列構成部分を選択候補として画面上に表示する。

次にステップＳＴ１５で表示された選択候補のマニュアル操作による選択の有無の確認がなされ、選択がなされると確定文字の表示がステップＳＴ１６で実行される。これらステップＳＴ１５及びステップＳＴ１６は、本発明の方法の単語確定ステップと画面表示ステップの一部を構成し、本発明のプログラムの単語確定手順と画面表示手順の一部を構成し、図３の装置の文字確定手段２１と画面表示制御手段１５の一部とを実現する。ステップＳＴ１６では、文字列構成部分から作業者のマニュアル操作により選択した文字を、ステップＳＴ１３で判別した手書き文字に対応する文字と一緒に、作業者の手書き文字に近似したフォントで画面上に確定文字として表示する。

ステップＳＴ１５で選択候補の選択がなされなかったとき及びステップＳＴ１６で確定文字の表示がなされたときには、ステップＳＴ１７へと進み、新規文字の入力が確認される。新規文字の入力があれば、ステップＳＴ１８へと進んだ後、ステップＳＴ１９へと進み、ステップＳＴ１１に戻る。ステップＳＴ１８では、手書き文字と一緒にステップＳＴ１３で判別した手書き文字に対応する文字についてのデータまたは選択候補が一緒に保存手段２２に保存される。このステップでは、手書き文字を保存するデータに対して検索可能な電子データの付加が実行される。そしてステップＳＴ１９では、画面に表示した選択候補の消去を行う。これにより次の文字入力が継続可能になる。またステップＳＴ１７で新規文字入力が一定時間内に無いことが確認されると、ステップＳＴ２１及びステップＳＴ２２へと進みステップＳＴ１へ戻る。すなわち手書き文字入力が検出された後、または確定文字の表示がされた後、新規の手書き文字入力が検出されると、前の手書き文字入力はステップＳＴ１８で保存され、ステップＳＴ１９で画面に表示されている前の手書き文字入力に対する選択候補は消去される（画面から消される）。なおステップＳＴ１８に進んでも、すでに手書き文字がステップＳＴ１６で確定されて電子データに置き換わっている場合がある。その場合は、ステップＳＴ１８での手書き文字の保存は行われない。

新規文字の入力が無い場合には、ステップＳＴ２０へと進んで、一定時間が経過したか否かの判定が行われる。ステップＳＴ２０は、ある程度の長さの期間にわたって、特に手書き入力が無い期間が続いた場合の処理である。選択候補の選択がなされずにある程度時間が経過すると、ステップＳＴ２１では手書き文字の保存がなされると一緒にステップＳＴ１３で判別した手書き文字に対応する文字についてのデータまたは選択候補が一緒に保存手段２２に保存される。なお手書き文字が既にステップＳＴ１６で確定文字に変わっている場合は、ステップＳＴ２１は実行されない。そしてその後ステップＳＴ２２へと進んで、画面に表示された選択候補が消去される。これによって長期間放置された場合には、まだ選択がなされていない場合でも選択ができなくなくなる。

ステップＳＴ１７乃至ステップＳＴ２２は、本発明の方法では、選択候補決定ステップ及び保存ステップの中で実行され、選択候補決定ステップ及び保存ステップの一部を構成する。またこれらのステップは、本発明のプログラムでは、選択候補決定手順及び保存手順の中で実行され、選択候補決定手順及び保存手順の一部を構成する。さらに図３の装置では、これらステップＳＴ１７乃至ステップＳＴ２２は選択候補決定手段１９の一部と保存手段２２の一部を実現する。

ステップＳＴ２０で一定時間の経過が判定するまでは、ステップＳＴ２３へと進んで画面に表示されたか確定された文字データを保存することによって指示の有無が判定される。もし保存の指示がなされると、ステップＳＴ２４へと進んで保存が実行される。このステップＳＴ２４での保存でも、手書き文字の保存がなされるのと一緒にステップＳＴ１３で判別した手書き文字に対応する文字についてのデータまたは選択候補が一緒に保存手段２２に保存される。なおステップＳＴ２３及びステップＳＴ２４によって、本発明の方法で採用する保存ステップの一部及び選択候補決定ステップの一部と、本発明のプログラムの保存手順の一部及び選択候補決定ステップの一部とが構成され、図３に示した装置の選択候補決定手段１９の一部と保存手段２２の一部とが実現されている。

ステップＳＴ２４での保存が行われた後は、ステップＳＴ２５で終了するか否かの判定がなされ、終了であればエンドとなる。終了にしない場合には、ステップＳＴ２６で、選択候補の消去が実行された後、ステップＳＴ１へと戻る。

図４のフローチャートは、本発明の方法を、コンピュータを用いて実施し、また本発明の装置の機能構成手段の大部分をコンピュータを用いて実現する場合のプログラムのアルゴリズムの一例を示しているが、図４に示したアルゴリズム以外の他のアルゴリズムを用いることができるのは勿論である。

上記の実施の形態によれば、講演者（発表者）１は自由に発話しながらタブレットＰＣ５上に手書き入力を行い、入力結果は表示装置の画面３に表示される。書くことを少し静止すると、音声認識と手書き文字認識結果に基づき次に書く可能性が高い文字、語、文（文字列）の一部（文字列構成部分）を選択候補として提示する。これらの選択候補は書く作業の邪魔にならないように画面５Ａの上に置かれる手の周りに表示される（図６の３）。選択候補は過去の発言履歴（認識結果記憶手段１４に記憶した内容）や予め設定しておいた辞書手段１３の辞書の内容から生成される。そしてもし発表者が予測を利用したくないときや、正しい予測候補が得られない場合はそのまま手書き作業を継続できる（図６の４ａ）。そして入力したい候補を発見できた場合は、選択候補をなぞるジェスチャーにより、それを画面上に挿入できる（図６の４ｂ，５ｂ）。画面に表示される文字は、発表者の筆跡に似せて作られたフォントで表示される。このようなことから、本実施の形態によれば、選択候補を選択することなく、手書き文字を残したままで、手書き文字入力の表示を支援しながら入力結果の表示を行うことができる。

図１に示したように、本発明の装置及び方法並びにプログラムは、受講者２が自分のタブレットＰＣ９を用いて自分のノートを作製する場合にも利用できる。この場合には、受講者２が作業者となる。すなわち発表者の音声認識結果は逐次受講者にも分配され、共有される。共有されている音声認識結果は、各ユーザ（発表者、受講者）がこれまでに述べたような予測付の手書き入力を行う際にデータベースとして用いられる。前述の発表者１が手書き入力する場合と同様に、受講者２の手書き文字認識が行われ、発表者１の場合と同様に、受講者２も本発明の支援を受けて、スムーズに手書き文字入力を行うことができる。したがって本発明によれば、作業者が受講者２であれば、発表者１の発言というある種のコンテクスト情報が、入力支援というアンビエントな形で共有されるため、各ユーザの主体性を反映した資料作成が可能である。

なお本発明では、共有する対象が音声認識結果に限定されている。しかし、手書き認識情報、各ユーザがどのような認識候補を採用して挿入したか、といった情報も共有することは可能である。

上記実施の形態は、見方を変えると、図２のように、主に音声認識部と手書き文字入力管理部とで構成されているものと考えることができる。この場合、音声認識部は、ユーザの発話を常時認識しており、手書き入力予測候補の元となるコンフュージョン・ネットワーク（ambient contextの実体となるデータ）を生成して出力する。それと平行して、手書き文字入力管理部では、ユーザの手書き文字を認識し、その先の予測候補を画面表示する。通常の使用では、発表者（講演者）のみが音声認識部、手書き文字入力管理部の両方用い、受講者（聴衆）は後者のみを用いる。これらの構成要素は別々のプロセスとして、ネットワーク(LAN)上の複数の計算機で負荷分散して実行することが可能である。図１の例では、音声認識部をワークステーションで実行し、手書き文字入力管理部をタブレットＰＣ上で実行している。なおすべてをタブレットＰＣで実行することも理論的は可能であるが、計算速度を考慮すると付加分散することが好ましい。プロセス間の通信には、音声言語情報をネットワーク上で効率よく共有することを可能にするネットワークプロトコルRVCP （Remote Voice Control Protocol）（後藤真孝，伊藤克亘，秋葉友良，速水悟：“音声補完：音声入力インタフェースへの新しいモダリティの導入”，コンピュータソフトウェア，Vol.19，No.4，pp.10-21，2002.）を用いることができる。また音声認識部では、効率的なN-best探索手法を用いることにより、コンフュージョン・ネットワークの生成・送信をリアルタイムで実行することが可能になる。この点については、前述の緒方淳，後藤真孝共著の“音声訂正：“CHOICE” on Speech”（情処研報2004-SLP-54-54，pp.319-324，2004.）と緒方淳, 後藤真孝共著の“音声訂正：認識誤りを選択操作だけで訂正ができる新たな音声入力インタフェース”（WISS 2004論文集，pp.47-52，2004.）に記載の技術を利用する。

そして音声認識部は、逐次入力される発表者の発話に対して認識を行い、図７に示されるようなシンプルな入力予測候補（選択候補）をリアルタイムで生成することが好ましい。講演者により発声が開始されると、発声中のパワー情報をもとに発話区間が検出され、得られた区間ごとに認識処理が実行される。ここで音声認識部は、入力発話に対してN-best探索を行い、何らかの中間結果(複数候補)を生成する。通常、大語彙連続音声認識における中間結果(例えば単語グラフ、N-bestリスト)は非常に膨大な数の候補を含んでおり、図７のようなシンプルな入力予測候補（選択候補）を表現することは不可能である。そこで、前述の技術を利用すれば、入力予測候補（選択候補）の表現はスムーズに実現できる。

手書き文字入力管理部では、ユーザは例えば、電子白板上の任意の場所に任意の大きさで手書きを行うことができる。即ち、福島俊一，山田洋志共著の“予測ペン入力インタフェースとその手書き操作削減効果”（情処学論，Vol. 37，No. 1，pp. 23〜30，1996.）（非特許文献１６）などの多くの従来の手書き文字認識によるテキスト入力システムとは異なり、文字入力用のセル（長方形領域）への書き込みを強制されないようにするのが好ましい。これを実現するためには、文字認識に先立ち、まずストロークのセグメンテーション（ストロークを文字単位にグループ化する作業）を行う必要がある。前述の図５は、セグメンテーションと手書き文字認識の結果の一例を示している。日本語では文字が意味的な単位となるので文字単位のセグメンテーションを行うが、例えばヨーロッパ言語の場合には、語を単位とするセグメンテーションを行う必要がある。手書き文字認識の結果は、N-bestリストの系列として次の処理段階に送られる。現在の実装では、Microsoft（登録商標） Tablet PC Platform SDKの文字認識エンジンを用いる。そして手書き文字認識の結果をクエリとしてconfusion networkのデータベースを検索して選択候補を提示する。なおこの検索方法については、図３の実施の形態の説明において、図５を参照して説明したので省略する。

本発明の一実施の形態の構成の概念を説明するための図である。発表者を中心して、本実施の形態を実施する場合の構成の概略を示す図である。図２に示すように発表者を中心にして上記実施の形態の一例をコンピュータを用いて実現する場合にコンピュータ内に実現される機能実現手段を概略的に示したブロック図である。図２の構成をコンピュータを利用して実現する場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。手書き文字認識結果を説明するために用いる図である。実施の形態の装置の操作例を説明するための図である。選択候補の例と選択の方法を説明するために用いる図である。

符号の説明

１発表者
２受講者
３画面
５，９タブレットＰＣ
５Ａ画面
１１音声入力手段
１２音声認識手段
１３辞書手段
１４認識結果記憶手段
１５画面表示制御手段
１６手書き文字入力手段
１７手書き文字検出手段
１８手書き文字判別手段
１９選択候補決定手段
２０文字選択手段
２１文字確定手段
２２保存手段

Claims

発表者の声を入力するための音声入力手段と、
予め定めた判定手法に従って音声認識を行う音声認識手段と、
前記音声認識手段により認識された認識結果を記憶する認識結果記憶手段と、
画面の表示を制御する画面表示制御手段と、
作業者の手書き文字を検出して前記画面表示制御手段に手書き文字表示指令を出力する手書き文字検出手段と、
前記手書き文字に対応する文字を判別する手書き文字判別手段と、
前記認識結果記憶手段に記憶されている前記認識結果から、前記手書き文字判別手段が判別した前記手書き文字に対応する１種類以上の文字を先頭に含む１以上の文字列を予測し、予測した前記１以上の文字列から前記手書き文字に対応する文字を除いた１以上の文字からなる１以上の文字列構成部分に含まれる文字を選択候補として前記画面上に表示するための選択候補表示指令を前記画面表示制御手段に出力する選択候補決定手段と、
前記文字列構成部分から前記作業者のマニュアル操作により選択した文字を、前記手書き文字判別手段が判別した前記手書き文字に対応する文字と一緒に、前記作業者の手書き文字に近似したフォントで前記画面上に確定文字として表示するための確定文字表示指令を前記画面表示制御手段に出力する文字確定手段とを備え、
前記画面表示制御手段は、前記手書き文字表示指令が入力されると前記手書き文字を前記画面に表示し、前記選択候補表示指令が入力されると前記選択候補を前記画面上に表示し、前記確定文字表示指令が入力されると前記確定文字を前記手書き文字に代えて前記画面上に表示し、前記確定文字表示指令が入力されないときには、既に前記画面に表示された前記確定文字と一緒に前記手書き文字をそのまま前記画面上に表示し続けることを特徴とする手書き文字入力表示支援装置。
発表者の音声を入力するための音声入力手段と、
予め定めた判定手法に従って音声認識を行う音声認識手段と、
前記音声認識手段により認識された認識結果を記憶する認識結果記憶手段と、
画面の表示を制御する画面表示制御手段と、
作業者の手書き文字を検出して前記画面表示制御手段に手書き文字表示指令を出力する手書き文字検出手段と、
前記手書き文字に対応する文字を判別する手書き文字判別手段と、
前記認識結果記憶手段に記憶されている内容に基づいて、前記手書き文字判別手段が判別した前記手書き文字に対応する１種類以上の文字を先頭に含む１以上の文字列を予測し、予測した前記１以上の文字列から前記手書き文字に対応する文字を除いた１以上の文字からなる１以上の文字列構成部分に含まれる文字と、前記１以上の文字列構成部分に含まれる文字と競合する文字を選択候補として、前記画面に表示するための選択候補表示指令を前記画面表示制御手段に出力する選択候補決定手段と、
前記作業者のマニュアル操作により前記選択候補から選択した文字を、前記手書き文字判別手段が判別した前記手書き文字に対応する文字と一緒に、前記作業者の手書き文字に近似したフォントで前記画面上に確定文字として表示するための確定文字表示指令を前記画面表示制御手段に出力する文字確定手段とを備え、
前記画面表示制御手段は、前記手書き文字表示指令が入力されると前記手書き文字を前記画面に表示し、前記選択候補表示指令が入力されると前記選択候補を前記手書き文字に隣接して前記画面上に表示し、前記確定文字表示指令が入力されると前記確定文字を前記手書き文字に代えて前記画面上に表示し、前記確定文字表示指令が入力されないときには、既に前記画面に表示された前記確定文字と一緒に前記手書き文字をそのまま前記画面上に表示し続けることを特徴とする手書き文字入力表示支援装置。
前記画面に表示された前記手書き文字と前記確定文字とからなる文字データを、再利用可能に保存する保存手段を更に備えている請求項１または２に記載の手書き文字入力表示支援装置。
前記手書き文字の文字データと一緒に前記手書き文字判別手段が判別した前記手書き文字に対応する前記１種類上の文字についてのデータまたは前記選択候補が前記保存手段に保存される請求項３に記載の手書き文字入力表示支援装置。
前記選択候補決定手段は、新たに手書き文字が入力されたとき及び前記選択候補を表示してから予め定めた一定時間が経過したときに、前記画面に表示している前記選択候補を消去する指令を前記画面表示制御手段に出力するように構成されている請求項１に記載の手書き文字入力表示支援装置。
コンピュータを利用して、音声を認識し且つ手書き文字入力を認識し、音声認識の結果を利用して手書き文字入力を支援する手書き文字入力表示支援方法であって、
予め定めた判定手法に従って音声認識を行う音声認識ステップと、
前記音声認識ステップにより認識された認識結果を認識結果記憶手段に記憶する認識結果記憶ステップと、
作業者の手書き文字を検出して手書き文字表示指令を出力する手書き文字認識ステップと、
前記手書き文字に対応する文字を判別する手書き文字判別ステップと、
前記認識結果記憶手段に記憶されている前記認識結果から、前記手書き文字判別ステップで判別した前記手書き文字に対応する１種類以上の文字を先頭に含む１以上の文字列を予測し、予測した前記１以上の文字列から前記手書き文字に対応する文字を除いた１以上の文字からなる１以上の文字列構成部分に含まれる文字を選択候補として前記画面上に表示するための選択候補表示指令を出力する選択候補決定ステップと、
前記作業者のマニュアル操作により前記選択候補から選択した文字を、前記手書き文字判別ステップで判別した前記手書き文字に対応する文字と一緒に、前記作業者の手書き文字に近似したフォントで前記画面上に確定文字として表示するための確定文字表示指令を出力する単語確定ステップと、
前記手書き文字表示指令が出力されると前記手書き文字を前記画面に表示し、前記選択候補表示指令が出力されると前記選択候補を前記画面上に表示し、前記確定文字表示指令が出力されると前記確定文字を前記手書き文字に代えて前記画面上に表示し、前記確定文字表示指令が出力されないときには、既に前記画面に表示された前記確定文字と一緒に前記手書き文字をそのまま前記画面上に表示し続ける画面表示ステップとからなる手書き文字入力表示支援方法。
前記選択候補決定ステップでは、前記１以上の文字列構成部分に含まれる文字と、前記１以上の文字列構成部分に含まれる文字と競合する文字を選択候補として、前記画面に表示するための選択候補表示指令を出力することを特徴とする請求項６に記載の手書き文字入力表示支援方法。
前記画面に表示された前記手書き文字と前記確定文字とからなる文字データを、再利用可能に保存する保存ステップを更に備えている請求項６または７に記載の手書き文字入力表示支援方法。
前記手書き文字の文字データと一緒に前記手書き文字判別手段が判別した前記手書き文字に対応する前記１種類以上の文字についてのデータまたは前記選択候補が保存される請求項８に記載の手書き文字入力表示支援方法。
前記選択候補決定ステップでは、新たに手書き文字が入力されたとき及び前記選択候補を表示してから予め定めた一定時間が経過したときに、前記画面に表示している前記選択候補を消去する消去指令を出力し、前記画面表示ステップでは前記消去指令を受けて前記選択候補の表示を消去する請求項６に記載の手書き文字入力表示支援方法。
音声を認識し且つ手書き文字入力を認識し、音声認識の結果を利用して手書き文字入力を支援する手書き文字入力表示支援装置を、コンピュータを用いて実現するために、以下の手順をコンピュータに実行させるためのプログラムであって、
予め定めた判定手法に従って音声認識を行う音声認識手順と、
前記音声認識手順により認識された認識結果を認識結果記憶手段に記憶する認識結果記憶手順と、
作業者の手書き文字を検出して手書き文字表示指令を出力する手書き文字認識手順と、
前記手書き文字に対応する文字を判別する手書き文字判別手順と、
前記認識結果記憶手段に記憶されている前記認識結果から、前記手書き文字判別手順で判別した前記手書き文字に対応する１種類以上の文字を先頭に含む１以上の文字列を予測し、予測した前記１以上の文字列から前記手書き文字に対応する文字を除いた１以上の文字からなる１以上の文字列構成部分に含まれる文字を選択候補として前記画面上に表示するための選択候補表示指令を出力する選択候補決定手順と、
前記作業者のマニュアル操作により前記選択候補から選択した文字を、前記手書き文字判別手順で判別した前記手書き文字に対応する文字と一緒に、前記作業者の手書き文字に近似したフォントで前記画面上に確定文字として表示するための確定文字表示指令を出力する単語確定手順と、
前記手書き文字表示指令が出力されると前記手書き文字を前記画面に表示し、前記選択候補表示指令が出力されると前記選択候補を前記画面上に表示し、前記確定文字表示指令が出力されると前記確定文字を前記手書き文字に代えて前記画面上に表示し、前記確定文字表示指令が出力されないときには、既に前記画面に表示された前記確定文字と一緒に前記手書き文字をそのまま前記画面上に表示し続ける画面表示手順とを前記コンピュータに実行させるためのプログラム。
前記選択候補決定手順では、前記１以上の文字列構成部分に含まれる文字と、前記１以上の文字列構成部分に含まれる文字と競合する文字を選択候補として、前記画面に表示するための選択候補表示指令を出力することを特徴とする請求項１１に記載のプログラム。
前記画面に表示された前記手書き文字と前記確定文字とからなる文字データを、再利用可能に保存する保存手順を更にコンピュータに実行させる請求項１１または１２に記載のプログラム。
前記手書き文字の文字データと一緒に前記手書き文字判別手段が判別した前記手書き文字に対応する前記１種類以上の文字についてのデータまたは前記選択候補が保存される請求項１３に記載のプログラム。
前記選択候補決定手順では、新たに手書き文字が入力されたとき及び前記選択候補を表示してから予め定めた一定時間が経過したときに、前記画面に表示している前記選択候補を消去する消去指令を出力し、
前記画面表示ステップでは前記消去指令が入力されると前記選択候補を消去する請求項１１に記載のプログラム。