JP7189416B2

JP7189416B2 - 情報処理装置、制御方法、プログラム

Info

Publication number: JP7189416B2
Application number: JP2018120667A
Authority: JP
Inventors: 敬己下郡山
Original assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc
Current assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2022-12-14
Anticipated expiration: 2038-06-26
Also published as: JP2020003911A

Description

本発明は、取得したテキストを関連するテキストに対応づけることを支援する技術に関する。

従来から、複数の情報処理装置において入力された情報を文字列として時系列的に表示する技術がある。

例えば会議システムにおいては、音声による発話が音声認識によってテキストに変換され発話者以外の情報処理装置に接続された表示装置にて維持される技術がある。前記システムは、ろう者の会議参加を支援する目的などで使用されるが、逆に発話が苦手なろう者の発言を可能とするため、キーボードからの入力も可能である。すなわち音声による発話者と、ろう者によるキーボードからの入力が同時並行的に行われる場合がある。

しかしながら、例えば音声認識による会議システムにおいては、ろう者が他の発話者の発話内容を理解した後で、意見や質問を行う。このとき他の聴者が完全にリアルタイムで話者の発話を聞くのと違い、音声認識にかかる時間など発話内容の理解が遅れる場合もある。また一般的に、音声による発話よりもキーボード入力の方が、時間がかかる。これらの結果、ろう者の意見や質問は、もととなる発言から遅れたタイミングで他者に提示されることになり対応付けが分かりにくくなる。

その他、インターネット上のソーシャルネットワークシステムの普及率が上がり、多数のユーザが入力画面において対話することが多くなった。この場合もあるユーザが他のユーザに応答している間に短時間で話題が変化し、当該応答がどの話題に対するものであるか対応付けが分かりにくくなる場合がある。

この問題に対して、例えば特許文献１はユーザがコメントしようとしている前のコメントを予め指定することで、関連するコメントを階層的に表示し、コメント間の関係を分かりやすくする技術を提供している。

また特許文献２は、発言者のイメージを画面上の特定位置に配置し、その発言者の入力は対応するイメージの横に時系列的に表示することで発言者の発言順序が解りやすく、より臨場感のあるチャット機能を実現する技術を提供している。

特開２００２－１６３２１９号公報特開２００２－２８８１０２号公報

しかしながら特許文献１においては、ユーザは自分がこれから入力しようとするコメント（例えば質問）が、前の何れのコメント（説明）に対応するものであるかを指定する必要がある。これは説明に対してすぐに質問するのであれば容易である。しかし会議の場などでは、引き続く説明をある程度聞いた後、やはり自分の知りたい内容が含まれていない場合に質問することが多い。

その場合、ユーザは質問したい説明をある程度遡って確認する必要が発生することになる。あるいは、とりあえず自分が質問を入力する時点での最後の説明に対応づけておき、正確に対応する説明の位置は、後で回答すべき人が遡って確認しなければならないという問題が発生する。

また特許文献２においては、ユーザ１人々々の発言は時系列的に分かりやすくなるものの複数のユーザの同一のトピックに対する発言の関連性が時系列的に分かりやすくなるとは限らない。特に会議等においては問題になる。

本発明の目的は、前記の問題に鑑み、取得したテキストに対して、わかりやすい位置に表示させることを支援する技術を提供することである。

本発明は、テキストを取得する取得手段と、前記取得手段により新たにテキストを取得した場合に、すでに取得されたテキストのうち、前記新たに取得したテキストに対応するテキストを特定する特定手段と、前記特定手段にて複数の対応するテキストが特定された場合、前記特定された複数のテキストに係る表示位置を、前記新たに取得したテキストを表示する位置として選択受付可能に表示するよう制御する表示制御手段と、を備えることを特徴とする。

本発明により、取得したテキストに対して、わかりやすい位置に表示させることを支援する技術を提供することが可能となる。
なお本発明は、前述した「ろう者の会議参加を支援する音声認識システム」を例とするが、当該システムに限定するものではなく、複数の発言がほぼ同時に入力／閲覧されるシステムであって、それらの発言が関係を持つ可能性がある場合に適用可能なものである。

本発明の実施形態に係るシステム構成の一例を示す図である。本発明の実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。本発明の実施形態に係る機能構成の一例を示す図である。本発明の実施形態を説明するための発話の一例を示す図である。本発明の実施形態に係る処理を説明するフローチャートの一例である。本発明の実施形態に係るキーボードから入力した文字列を挿入する位置を特定する処理を説明するフローチャートの一例である。本発明の実施形態に係るキーボードから文字列を入力する画面の一例を示す図である。本発明の実施形態に係る他の発話群から関連する発話候補の抽出を説明するための図である。本発明の実施形態に係る関連する発話を抽出する際の制限事項を説明するための図である。本発明の実施形態に係る関連する発話が複数抽出された場合のユーザによる選択を説明するための図である。本発明の実施形態に係る関連する発話が選択された結果の画面の一例を示す図である。

以下、本発明の実施の形態を、図面を参照して詳細に説明する。
図１は、本発明の実施形態に係るシステム構成の一例を示す図である。

＜システム構成例１＞
本発明の実施形態に拘わるシステムは、音声認識サーバ１０１、情報処理端末１０２（発話者用１０２ａ、読者用／キーボード入力１０２ｂ、校正者用１０２ｃとする）で構成される。ユーザは情報処理端末１０２ａに接続されたマイク１０４で音声を入力する。情報処理端末１０２ａは、前記音声を音声認識サーバ１０１に送信して文字列に変換し情報処理端末１０２ａ～ｃに送り、情報処理端末１０２ａ～ｃで表示、ユーザに提示する。すなわち、情報処理端末１０２ａ～ｃは、音声の入力と文字列の出力の入出力双方を兼ね備えていてもよい。ここで出力される情報処理端末１０２においては、後述する読者用１０２ｂと校正者用１０２ｃが兼ねられていてもよいし、またそれぞれ専用の情報処理端末であってもよい。また出力は情報処理端末１０２に接続された表示装置上に対して行うが、プロジェクタなどを用いた構成も、本発明の実施形態に拘わるシステム構成とする。プロジェクタを使う場合であれば、情報処理端末１０２は発話者用の一台のみで、当該情報処理端末１０２ａに接続したプロジェクタからスクリーンに表示した音声認識結果の文字列を読者全員が読んでもよい。その場合、発話者用の前記情報処理端末１０２ａで直接、発話者自身あるいは別のユーザが校正者として誤認識を校正してもよい。

さらに音声認識サーバ１０１は、クラウド上に存在するものであってもよく、その場合には、本システムのユーザは後述する音声認識サーバ１０１上の機能を、クラウドサービスする形態であってもよい。これらのサービスを利用する形態であっても、本発明の実施形態に拘わるシステム構成とする。

＜システム構成例２＞
構成例１で説明した情報処理端末１０２ａ～ｃは、入出力を兼ね備えていたが、入力専用、出力専用と分かれていてもよい。

＜システム構成例３＞
音声認識サーバ１０１と情報処理端末１０２ａ～ｃは同一筐体であってもよい。すなわち、図１における情報処理端末１０２ａ～ｃのうちの１つに音声認識可能なソフトウェアがインストールされていて、音声認識サーバ１０１を兼ねていてもよい。

＜システム構成例４＞
前述のシステム構成例１～３に音声認識サーバ１０１は例であり、例えばＳＮＳサーバであってもよい。この場合、情報処理端末１０２は、ＳＮＳクライアントの端末となる。その他考えられるいかなるシステム、即ち複数のユーザがコミュニケーションを取るためのいかなるシステムであっても本願発明の請求項は、これらのシステムを含むものとする。

図２は、本発明の実施形態に係る音声認識サーバ１０１、情報処理端末１０２ａ～ｃに適用可能なハードウェア構成の一例を示すブロック図である。

図２に示すように、音声認識サーバ１０１、情報処理端末１０２ａ～ｃは、システムバス２０４を介してＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０２、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０３、入力コントローラ２０５、ビデオコントローラ２０６、メモリコントローラ２０７、通信Ｉ／Ｆコントローラ２０８等が接続された構成を採る。
ＣＰＵ２０１は、システムバス２０４に接続される各デバイスやコントローラを統括的に制御する。

また、ＲＯＭ２０３あるいは外部メモリ２１１には、ＣＰＵ２０１の制御プログラムであるＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）やＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や、各サーバあるいは各ＰＣが実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。また、本発明を実施するために必要な情報が記憶されている。なお外部メモリはデータベースであってもよい。

ＲＡＭ２０２は、ＣＰＵ２０１の主メモリ、ワークエリア等として機能する。ＣＰＵ２０１は、処理の実行に際して必要なプログラム等をＲＯＭ２０３あるいは外部メモリ２１１からＲＡＭ２０２にロードし、ロードしたプログラムを実行することで各種動作を実現する。

また、入力コントローラ２０５は、キーボード（ＫＢ）２０９や不図示のマウス等のポインティングデバイス等からの入力を制御する。

ビデオコントローラ２０６は、ディスプレイ２１０等の表示器への表示を制御する。尚、表示器は液晶ディスプレイ等の表示器でもよい。これらは、必要に応じて管理者が使用する。

メモリコントローラ２０７は、ブートプログラム、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶する外部記憶装置（ハードディスク（ＨＤ））や、フレキシブルディスク（ＦＤ）、あるいは、ＰＣＭＣＩＡ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒＭｅｍｏｒｙＣａｒｄＩｎｔｅｒｎａｔｉｏｎａｌＡｓｓｏｃｉａｔｉｏｎ）カードスロットにアダプタを介して接続されるコンパクトフラッシュ（登録商標）メモリ等の外部メモリ２１１へのアクセスを制御する。

通信Ｉ／Ｆコントローラ２０８は、ネットワークを介して外部機器と接続・通信し、ネットワークでの通信制御処理を実行する。例えば、ＴＣＰ／ＩＰ（ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ／ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）を用いた通信等が可能である。

尚、ＣＰＵ２０１は、例えばＲＡＭ２０２内の表示情報用領域へアウトラインフォントの展開（ラスタライズ）処理を実行することにより、ディスプレイ２１０上に表示することが可能である。また、ＣＰＵ２０１は、ディスプレイ２１０上のマウスカーソル（図示しない）等によるユーザ指示を可能とする。

本発明を実現するための後述する各種プログラムは、外部メモリ２１１に記録されており、必要に応じてＲＡＭ２０２にロードされることによりＣＰＵ２０１によって実行されるものである。
図３は、本発明の実施形態に係る機能構成の一例を示す図である。

なお、情報処理端末１０２は、発話者用１０２ａ、読者用／キーボード入力用１０２ｂ、校正者用１０２ｃの機能をそれぞれ別々の端末に持っても、共通した端末で持ってもよいので、ここではそれぞれを区別せずに説明する。

また以下の説明では特に区別が必要な場合を除き、音声認識により入力された文字列、キーボードを用いて入力された文字列を「発話」と呼ぶことにする。あくまで便宜上の言葉であり、アプリケーションによる呼び方（メッセージ、コメント、投稿など）と区別するものではない。

音声取得部３１１は、情報処理端末１０２が内蔵している、あるいは接続されたマイクなどから話者の音声による発話を音声データとして入力し、音声データ送信部３１２により音声認識サーバ１０１に送信する。

音声認識サーバ１０１は、音声データ受信部３２１で受信した音声データを音声認識部３２２に渡して音声データを文字列に変換し、当該文字列を認識結果送信部３２３により情報処理端末１０２に認識結果として送り返す。また、前述の認識結果を認識結果管理部３２４により認識結果記憶部３２０に格納する。

情報処理端末１０２は、前記文字列を認識結果受信部３１３にて受信し、表示部３１４により表示することで読者（情報処理端末１０２のユーザ）に提示する。

キーボード操作受付部３１５は、読者（例えばろう者）がキーボードから入力することで、発話の機会を提供する機能部である。

前記キーボード入力結果は、情報処理端末１０２のキーボード入力情報送信部３１６により、音声認識サーバ１０１に送信され、音声認識サーバ１０１のキーボード入力情報受信部３２５が受信し、認識結果記憶部３２０に格納されている発話に関する情報を更新する。ただし、その時点で記憶されている既に格納されている他の認識結果の中のいずれの位置に挿入するかは未確定であり、挿入位置は後述の処理で決定される。

関連づけ処理部３２６は、ユーザがキーボードから入力した発話を挿入する位置を特定するための機能部である。説明として音声認識による会議支援を例示しているので、例えば音声認識により得られている発話や、他のユーザがキーボードから入力した発話など、発話全体から、前記ユーザがキーボードから入力した発話がどの位置の発話に関連するものであるかを特定する。

関連候補送信部３２７は、前記関連づけ処理部３２６で特定したキーボード入力された発話の関連する位置を情報処理端末１０２に送信する機能部である。複数の位置が特定された場合には、ユーザに選択させるべく前記複数の位置情報を送信する。情報処理端末１０２の関連候補受信部３１７は、これら発話の位置情報を受信し、関連候補選択・送信部３１８にてユーザに提示、選択させ、その結果を音声認識サーバ１０１の選択情報受信部３２８に送信する。

前記選択情報受信部３２８は、受信した情報に基づき、前記キーボードから入力された発話の挿入位置により、認識結果記憶部３２０の発話に関する情報（この場合は挿入位置）を更新する。

図４は、本発明の実施形態を説明するための発話の一例を示す図である。この図では一人が声による発言をして音声認識を用いて文字列に変換して表示している。キーボードからの発話はまだない状態である。これはあくまで例であって、複数の人の音声による発話、キーボード入力による発話が既に混在していてもよい。

図４の例では、発話は１～１６に区切られている。通常、音声認識においては一定時間音声の入力が途切れた場合などに発話を区切っていく。これは音声認識に関する周知の技術であり、また本発明の本質とは関係がないため詳細の説明を割愛する。

内容としては、ある会社の会議で、代表者が業績についての説明を行っている。その中で、商品Ａ～Ｃ、売上げ、商戦などの用語が多く含まれている。これにより例えば、発話１～３、８～９、１３～１５が商品Ａの売上げについて発話している部分であると認識し、それ以外の部分では話題が異なる、ということが分析可能である。文章の話題の変化を判定する技術は周知の技術であり、特開２０１６－０４０６６０号公報、特開２０１８－０４９４７８号公報などにも記載されているため詳細の説明は割愛する。

図５は、本発明の実施形態に係る処理を説明するフローチャートの一例である。図５のフローチャートの各ステップは、音声認識サーバ１０１上のＣＰＵ２０１、および、情報処理端末１０２ａ～ｃ上のＣＰＵ２０１で実行される。

ステップＳ５０１においては、情報処理端末１０２ａに接続されたマイクなどを通して発話者の発話を受け付け、音声データに変換する。

ステップＳ５０２においては、情報処理端末１０２ａは、前記音声データを音声認識サーバ１０１に送信し、ステップＳ５０３により音声認識サーバ１０１にて受信する。

ステップＳ５０４においては、音声認識サーバ１０１は、前記音声データにおける発話者の発話を音声認識により文字列に変換する。

ステップＳ５０５においては、音声認識サーバ１０１は、ステップＳ５０４における変換結果の文字列を情報処理端末１０２ａに送信する。システム内に複数の情報処理端末１０２が接続されている場合には、発話を入力した情報処理端末１０２ａのみではなく全ての情報処理端末１０２に前記文字列を送信する。発話者が使用し音声データを入力した情報処理端末１０２ａに対しても発話者自身が音声認識結果を確認するため送信してもよい。

ステップＳ５０６においては、情報処理端末１０２は、前記文字列を受信し、発話者／読者に発話の時系列順に提示する。

ステップＳ５０７においては、音声認識サーバ１０１は、音声認識の結果を認識結果記憶部３２０に格納する。

ステップＳ５０８においては、情報処理端末１０２のユーザ（例えばろう者）が、他者の発話（図４など）を見て、キーボード入力により発話しようとする場合の処理を受け付ける。ステップＳ５０８で入力された発話は、音声認識サーバ１０１に送られ、ステップＳ５０９により関連する発話位置（図４の発話１～３）に前記キーボード入力による発話の文字列を挿入する。ステップＳ５０８、ステップＳ５０９の詳細は、図６のフローチャートと図７～１０の画面（情報処理端末１０２側）などの例を用いて後述する。

ステップＳ５１０においては、前記キーボード入力による発話を挿入した結果を、情報処理端末１０２に送信する。ステップＳ５１１においては、ステップＳ５１０から送信された情報を受信し、情報処理端末１０２の表示装置によりユーザに提示する。
以上で、図５のフローチャートを用いた説明を完了する。

図６は、本発明の実施形態に係るキーボードから入力した文字列を挿入する位置を特定する処理を説明するフローチャートの一例を示す図である。図６のフローチャートの各ステップは、音声認識サーバ１０１上のＣＰＵ２０１、および、情報処理端末１０２ｂ上のＣＰＵ２０１で実行される。

フローチャートの音声認識サーバ１０１（左側の処理）は、図５のステップＳ５０９、情報処理端末１０２ｂ（右側の処理）は、図５のステップＳ５０８に対応する。

ステップＳ６２１においては、情報処理端末１０２ｂ（キーボード入力用）が、ユーザがキーボード入力を開始する操作を受け付ける。具体的な例としては、図７の発話表示画面（図４の発話を実際に表示した画面）のキー入力開始ボタン７０１をユーザが押下する操作を受け付けると、キー入力画面７０２を表示し、同時にキー入力が開始された旨を音声認識サーバ１０１に通知する。

ステップＳ６０２においては、音声認識サーバ１０１が情報処理端末１０２ｂにおいてキーボード入力を開始した旨を受け付ける。この処理は、キーボード入力を開始した時点を時刻、音声認識および他のユーザのキーボード入力による発話との位置関係を記憶することにより、当該キーボード入力の挿入位置を管理するものであり、詳細は後述する。

ステップＳ６２２においては、図７のキー入力画面７０２でユーザのキーボード入力を受け付ける。例として図４の発話位置２の発話に対する質問が入力されている。質問の入力後、ユーザの入力完了ボタン７０３押下を受け付け、入力が完了した旨の通知を音声認識サーバ１０１に送信する。

ステップＳ６０２においては、ステップＳ６２２から入力完了の通知と入力された文字列（発話）を受信する。

ステップＳ６０３においては、当該発話の挿入位置を探す範囲、すなわち発話の起点と終点を決定する。このことを詳細に説明する。

ステップＳ６０２で受信した発話の挿入位置を後述の処理（ステップＳ６０４～Ｓ６１１）で決定するために、既に登録されている発話のどの範囲を類似の発言の検索対象とするかを決定する必要がある。具体的な起点の決定方法としては、例えば、ステップＳ６０１でキーボード入力が開始された通知を受信した時に完了していた他の最後の発話を起点としてもよい。あるいはステップＳ６０２で入力完了の通知を受信した時点で既に完了していた他の最後の発話を起点としてもよい。他の例として、そもそも発話をしたときはそれ以前の発話に対する意見や質問であろうから、ステップＳ６０１で入力開始の通知を受信した時点としてもよい。これらはあくまで例であり設計事項である。本説明では、例として入力完了した時点で既に登録されている最後の発話を起点とする。

終点については、それ以上前方に遡って挿入位置を探さないという境界位置である。終点については、例えば、特に境界を設けず既に登録されている先頭まで全てを検索対象としてもよい。あるいは文字数や発話の時間経過を用いて、例えば「１，０００文字以上は遡らない」、「実際の発話の時間としてキーボードでの入力完了を受け付けたときから３分以上前の発話は遡らない」としてもよい。あるいは図９を例として説明すると、発話全体が表示装置に収まるわけではなく、発話１～７までは既に情報に隠れてしまいユーザがスクロールしない限りは閲覧できなくなっている。このような場合、表示装置に収まっている発話８～１６までの範囲で類似の発言を検索するとしてもよい。

以上のように、起点と終点を決定しておき、次のステップＳ６０４～ステップＳ６１１の繰り返し処理を実行する。前述の通りこれはあくまで例であり、図６のフローチャートでは説明していないが、例えば何らかの条件で終点は動的に変更されてもよい。

ステップＳ６０４からステップＳ６１１は、ステップＳ６０２で受信した発話を、発話（図４）の中のどの位置に挿入するかを判定するための繰り返し処理である。この繰り返し処理は発話を時系列に遡りながら実行するが、その起点をどこにするかは設計事項となる。後述の説明の中で具体例を幾つか提示する。

ステップＳ６０５においては、次に類似度を計算しようとする登録済みの発話が、すでに終点を超えているか否かを判定する。具体的には、ステップＳ６０３で決定した終点の位置と比較する。超えていない場合にはステップＳ６０６に進む。超えている場合には繰り返し処理を抜けてステップＳ６１２に進む。

ステップＳ６０６においては、発話が意図するトピック（主題）を判定するための範囲を設定する。具体的には、現在着目している登録済みの発話を単体で範囲としてもよい。あるいは、前の発話に遡りながらトピックが変わるところまでを探し、複数の発話で１つのものと考え、キーボードから入力された発話との類似度を計算してもよい（類似度の計算については後述）。また現在の繰り返し処理に入る前段階で、発言全体に対して予めトピックの境界を判定しておき、現在説明している例のように発話を１つずつ遡るのではなく、トピックの区切り毎に遡っていってもよい。逆に１つの発話に着目した時点で毎回、その発話を含んで同一のトピックとなる範囲を決定してもよい。

トピックの境界（話題が切り替わった位置）を決定することは周知の技術であり、特開２００７－２４１９０２号公報、特開２００４－２３４５１２号公報などにも記載があるため詳細の説明は割愛する。例えば前述したように、図４の発話位置１～３は各々１つのトピックとなる範囲を表しており、いずれも商品Ａの売上げに関する内容を含んでいるものである。

ステップＳ６０７においては、ステップＳ６０６で範囲を決定した１つの発話（あるいは同一トピックとして決定した１組の発話）と、ステップＳ６０２で受信した発話の類似度を計算する。
類似度について図８を用いて説明する。

＜類似度計算の例１＞
キーボード入力された発話には、発話位置１～３と共通する言語的特徴（ここでは単語）が含まれている。「商品Ａ」、「商品Ｂ」、「クリスマス」、「商戦」という単語である。これらが一致する場合には１点を付与するものとする。この場合、発話位置１～３はそれぞれ、２点、５点、３点となる。この中で同一の単語は発話位置２の文に一番多く含まれているため最も類似していると考えられる。

＜類似度計算の例２＞
また「商品Ａ」、「商品Ｂ」などはこの組織において特有な固有名詞であるため、重みを上げる（例えば２点とする）ことで、更に類似度は高くなる。この場合、発話位置１～３はそれぞれ、４点、８点、６点となる。

＜類似度計算の例３＞
前述の例１，２では文の長さ（文字列中の文字の数）が多くなればなるほど、同一の単語の数が出現する可能性は高くなることから、文の長さに応じてスコアを調整することも一般的に行われる。例えば単純に文字数で除してもよい。この場合、（最低点の発話位置１が前項と同じく４点になるよう１００倍して四捨五入すると）発言位置１～３はそれぞれ、４点、１２点、５点となる。

ここでは類似度の計算を単純化して説明したが、テキスト同士の類似度計算については様々な周知の技術があり、例えば特開２０１７－０９１３９９号公報、特開２０１７－１８８０３９公報などにも記載があるため詳細の説明は割愛する。

また、後述のステップＳ６０９で、類似度がある閾値を超えたものをキーボード入力された発話に関連する発話として登録するが、閾値を超えるものがない場合に備えるため、ステップＳ６０７で類似度が最高点のものだけを記憶しておき、後で利用してもよい。

ステップＳ６０８においては、ステップＳ６０７で計算した類似度が、予め設定した閾値を超えたか否かを判断する。具体的には、設定ファイル（不図示）あるいはプログラム中に閾値を記憶しておき、その閾値との値の大小を比較する。「超えたか」と表現しているがこれは設計事項であり「閾値以上か」と等号を含めてもよい。またいずれかの計算式を用いて比較してもよい。

いずれにしても閾値に基づいて判断する。閾値を超える（あるいは閾値以上である）場合には、ステップＳ９０９に進み、挿入位置の候補として登録する。そうでない場合には繰り返し処理の最初に戻り、次の発言（終点側なので前方の発言）に遡って類似度の計算を継続する。

ステップＳ６０９においては、ステップＳ６０８で閾値を超えると判断された発話（あるいは発話の範囲）を、キーボード入力された発話の挿入位置の候補として、発話の内容を登録する。

ステップＳ６１０においては、キーボード入力された発話の挿入位置を複数認めるか否かを判定する。具体的には、設定ファイル（不図示）あるいはプログラム中に複数候補を認めるか否かを判定フラグとして記憶しておき、その値に基づいて判定する。

あるいは、例えば前記ステップＳ６０８の閾値よりも大きな値の第２の閾値を同様に記憶し、前述の閾値を超えたものがあっても、第２の閾値を超えたものがない場合は複数認める、一方、第２の閾値を超えたものがあればそれ以上の候補を登録することは認めない、というように動的に判定するのでもよい。いずれにしても設計事項である。

前述の処理により繰り返し処理（Ｓ６０４～Ｓ６１１）を終了すると、１つまたは複数の挿入位置の候補が格納されている。ここで１つの場合にはその位置に挿入するが、複数ある場合にはキーボード入力による発話を行ったユーザに選択させてもよい。あるいはもっとも類似度が高い発話の直後に挿入してもよい。具体的には、図７の発話表示画面７００ｂにおいてキーボード入力文が挿入される位置を例示している。これは類似度が最も高かった発話位置２（発話８～９の直後）に挿入した例である。

複数の挿入位置候補がありユーザに選択させる場合には、ステップＳ６１２においては、挿入位置候補一覧を情報処理端末１０２ｂに送信する。

ステップＳ６２３においては、複数の挿入位置候補を受信しユーザに提示する。ここでは例えば、図４の発話位置２、３が挿入候補になったとする。具体的には例えば図１０の挿入位置の選択１０００ａのように、情報処理端末１０２ｂのディスプレイの発話を表示している画面中で、発話位置２、３の直後に（挿入位置候補１、２の標識のような）識別可能な標識を表示する。

あるいは、発話を表示している画面とは別に選択操作をするダイアログを表示してもよい（挿入位置の選択１０００ｂ）。この場合は、スクロールすることでディスプレイ内には既に表示されていない候補も表示し、ユーザの選択対象として提示することが可能となる。

ステップＳ６２４においては、ステップＳ６２３で提示した挿入位置の選択画面（図１０）でユーザの選択を受け付け、その選択した位置を音声認識サーバ１０１に送信する。

ステップＳ６１３においては、選択された挿入位置とキーボードからの発話を関連付けて認識結果記憶部３２０に登録し、選択された挿入位置にキーボードからの発話を挿入して、前述のステップＳ５１１の通り情報処理端末１０２（ａおよびｂ）においてユーザに提示する。情報処理端末１０２での表示の一例を図１１に示す。図１１は、図１０の挿入位置の選択で挿入位置候補１が選択された場合の表示例である
以上で、図６のフローチャートを用いた説明を完了する。

なお例として類似度を算出する発話の起点を特定するに際して、ステップＳ６０３で時系列的に後方にとり、ステップＳ６０４からステップＳ６１１の繰り返し処理は、起点から前方の終点まで遡っていく方法としたが、逆に発話の起点を前方に取りそこから時系列的に後方の終点まで辿ってもよい。その場合、始点と終点は逆になるが、その決定方法は前述と同様である。後方から前方に辿ったのは説明上の便宜的なものであり、方式を限定するものではない。あくまで設計事項である。以上で図６～図１１を用いたキーボードから入力した文字列を挿入する位置を特定し表示する処理の説明を完了する。

なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な構成や内容で構成されることは言うまでもない。

以上、いくつかの実施形態について示したが、本発明は、例えば、システム、装置、方法、コンピュータプログラムもしくは記録媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

また、本発明におけるコンピュータプログラムは、図５～図６に示すフローチャートの処理方法をコンピュータが実行可能なコンピュータプログラムであり、本発明の記憶媒体は図５～図６の処理方法をコンピュータが実行可能なコンピュータプログラムが記憶されている。なお、本発明におけるコンピュータプログラムは図５～図６の各装置の処理方法ごとのコンピュータプログラムであってもよい。

以上のように、前述した実施形態の機能を実現するコンピュータプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたコンピュータプログラムを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。

この場合、記録媒体から読み出されたコンピュータプログラム自体が本発明の新規な機能を実現することになり、そのコンピュータプログラムを記憶した記録媒体は本発明を構成することになる。

コンピュータプログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ－ＲＯＭ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＥＥＰＲＯＭ、シリコンディスク、ソリッドステートドライブ等を用いることができる。

また、コンピュータが読み出したコンピュータプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのコンピュータプログラムの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記録媒体から読み出されたコンピュータプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのコンピュータプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にコンピュータプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのコンピュータプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。

さらに、本発明を達成するためのコンピュータプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。

１０１音声認識サーバ
１０２情報処理端末
３１１音声取得部
３１２音声データ送信部
３１３認識結果受信部
３１４表示部
３１５キーボード操作受付部
３１６キーボード入力情報送信部
３１７関連候補受信部
３１８関連候補選択・送信部
３２０認識結果記憶部
３２１音声データ受信部
３２２音声認識部
３２３認識結果送信部
３２４認識結果管理部
３２５キーボード入力結果受信部
３２６関連づけ処理部
３２７関連候補送信部
３２８選択情報受信部

Claims

テキストを取得する取得手段と、
前記取得手段により新たにテキストを取得した場合に、すでに取得されたテキストのうち、前記新たに取得したテキストに対応するテキストを特定する特定手段と、
前記特定手段にて複数の対応するテキストが特定された場合、前記特定された複数のテキストに係る表示位置を、前記新たに取得したテキストを表示する位置として選択受付可能に表示するよう制御する表示制御手段と、
を備えることを特徴とする情報処理装置。
前記表示制御手段は、前記取得手段により取得したテキストを取得した順に表示し、前記新たに取得されたテキストであって前記特定手段により対応するテキストが特定されたテキストについては、取得した順にかかわらず当該特定されたテキストに対応付けて表示するよう制御することを特徴とする請求項１に記載に記載の情報処理装置。
前記対応するテキストは、関連ある複数のテキストをまとめたテキストであることを特徴とする請求項１または２に記載の情報処理装置。
前記特定手段は、所定の時間範囲内に取得されたテキストの中で前記対応するテキストを特定することを特徴とする請求項１～３のいずれか１項に記載の情報処理装置。
前記特定手段は、前記表示制御手段により表示するよう制御されているテキストの中で前記対応するテキストを特定することを特徴とする請求項１～４のいずれか１項に記載の情報処理装置。
前記表示制御手段は、選択受付可能に表示した表示位置の中から選択を受け付けた表示位置に前記新たに取得したテキストを表示するよう制御することを特徴とする請求項１～５のいずれか１項に記載の情報処理装置。
前記特定手段は、前記新たに取得したテキストと前記すでに取得されたテキストとの類似度に基づいて、前記対応するテキストを特定することを特徴とする請求項１～６のいずれか１項に記載の情報処理装置。
情報処理装置の制御方法であって、
取得手段が、テキストを取得する取得ステップと、
特定手段が、前記取得ステップにて新たにテキストを取得した場合に、すでに取得されたテキストのうち、前記取得したテキストに対応するテキストを特定する特定ステップと、
表示制御手段が、前記特定ステップにて複数の対応するテキストが特定された場合、前記特定された複数のテキストに係る表示位置を、前記新たに取得したテキストを表示する位置として選択受付可能に表示するよう制御する表示制御ステップと、
を含むことを特徴とする情報処理装置の制御方法。
情報処理装置において実行可能なプログラムであって、
前記情報処理装置を、
テキストを取得する取得手段と、
前記取得手段により新たにテキストを取得した場合に、すでに取得されたテキストのうち、前記新たに取得したテキストに対応するテキストを特定する特定手段と、
前記特定手段にて複数の対応するテキストが特定された場合、前記特定された複数のテキストに係る表示位置を、前記新たに取得したテキストを表示する位置として選択受付可能に表示するよう制御する表示制御手段と、
として機能させるためのプログラム。