JP2021128222A

JP2021128222A - 情報処理装置及びプログラム

Info

Publication number: JP2021128222A
Application number: JP2020021862A
Authority: JP
Inventors: 博仁柴田; Hirohito Shibata; 千登林; Kazutaka Hayashi
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2021-09-02

Abstract

【課題】文字列の入力において音声入力及び手書き入力のいずれか一方だけを用いる場合に比べて文字列の入力を容易にすること。
【解決手段】音声文字列認識部１０２は、音声が示す音声文字列を認識する。手書き内容認識部１０３は、手書きの内容を認識する。手書き情報取得部１０４は、手書きに関する情報を取得する。文字列生成部１０５は、認識された音声文字列と、認識された手書きの内容とを、取得された手書きに関する情報に応じて編集した文字列を生成する。文字列生成部１０５は、具体的には、手書きに関する情報が示す手書き時刻と認識された音声文字列が発声された時刻とを時系列に並べた文字列を生成する。画面表示制御部１０１生成された文字列をディスプレイに表示させる。
【選択図】図２

Description

本発明は、情報処理装置及びプログラムに関する。

特許文献１には、表意文字に関係付けられた音声情報に応じて可能な表意文字の候補リストから手書きのストローク情報を使用して所望の表意文字を得る技術が記載されている。

特開２００４−４６８０７号公報

音声や手書きで文字を入力する技術が利用されている。音声での文字列の認識は年々精度が向上しているが、口頭で話す際には句読点や記号などをいちいち発声しないので、認識処理において句読点や記号等が適切に付与されるとは限らない。また、口頭で文字列を話すとともに句読点や記号を付与する位置で「くとうてん」「かっことじる」といった語句を話すことも考えられるが、慣れてないと入力が難しい。一方、手書きでの文字入力は、長文だと手間がかかるといった問題がある。
そこで、本発明は、文字列の入力において音声入力及び手書き入力のいずれか一方だけを用いる場合に比べて文字列の入力を容易にすることを目的とする。

本発明の請求項１に係る情報処理装置は、プロセッサを備え、前記プロセッサが、音声が示す音声文字列を認識し、手書きの内容を認識し、前記手書きに関する情報を取得し、認識された前記音声文字列と、認識された前記手書きの内容とを、取得された前記手書きに関する情報に応じて編集した文字列を生成することを特徴とする。

本発明の請求項２に係る情報処理装置は、請求項１に記載の態様において、前記プロセッサは、取得された前記手書きに関する情報が手書きの時刻を示す場合に、当該時刻と認識された前記音声文字列が発声された時刻とを時系列に並べた文字列を生成することを特徴とする。

本発明の請求項３に係る情報処理装置は、請求項１に記載の態様において、前記プロセッサは、取得された前記手書きに関する情報が手書きの時刻を示す場合に、認識された前記音声文字列が示す文章の切れ目となる部分が発声された時刻に最も近い時刻に描かれた手書きの文字を当該切れ目に配置して並べた文字列を生成することを特徴とする。

本発明の請求項４に係る情報処理装置は、請求項３に記載の態様において、前記プロセッサは、認識された音声文字列の一部の語句と、当該語句が発声された時刻との差分が閾値未満の時刻に手書きされた語句とが同じ内容を示す場合は当該一部の語句を当該手書きの語句で表した文字列を生成することを特徴とする。

本発明の請求項５に係る情報処理装置は、請求項１に記載の態様において、前記プロセッサは、認識された前記音声文字列における位置に対応して手書き入力のための領域を配置した画像を表示させ、当該領域の配置を前記手書きに関する情報として用いて、当該音声文字列における位置のうち、前記手書き入力のための領域の配置に対応する位置に当該領域に入力された手書きの内容を配置した文字列を生成することを特徴とする。

本発明の請求項６に係る情報処理装置は、請求項１から５のいずれか１項に記載の態様において、前記プロセッサは、生成された前記文字列において前記手書きの内容が配置された位置の履歴に基づいて前記手書きの内容を配置する位置の傾向を判定し、判定された前記傾向に応じた位置に、認識された前記手書きの内容を配置した文字列を生成することを特徴とする。

本発明の請求項７に係る情報処理装置は、請求項６に記載の態様において、前記プロセッサは、生成された文字列の修正履歴を蓄積し、蓄積された前記修正履歴にも基づいて前記傾向を判定することを特徴とする。

本発明の請求項８に係るプログラムは、プロセッサを備えるコンピュータに、音声が示す音声文字列を認識し、手書きの内容を認識し、前記手書きに関する情報を取得し、認識された前記音声文字列と、認識された前記手書きの内容とを、取得された前記手書きに関する情報に応じて編集した文字列を生成する手順を実行させるためのものであることを特徴とする。

請求項１、８に係る発明によれば、文字列の入力において音声入力及び手書き入力のいずれか一方だけを用いる場合に比べて文字列の入力を容易にすることができる。
請求項２に係る発明によれば、音声文字列のうちの意図した位置に手書き内容を配置することができる。
請求項３に係る発明によれば、手書きのタイミングが少しずれても意図した位置に手書き内容を配置することができる。
請求項４に係る発明によれば、ユーザは意図した種類の文字を入力することができる。
請求項５に係る発明によれば、手書きのタイミングを気にすることなく音声での入力をすることができる。
請求項６に係る発明によれば、音声文字列において登場する順番を気にせずに手書きの内容を入力することができる。
請求項７に係る発明によれば、修正履歴を用いない場合に比べて、手書きの内容を配置する位置の傾向の判定の精度を向上させることができる。

実施例に係る表示装置のハードウェア構成を表す図表示装置が実現する機能構成を表す図文字列入力アプリの画面の一例を表す図生成された音声文字列データの一例を表す図生成された手書き内容データの一例を表す図時系列に並べた発声時刻と手書き時刻の一例を表す図文字列入力後の文字列入力アプリの画面の一例を表す図表示処理における動作手順の一例を表す図変形例の文字列生成の一例を表す図変形例の手書き入力欄の一例を表す図変形例の手書き入力欄の別の一例を表す図変形例の手書き入力欄の別の一例を表す図変形例の表示装置が実現する機能構成を表す図蓄積された位置音履歴の一例を表す図変形例での文字列の表示の一例を表す図

［１］実施例
図１は実施例に係る表示装置１０のハードウェア構成を表す。表示装置１０は、ユーザによって入力された文字列を表示する処理を行う装置であり、本発明の「情報処理装置」の一例である。表示装置１０は、プロセッサ１１と、メモリ１２と、ストレージ１３と、通信装置１４と、ＵＩ装置１５（ＵＩ＝User Interface）とを備えるコンピュータである。

プロセッサ１１は、例えば、ＣＰＵ（＝Central Processing Unit）等の演算装置、レジスタ及び周辺回路等を有する。プロセッサ１１は本発明の「プロセッサ」の一例である。メモリ１２は、プロセッサ１１が読み取り可能な記録媒体であり、ＲＡＭ（＝Random Access Memory）及びＲＯＭ（＝Read Only Memory）等を有する。ストレージ１３は、プロセッサ１１が読み取り可能な記録媒体であり、例えば、ハードディスクドライブ又はフラッシュメモリ等を有する。

プロセッサ１１は、ＲＡＭをワークエリアとして用いてＲＯＭやストレージ１３に記憶されているプログラムを実行することで各ハードウェアの動作を制御する。プロセッサ１１は、例えば、文字列を入力するためのアプリケーションプログラム（＝文字列入力アプリ）を実行して文字列の入力を受け付ける。なお、文字列入力アプリは、他のアプリケーションプログラムの一部を成すモジュールとして実装されていてもよい。

通信装置１４は、アンテナ及び通信回路等を有し、図示せぬ通信回線を介した通信を行う。プロセッサ１１が実行するプログラムは、通信装置１４を介して通信される外部装置から取得されてもよい。ＵＩ装置１５は、自装置を利用するユーザに対して提供されるインターフェースである。インターフェースとは、ユーザによる情報の入力を受け付け、表示装置１０による情報の出力を行う装置である。

ＵＩ装置１５は、表示手段であるディスプレイとディスプレイの表面に設けられたタッチパネルとを有するタッチスクリーン１６を有し、画像を表示するとともに、ユーザからの操作を受け付ける。ＵＩ装置１５は、キーボード等の操作子を有し、それらの操作子への操作を受け付ける。また、ＵＩ装置１５は、音を収集するマイクロフォン１７を有し、マイクロフォン１７を介した音声による入力も受け付ける。

表示装置１０においては、プロセッサ１１がプログラム（文字列入力アプリ）を実行して各部を制御することで、以下に述べる機能が実現される。
図２は表示装置１０が実現する機能構成を表す。表示装置１０は、画面表示制御部１０１と、音声文字列認識部１０２と、手書き内容認識部１０３と、手書き情報取得部１０４と、文字列生成部１０５とを備える。

画面表示制御部１０１は、文字列入力アプリの画面の表示を制御する。
図３は文字列入力アプリの画面の一例を表す。画面表示制御部１０１は、図３の例では、文字列表示欄Ａ１と、手書き入力欄Ａ２とを表示している。文字列表示欄Ａ１は、ユーザにより入力された文字列が表示される欄である。手書き入力欄Ａ２は、ユーザが手書きの入力を行う欄である。

音声文字列認識部１０２は、マイクロフォン１７が収集した音声が示す音声文字列を認識する。音声文字列認識部１０２は、周知の音声認識技術を用いて音声を認識し、認識した音声文字列を示す音声文字列データを生成する。
図４は生成された音声文字列データの一例を表す。音声文字列認識部１０２は、図４の例では、音声が示す語句（＝音声語句）と、各音声語句が発声された時刻（＝発声時刻）とを対応付けた音声文字列データを生成している。

例えば「私は今朝」という音声語句は「１７：４５３２８５７」（＝１７時４５分３２秒８５７）という発生時刻に対応付けられている。以降、「に相談」、「特許の件」及び「に行きました」という音声語句がそれぞれ発生時刻に対応付けられている。音声文字列認識部１０２は、生成した音声文字列データを文字列生成部１０５に供給する。

手書き内容認識部１０３は、手書き入力欄Ａ２に対して行われた手書きの内容を認識する。手書き内容認識部１０３は、例えば周知のパターンマッチング技術を用いて手書きの内容を認識し、認識した手書き内容を示す手書き内容データを生成する。
図５は生成された手書き内容データの一例を表す。手書き内容認識部１０３は、図５の例では、手書き内容と、各手書きがされた時刻（＝手書き時刻）とを対応付けた手書き内容データを生成している。

例えば１つ目の「、」という読点は「１７：４５３４２２１」（＝１７時４５分３４秒２２１）という手書き時刻に対応付けられている。以降、「Ｙ」、「Ｍ」、「Ｍ」、「＜」、「＞」及び「。」という手書き内容がそれぞれ手書き時刻に対応付けられている。手書き内容認識部１０３は、生成した手書き内容データを画面表示制御部１０１、手書き情報取得部１０４及び文字列生成部１０５に供給する。

手書き情報取得部１０４は、手書き入力欄Ａ２に対して行われた手書きに関する情報を取得する。手書き情報取得部１０４は、本実施例では、手書きの時刻を示す情報を手書きに関する情報として取得する。手書きの時刻を示す情報とは、例えば図５に表す手書き内容データが示す手書き内容と手書き時刻のことである。手書き情報取得部１０４は、取得した手書きに関する情報を文字列生成部１０５に供給する。

文字列生成部１０５は、供給された音声文字列データ、手書き内容データ及び手書きに関する情報に基づいて文字列を生成する。詳細には、文字列生成部１０５は、音声文字列認識部１０２により認識された音声文字列と、手書き内容認識部１０３により認識された手書きの内容とを、手書き情報取得部１０４により取得された手書きに関する情報に応じて編集した文字列を生成する。

文字列生成部１０５は、本実施例では、手書きに関する情報が示す手書き時刻と認識された音声文字列が発声された時刻（＝発声時刻）とを時系列に並べた文字列を生成する。
図６は時系列に並べた発声時刻と手書き時刻の一例を表す。図６では、図４に表す発声時刻及び図５に表す手書き時刻が時系列に並べられている。

文字列生成部１０５は、発声時刻及び手書き時刻を時系列に並べた場合に、各時刻に対応する音声語句及び手書き内容を同じ順番で並べた文字列を生成する。文字列生成部１０５は、図６の例であれば、「私は今朝、ＹＭＭに相談＜特許の件＞に行きました。」という文字列を生成する。この場合、「、」及び「。」という句読点も、「ＹＭＭ」という文字も、「＜」、「＞」という記号も手書きで入力されて文字列に含まれている。

文字列生成部１０５は、生成した文字列を画面表示制御部１０１に供給する。画面表示制御部１０１は、文字列生成部１０５から供給された文字列を表示させる。
図７は文字列入力後の文字列入力アプリの画面の一例を表す。画面表示制御部１０１は、図７の例では、前述した「私は今朝、ＹＭＭに相談＜特許の件＞に行きました。」という文字列Ｂ１を文字列表示欄Ａ１に表示させている。

また、画面表示制御部１０１は、手書きの際にユーザが指示した位置を移動させた軌跡によって表される手書きの内容Ｃ１、Ｃ２、Ｃ３、Ｃ４、Ｃ５、Ｃ６及びＣ７を手書き入力欄Ａ２に表示させている。また、画面表示制御部１０１は、手書き内容認識部１０３から供給された手書き内容データが示す「、」、「Ｙ」、「Ｍ」、「Ｍ」、「＜」、「＞」及び「。」という手書き内容Ｄ１、Ｄ２、Ｄ３、Ｄ４、Ｄ５、Ｄ６及びＤ７を文字列Ｂ１の一部として表示させている。

また、画面表示制御部１０１は、音声文字列認識部１０２から供給された音声文字列データが示す「私は今朝」、「に相談」、「特許の件」及び「に行きました」という音声文字列Ｅ１、Ｅ２、Ｒ３及びＥ４を文字列Ｂ１の一部として表示させている。手書き内容Ｄ１及びＤ７のような句読点や手書き内容Ｄ５及びＤ６のような記号は、音声入力だと入力に慣れが必要である。

一方、音声文字列Ｅ１等の文字列は手書き入力だけだと音声に比べて手間がかかる。本実施例では、文字列の入力において音声入力及び手書き入力を用いており、音声入力の方が入力しやすい部分は音声入力で行い、手書き入力の方が入力しやすい部分は手書き入力で行っている。これにより、文字列の入力において音声入力及び手書き入力のいずれか一方だけを用いる場合に比べて文字列の入力が容易になっている。

また、本実施例では、手書き時刻と発声時刻とを時系列に並べた文字列が生成されている。これにより、ユーザは、入力したい文字列を発声しながら、必要なタイミングで手書き文字を入力することで、音声文字列のうちの意図した位置に手書き内容を差し込むことになる。

表示装置１０は、上記の構成により、ユーザが入力した文字列を表示する表示処理を行う。
図８は表示処理における動作手順の一例を表す。まず、表示装置１０（音声文字列認識部１０２）は、音声が示す音声文字列を認識する（ステップＳ１１）。次に、表示装置１０（手書き内容認識部１０３）は、手書きの内容を認識する（ステップＳ１２）。

ステップＳ１１及びＳ１２は、ユーザの入力の仕方によって順序が反対になる場合があり、また、複数回連続して行われる場合がある。続いて、表示装置１０（手書き情報取得部１０４）は、手書きに関する情報を取得する（ステップＳ１３）。次に、表示装置１０（文字列生成部１０５）は、ステップＳ１１において認識された音声文字列と、ステップＳ１２において認識された手書きの内容とを、ステップＳ１３において取得された手書きに関する情報に応じて編集した文字列を生成する（ステップＳ１４）。

続いて、表示装置１０（画面表示制御部１０１）は、ステップＳ１４において生成された文字列をディスプレイに表示させる（ステップＳ１５）。そして、表示装置１０は、入力が終了したか否かを判断し（ステップＳ１６）、終了していない（ＮＯ）と判断した場合はステップＳ１１に戻って動作を続け、終了した（ＹＥＳ）と判断した場合はこの動作手順を終了する。

［２］変形例
上述した実施例は本発明の実施の一例に過ぎず、以下のように変形させてもよい。また、実施例及び各変形例は、必要に応じて組み合わせて実施してもよい。

［２−１］文字列の生成方法
文字列生成部１０５は、実施例と同じく手書き時刻を示す手書き情報が用いられた場合に、実施例と異なる方法で文字列を生成してもよい。文字列生成部１０５は、本変形例では、音声文字列認識部１０２により認識された音声文字列の一部の語句と、その語句が発声された時刻との差分が閾値未満の時刻に手書きされた語句とが同じ内容を示す場合は音声文字列の一部の語句を手書きの語句で表した文字列を生成する。

また、文字列生成部１０５は、音声文字列認識部１０２により認識された音声文字列が示す文章の切れ目となる部分が発声された時刻に最も近い時刻に描かれた手書きの文字をその切れ目に配置して並べた文字列を生成する。本変形例の文字列生成を図９を参照して説明する。

図９は本変形例の文字列生成の一例を表す。図９（ａ）では、ユーザが音声で「ワタシハケサワイエムエムデトッキョソウダンヲシマシタ」と入力したことと、手書きで「、」、「ＹＭＭ」、「＜」、「＞」及び「。」と入力したこととが表されている。手書き入力の時刻は、手書き内容の上に位置する音声の文字の発声時刻と一致しているものとする。例えば「、」は「ワタシハケサワイ」の「サワ」の中間の時刻に入力され、「＜」は「デ」と同じ時刻に入力されている。

まず、音声文字列認識部１０２が図９（ｂ）に表すように音声文字列である「私は今朝ワイエムエムで特許相談をしました」を認識する。文字列生成部１０５は、認識された音声文字列の一部の語句のうち「ワイエムエム」と手書き内容の「ＹＭＭ」とが同じ内容を示すと判断し、図９（ｃ）に表すように「ワイエムエム」の部分を「ＹＭＭ」とした文字列を生成する。

次に、文字列生成部１０５は、音声文字列が示す文章の切れ目となる部分を特定し、特定した切れ目となる部分の発声時刻を特定する。文章の切れ目となる部分の特定には、周知の日本語変換の技術等が用いられればよい。図９の例では、「私」、「は」、「今朝」、「ＹＭＭ」、「で」、「特許相談」、「を」、「しました」という各語句の間の部分の発声時刻が切れ目の発声時刻として特定される。

なお、「しました」の後も文章の切れ目として発声時刻が特定される。切れ目の発声時刻は、例えば、切れ目の後の最初の文字の発声時刻が用いられる。「私」、「は」という部分の切れ目であれば、「は」の発声時刻が用いられる。また、「は」、「今朝」という部分の切れ目であれば、「今朝」の「ケ」の発声時刻が用いられる。また、「しました」の後の切れ目の場合は、例えば切れ目の前の文字である「た」の発声が終わった時刻が用いられる。

文字列生成部１０５は、特定した切れ目となる部分の発声時刻に最も近い時刻に描かれた手書きの文字をその切れ目に配置して並べた文字列を図９（ｄ）に表すように生成する。文字列生成部１０５は、図９（ｄ）の例では、「今朝」と「ＹＭＭ」の間に手書きの「、」を配置し、「で」と「特許相談」の間に手書きの「＜」を配置している。また、文字列生成部１０５は、「特許相談」と「を」の間に手書きの「＞」を配置し、「しました」の後に手書きの「。」を配置している。

文字列生成部１０５は、以上のとおり音声の語句を手書き内容で代替し、音声文字列の切れ目に手書き内容を配置することで、「私は今朝、ＹＭＭで＜特許相談＞をしました。」という文字列を生成する。ユーザが「ワイエムエム」と発声した場合、片仮名なのかアルファベットなのか（平仮名の場合もある）、音声では判別がつかない。本変形例では、ユーザが入力したい種類の文字を手書きで入力すればよいので、ユーザは意図した種類の文字を入力することになる。

また、実施例のように手書き時刻と発声時刻とを時系列に並べる場合、手書き内容を入力するタイミングがずれると意図しない位置に手書き内容が配置されることになる。本変形例では、例えば「特許相談＞」の「＞」という手書き内容が「ソウダン」の「ダン」の間で入力されたとしても、切れ目である「特許相談」と「を」の間に配置される。このように，本変形例では、手書きのタイミングが少しずれても意図した位置に手書き内容が配置されることになる。

なお、「ワイエムエム」を「ＹＭＭ」と表したい場合に、文字の種類がアルファベットであることだけを手書きで示してもよい。例えば「αβ」という文字を手書きで描くと文字の種類がアルファベットであることを示すものとする。その場合、図９の例で「ＹＭＭ」ではなく「αβ」と手書きで入力しても、文字列生成部１０５は、図９の例と同様に「ワイエムエム」を「ＹＭＭ」とした文字列を生成する。

このように、文字列生成部１０５は、音声文字列認識部１０２により認識された音声文字列の一部の語句を、その語句が発声された時刻との差分が閾値未満の時刻に手書きされた語句が示す文字の種類で表した文字列を生成する。この場合も、ユーザが入力したい種類を手書きで指定すればよいので、ユーザは意図した種類の文字を入力することになる。

［２−２］手書き情報
実施例では手書き情報として手書きの時刻を示す情報が用いられたが、手書きの内容の位置を示す情報が用いられてもよい。本変形例では、まず、画面表示制御部１０１が、音声文字列認識部１０２により認識された音声文字列における位置に対応して手書き入力のための領域を配置した画像を表示させる。

図１０は本変形例の手書き入力欄の一例を表す。画面表示制御部１０１は、図１０（ａ）に表すように、文字列表示欄Ａ１と、音声入力欄Ａ３と、手書き入力欄Ａ２ａとを表示している。画面表示制御部１０１は、音声文字列認識部１０２により認識された音声文字列が示す文章の切れ目となる部分を特定し、特定した切れ目となる部分を示す画像とその音声文字列とを音声入力欄Ａ３に表示する。

画面表示制御部１０１は、図１０の例では、「私は今朝ワイエムエムで特許相談をしました」という文章の切れ目となる８つの部分を示す画像として、（ｆ１）、（ｆ２）、・・・、（ｆ８）という画像を表示している。また、画面表示制御部１０１は、特定した切れ目となる部分に対応する手書き領域を手書き入力欄Ａ２ａに並べて表示する。画面表示制御部１０１は、図１０の例では、手書き領域ｆ１、ｆ２、〜、ｆ８を並べて表示している。

各手書き領域は、音声文字列における位置に対応して配置される手書き入力のための領域の一例である。図１０の例では、手書き領域ｆ３、ｆ５、ｆ６、ｆ８に「、」、「＜」、「＞」、「。」という手書きの内容Ｃ１、Ｃ５、Ｃ６、Ｃ７がそれぞれ入力されている。文字列生成部１０５は、手書き領域の配置を手書きに関する情報として用いて文字列を生成する。

具体的には、文字列生成部１０５は、音声文字列における位置のうち、手書き領域の配置に対応する位置にその手書き領域に入力された手書きの内容を配置した文字列を生成する。文字列生成部１０５は、例えば手書き領域ｆ３の位置に入力された「、」であれば（ｆ３）という切れ目の部分に配置する。文字列生成部１０５は、同様に「＜」、「＞」、「。」についても対応する切れ目となる部分である（ｆ５）、（ｆ６）、（ｆ８）に配置する。

画面表示制御部１０１は、こうして生成された「私は今朝、ワイエムエムで＜特許相談＞をしました。」という文字列を文字列表示欄Ａ１に表示している。なお、手書きの文字の位置を示す情報は、図１０の例に限らない。
図１１は本変形例の手書き入力欄の別の一例を表す。図１１の例では、画面表示制御部１０１が、文字列表示欄Ａ１と、手書き入力欄Ａ２ｂとを表示している。画面表示制御部１０１は、図１１（ａ）に表すように、切れ目となる部分に手書き入力のための８つの手書き領域ｆ２１、ｆ２２、・・・、ｆ２８を配置した音声文字列Ｇ１を手書き入力欄Ａ２ｂに表示する。

図１１の例では、手書き領域ｆ２３、ｆ２５、ｆ２６、ｆ２８に「、」、「＜」、「＞」、「。」という手書きの内容Ｃ１、Ｃ５、Ｃ６、Ｃ７がそれぞれ入力されている。文字列生成部１０５は、図１０の例と同様に、音声文字列における位置のうち、手書き領域の配置に対応する位置にその手書き領域に入力された手書きの内容を配置した文字列である「私は今朝、ワイエムエムで＜特許相談＞をしました。」を生成する。

図１２は本変形例の手書き入力欄の別の一例を表す。図１２の例では、画面表示制御部１０１が、文字列表示欄Ａ１と、音声入力欄Ａ３ｃと、手書き入力欄Ａ２ｃとを表示している。画面表示制御部１０１は、音声文字列認識部１０２により認識された音声文字列である「私は今朝ワイエムエムで特許相談をしました」を音声入力欄Ａ３ｃに表示する。

ユーザは、音声文字列に対して、配置したい手書き内容を順番に手書き入力欄Ａ２ｃに入力する。図１２の例では、「、」、「、」、「、」、「。」という手書き内容Ｃ３１、Ｃ３２、Ｃ３３、Ｃ３４が左から順番に並べて入力されている。図１２の例では、手書き入力欄Ａ２ｃに個々の手書き領域が明示されていないが、文字列生成部１０５は、各手書き内容が入力された領域を、音声文字列における位置に対応する手書き領域ｆ３１、ｆ３２、ｆ３３、ｆ３４と判断する。

そして、文字列生成部１０５は、音声文字列における位置のうち、手書き領域の配置に対応する位置にその手書き領域に入力された手書きの内容を配置した文字列を生成する。具体的には、文字列生成部１０５は、「私は今朝ワイエムエムで特許相談をしました」という音声文字列のうち、切れ目になりやすい部分を４箇所特定し、それらの位置に手書き内容を配置して文字列を生成する。

文字列生成部１０５は、図１２の例では、「私は」、「今朝」、「ワイエムエムで」、「特許相談をしました」というように切れ目になりやすい部分を特定し、「私は、今朝、ワイエムエムで、特許相談をしました。」という文字列を生成する。以上のとおり、図１０、図１１の例では手書き領域の配置が音声文字列に対応して絶対的に決まっていたが、図１２の例のように、手書き領域の配置が相対的に決まるようになっていてもよい。

本変形例では、上記のいずれの場合も、手書き領域の配置に応じて手書きの内容が音声文字列に配置されるので、ユーザは、手書きのタイミングを気にすることなく音声での入力をしてもよいことになる。

［２−３］文字列の修正
文字列生成部１０５が生成した文字列が意図した内容でない場合に、ユーザがその文字列を修正できるようにしてもよい。文字列の修正自体は、一般的な文字列編集の機能を用いればよい。

［２−４］手書き内容の配置の学習
手書きの内容が配置される位置にはユーザ毎に個人的な傾向が現れる場合がある。そのような傾向に基づいて手書きの内容が自動的に配置されるようにしてもよい。
図１３は本変形例の表示装置１０ｄが実現する機能構成を表す。表示装置１０ｄは、図２に表す各部に加えて配置傾向判定部１０６を備える。

配置傾向判定部１０６は、文字列生成部１０５により生成された文字列において手書きの内容が配置された位置の履歴を蓄積する。そして、配置傾向判定部１０６は、蓄積した履歴に基づいて、手書きの内容を配置する位置の傾向を判定する。
図１４は蓄積された位置音履歴の一例を表す。配置傾向判定部１０６は、図１４の例では、手書きの内容と、直前の語句と、件数とを対応付けて蓄積している。

例えば「、」という手書きの内容は、直前の語句が「は」、「が」、「も」の場合の件数が「９５」、「７６」、「２１」となっている。また、「。」という手書きの内容は、直前の語句が「です」、「ます」、「でした」の場合の件数が「６５」、「５８」、「３４」となっている。なお、手書きの内容は、直前の語句だけでなく、直後の語句にも対応付けられていてもよい。

文字列生成部１０５は、上述した各例のように音声文字列が示す文章の切れ目となる部分を特定しておく。そして、手書き内容認識部１０３により手書きの内容が認識されると、認識された手書きの内容が、特定した切れ目となる各部分に配置される傾向の判定を配置傾向判定部１０６に要求する。例えば「私は今朝ワイエムエムで特許相談をしました」という音声文字列で「、」という手書きの内容が認識された場合、配置傾向判定部１０６は、「私は」の「は」の後に配置される傾向が最も高いと判定する。

また、「。」という手書きの内容が認識された場合、配置傾向判定部１０６は、最後の「ました」の後に配置される傾向が最も高いと判定する。
図１５は本変形例での文字列の表示の一例を表す。図１５の例では、画面表示制御部１０１は、文字列表示欄Ａ１と、手書き入力欄Ａ２ｄとを表示している。画面表示制御部１０１は、図１５（ａ）に表すように、文字列表示欄Ａ１に音声文字列を表示し、手書き入力欄Ａ２ｄに手書きの内容である「、」を表示する。

この場合、「、」という手書きの内容は「私は」の「は」の後に配置される傾向が最も高いと判定されるので、図１５（ｂ）に表すように、「私は、今朝ワイエムエムで特許相談をしました」という手書き内容Ｄ４１（「は」の後の「、」）を含む文字列が生成及び表示される。画面表示制御部１０１は、図１５の例では、文字列に反映した手書きの内容は手書き入力欄Ａ２ｄから消去して、次の手書きの内容を入力できるようにする。

次に、図１５（ｃ）に表すように「。」が手書き入力されたとする。その場合、「。」という手書きの内容は「ました」の後に配置される傾向が最も高いと判定されるので、図１５（ｄ）に表すように、「私は、今朝ワイエムエムで特許相談をしました。」という手書き内容Ｄ４２（「ました」の後の「。」）を含む文字列が表示される。この後も、例えば再度「、」が手書き入力されると、「は」の次に「、」が配置される傾向が高い位置（例えば「で」の後）に手書きの内容が配置される。

以上のとおり、文字列生成部１０５は、配置傾向判定部１０６により判定された傾向に応じた位置に、手書き内容認識部１０３により認識された手書きの内容を配置した文字列を生成する。これにより、ユーザは、音声文字列において登場する順番を気にせずに手書きの内容を入力してもよいことになる。なお、上記の変形例のようにユーザが生成された文字列を修正する場合には、配置傾向判定部１０６は、文字列の修正履歴を蓄積してもよい。

そして、配置傾向判定部１０６は、蓄積した修正履歴にも基づいて、手書きの内容を配置する位置の傾向を判定する。この場合、配置傾向判定部１０６は、修正前に手書きの内容が配置されていた位置は、ユーザの意図とは異なる位置なので図１４に表す件数から省いて、修正履歴が示す位置に件数を計上する。これにより、修正履歴を用いない場合に比べて、手書きの内容を配置する位置の傾向の判定の精度が向上し、ユーザの意図に沿った位置に手書きの内容が配置されやすくなる。

［２−５］機能構成
図２等に表す機能を実現する方法は上記の各例で述べた方法に限らない。例えば、表示装置１０が実現する機能を２以上の装置（表示装置１０とクラウドサービスで提供されるコンピュータリソースなど）が各機能を実現してもよい。

仮にクラウドサービスが用いられる場合、例えば画面表示制御部１０１以外の機能はクラウドサービス側のコンピュータリソースで実現されればよい。その場合はコンピュータリソースが本発明の「情報処理装置」の一例である。このように、本発明の「情報処理装置」は、１つの筐体内に全ての構成要素を備えていてもよいし、２以上の筐体に分けて構成要素を備えていてもよい。

また、例えば上記の各例では画面表示制御部１０１又は文字列生成部１０５が音声文字列が示す文章の切れ目となる部分を特定したが、この特定を行う機能が別途設けられていてもよい。また、前述した修正履歴を蓄積する機能が別途設けられていてもよい。また、手書き内容認識部１０３及び手書き情報取得部１０４が行う動作を、１つの機能が行ってもよい。要するに、全体として図２等に表された機能が実現されていれば、各機能を実現する装置の構成と、各機能が行う動作の範囲とは自由に定められてよい。

［２−６］プロセッサ
上記各実施例において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ（例えばCPU：Central Processing Unit、等）や、専用のプロセッサ（例えばGPU：Graphics Processing Unit、ASIC：Application Specific Integrated Circuit、FPGA：Field Programmable Gate Array、プログラマブル論理デバイス、等）を含むものである。

また上記各実施例におけるプロセッサの動作は、１つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。

［２−７］発明のカテゴリ
本発明は、上述した情報処理装置の他、その情報処理装置が実施する処理を実現するための情報処理方法としても捉えられるし、各装置を制御するコンピュータを機能させるためのプログラムとしても捉えられる。このプログラムは、それを記憶させた光ディスク等の記録媒体の形態で提供されてもよいし、インターネット等の通信回線を介してコンピュータにダウンロードさせ、それをインストールして利用可能にするなどの形態で提供されてもよい。

１０…表示装置、１１…プロセッサ、１６…タッチスクリーン、１７…マイクロフォン、１０１…画面表示制御部、１０２…音声文字列認識部、１０３…手書き内容認識部、１０４…手書き情報取得部、１０５…文字列生成部、１０６…配置傾向判定部。

Claims

プロセッサを備え、
前記プロセッサが、
音声が示す音声文字列を認識し、
手書きの内容を認識し、
前記手書きに関する情報を取得し、
認識された前記音声文字列と、認識された前記手書きの内容とを、取得された前記手書きに関する情報に応じて編集した文字列を生成する
情報処理装置。
前記プロセッサは、
取得された前記手書きに関する情報が手書きの時刻を示す場合に、当該時刻と認識された前記音声文字列が発声された時刻とを時系列に並べた文字列を生成する
請求項１に記載の情報処理装置。
前記プロセッサは、
取得された前記手書きに関する情報が手書きの時刻を示す場合に、認識された前記音声文字列が示す文章の切れ目となる部分が発声された時刻に最も近い時刻に描かれた手書きの文字を当該切れ目に配置して並べた文字列を生成する
請求項１に記載の情報処理装置。
前記プロセッサは、
認識された音声文字列の一部の語句と、当該語句が発声された時刻との差分が閾値未満の時刻に手書きされた語句とが同じ内容を示す場合は当該一部の語句を当該手書きの語句で表した文字列を生成する
請求項３に記載の情報処理装置。
前記プロセッサは、
認識された前記音声文字列における位置に対応して手書き入力のための領域を配置した画像を表示させ、当該領域の配置を前記手書きに関する情報として用いて、当該音声文字列における位置のうち、前記手書き入力のための領域の配置に対応する位置に当該領域に入力された手書きの内容を配置した文字列を生成する
請求項１に記載の情報処理装置。
前記プロセッサは、
生成された前記文字列において前記手書きの内容が配置された位置の履歴に基づいて前記手書きの内容を配置する位置の傾向を判定し、
判定された前記傾向に応じた位置に、認識された前記手書きの内容を配置した文字列を生成する
請求項１から５のいずれか１項に記載の情報処理装置。
前記プロセッサは、
生成された文字列の修正履歴を蓄積し、
蓄積された前記修正履歴にも基づいて前記傾向を判定する
請求項６に記載の情報処理装置。
プロセッサを備えるコンピュータに、
音声が示す音声文字列を認識し、
手書きの内容を認識し、
前記手書きに関する情報を取得し、
認識された前記音声文字列と、認識された前記手書きの内容とを、取得された前記手書きに関する情報に応じて編集した文字列を生成する
手順を実行させるためのプログラム。