JP2021128222A - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP2021128222A
JP2021128222A JP2020021862A JP2020021862A JP2021128222A JP 2021128222 A JP2021128222 A JP 2021128222A JP 2020021862 A JP2020021862 A JP 2020021862A JP 2020021862 A JP2020021862 A JP 2020021862A JP 2021128222 A JP2021128222 A JP 2021128222A
Authority
JP
Japan
Prior art keywords
character string
handwriting
voice
handwritten
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020021862A
Other languages
English (en)
Inventor
博仁 柴田
Hirohito Shibata
博仁 柴田
千登 林
Kazutaka Hayashi
千登 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Business Innovation Corp filed Critical Fujifilm Business Innovation Corp
Priority to JP2020021862A priority Critical patent/JP2021128222A/ja
Publication of JP2021128222A publication Critical patent/JP2021128222A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】文字列の入力において音声入力及び手書き入力のいずれか一方だけを用いる場合に比べて文字列の入力を容易にすること。
【解決手段】音声文字列認識部102は、音声が示す音声文字列を認識する。手書き内容認識部103は、手書きの内容を認識する。手書き情報取得部104は、手書きに関する情報を取得する。文字列生成部105は、認識された音声文字列と、認識された手書きの内容とを、取得された手書きに関する情報に応じて編集した文字列を生成する。文字列生成部105は、具体的には、手書きに関する情報が示す手書き時刻と認識された音声文字列が発声された時刻とを時系列に並べた文字列を生成する。画面表示制御部101生成された文字列をディスプレイに表示させる。
【選択図】図2

Description

本発明は、情報処理装置及びプログラムに関する。
特許文献1には、表意文字に関係付けられた音声情報に応じて可能な表意文字の候補リストから手書きのストローク情報を使用して所望の表意文字を得る技術が記載されている。
特開2004−46807号公報
音声や手書きで文字を入力する技術が利用されている。音声での文字列の認識は年々精度が向上しているが、口頭で話す際には句読点や記号などをいちいち発声しないので、認識処理において句読点や記号等が適切に付与されるとは限らな い。また、口頭で文字列を話すとともに句読点や記号を付与する位置で「くとうてん」「かっことじる」といった語句を話すことも考えられるが、慣れてないと入力が難しい。一方、手書きでの文字入力は、長文だと手間がかかるといった問題がある。
そこで、本発明は、文字列の入力において音声入力及び手書き入力のいずれか一方だけを用いる場合に比べて文字列の入力を容易にすることを目的とする。
本発明の請求項1に係る情報処理装置は、プロセッサを備え、前記プロセッサが、音声が示す音声文字列を認識し、手書きの内容を認識し、前記手書きに関する情報を取得し、認識された前記音声文字列と、認識された前記手書きの内容とを、取得された前記手書きに関する情報に応じて編集した文字列を生成することを特徴とする。
本発明の請求項2に係る情報処理装置は、請求項1に記載の態様において、前記プロセッサは、取得された前記手書きに関する情報が手書きの時刻を示す場合に、当該時刻と認識された前記音声文字列が発声された時刻とを時系列に並べた文字列を生成することを特徴とする。
本発明の請求項3に係る情報処理装置は、請求項1に記載の態様において、前記プロセッサは、取得された前記手書きに関する情報が手書きの時刻を示す場合に、認識された前記音声文字列が示す文章の切れ目となる部分が発声された時刻に最も近い時刻に描かれた手書きの文字を当該切れ目に配置して並べた文字列を生成することを特徴とする。
本発明の請求項4に係る情報処理装置は、請求項3に記載の態様において、前記プロセッサは、認識された音声文字列の一部の語句と、当該語句が発声された時刻との差分が閾値未満の時刻に手書きされた語句とが同じ内容を示す場合は当該一部の語句を当該手書きの語句で表した文字列を生成することを特徴とする。
本発明の請求項5に係る情報処理装置は、請求項1に記載の態様において、前記プロセッサは、認識された前記音声文字列における位置に対応して手書き入力のための領域を配置した画像を表示させ、当該領域の配置を前記手書きに関する情報として用いて、当該音声文字列における位置のうち、前記手書き入力のための領域の配置に対応する位置に当該領域に入力された手書きの内容を配置した文字列を生成することを特徴とする。
本発明の請求項6に係る情報処理装置は、請求項1から5のいずれか1項に記載の態様において、前記プロセッサは、生成された前記文字列において前記手書きの内容が配置された位置の履歴に基づいて前記手書きの内容を配置する位置の傾向を判定し、判定された前記傾向に応じた位置に、認識された前記手書きの内容を配置した文字列を生成することを特徴とする。
本発明の請求項7に係る情報処理装置は、請求項6に記載の態様において、前記プロセッサは、生成された文字列の修正履歴を蓄積し、蓄積された前記修正履歴にも基づいて前記傾向を判定することを特徴とする。
本発明の請求項8に係るプログラムは、プロセッサを備えるコンピュータに、音声が示す音声文字列を認識し、手書きの内容を認識し、前記手書きに関する情報を取得し、認識された前記音声文字列と、認識された前記手書きの内容とを、取得された前記手書きに関する情報に応じて編集した文字列を生成する手順を実行させるためのものであることを特徴とする。
請求項1、8に係る発明によれば、文字列の入力において音声入力及び手書き入力のいずれか一方だけを用いる場合に比べて文字列の入力を容易にすることができる。
請求項2に係る発明によれば、音声文字列のうちの意図した位置に手書き内容を配置することができる。
請求項3に係る発明によれば、手書きのタイミングが少しずれても意図した位置に手書き内容を配置することができる。
請求項4に係る発明によれば、ユーザは意図した種類の文字を入力することができる。
請求項5に係る発明によれば、手書きのタイミングを気にすることなく音声での入力をすることができる。
請求項6に係る発明によれば、音声文字列において登場する順番を気にせずに手書きの内容を入力することができる。
請求項7に係る発明によれば、修正履歴を用いない場合に比べて、手書きの内容を配置する位置の傾向の判定の精度を向上させることができる。
実施例に係る表示装置のハードウェア構成を表す図 表示装置が実現する機能構成を表す図 文字列入力アプリの画面の一例を表す図 生成された音声文字列データの一例を表す図 生成された手書き内容データの一例を表す図 時系列に並べた発声時刻と手書き時刻の一例を表す図 文字列入力後の文字列入力アプリの画面の一例を表す図 表示処理における動作手順の一例を表す図 変形例の文字列生成の一例を表す図 変形例の手書き入力欄の一例を表す図 変形例の手書き入力欄の別の一例を表す図 変形例の手書き入力欄の別の一例を表す図 変形例の表示装置が実現する機能構成を表す図 蓄積された位置音履歴の一例を表す図 変形例での文字列の表示の一例を表す図
[1]実施例
図1は実施例に係る表示装置10のハードウェア構成を表す。表示装置10は、ユーザによって入力された文字列を表示する処理を行う装置であり、本発明の「情報処理装置」の一例である。表示装置10は、プロセッサ11と、メモリ12と、ストレージ13と、通信装置14と、UI装置15(UI=User Interface)とを備えるコンピュータである。
プロセッサ11は、例えば、CPU(=Central Processing Unit)等の演算装置、レジスタ及び周辺回路等を有する。プロセッサ11は本発明の「プロセッサ」の一例である。メモリ12は、プロセッサ11が読み取り可能な記録媒体であり、RAM(=Random Access Memory)及びROM(=Read Only Memory)等を有する。ストレージ13は、プロセッサ11が読み取り可能な記録媒体であり、例えば、ハードディスクドライブ又はフラッシュメモリ等を有する。
プロセッサ11は、RAMをワークエリアとして用いてROMやストレージ13に記憶されているプログラムを実行することで各ハードウェアの動作を制御する。プロセッサ11は、例えば、文字列を入力するためのアプリケーションプログラム(=文字列入力アプリ)を実行して文字列の入力を受け付ける。なお、文字列入力アプリは、他のアプリケーションプログラムの一部を成すモジュールとして実装されていてもよい。
通信装置14は、アンテナ及び通信回路等を有し、図示せぬ通信回線を介した通信を行う。プロセッサ11が実行するプログラムは、通信装置14を介して通信される外部装置から取得されてもよい。UI装置15は、自装置を利用するユーザに対して提供されるインターフェースである。インターフェースとは、ユーザによる情報の入力を受け付け、表示装置10による情報の出力を行う装置である。
UI装置15は、表示手段であるディスプレイとディスプレイの表面に設けられたタッチパネルとを有するタッチスクリーン16を有し、画像を表示するとともに、ユーザからの操作を受け付ける。UI装置15は、キーボード等の操作子を有し、それらの操作子への操作を受け付ける。また、UI装置15は、音を収集するマイクロフォン17を有し、マイクロフォン17を介した音声による入力も受け付ける。
表示装置10においては、プロセッサ11がプログラム(文字列入力アプリ)を実行して各部を制御することで、以下に述べる機能が実現される。
図2は表示装置10が実現する機能構成を表す。表示装置10は、画面表示制御部101と、音声文字列認識部102と、手書き内容認識部103と、手書き情報取得部104と、文字列生成部105とを備える。
画面表示制御部101は、文字列入力アプリの画面の表示を制御する。
図3は文字列入力アプリの画面の一例を表す。画面表示制御部101は、図3の例では、文字列表示欄A1と、手書き入力欄A2とを表示している。文字列表示欄A1は、ユーザにより入力された文字列が表示される欄である。手書き入力欄A2は、ユーザが手書きの入力を行う欄である。
音声文字列認識部102は、マイクロフォン17が収集した音声が示す音声文字列を認識する。音声文字列認識部102は、周知の音声認識技術を用いて音声を認識し、認識した音声文字列を示す音声文字列データを生成する。
図4は生成された音声文字列データの一例を表す。音声文字列認識部102は、図4の例では、音声が示す語句(=音声語句)と、各音声語句が発声された時刻(=発声時刻)とを対応付けた音声文字列データを生成している。
例えば「私は今朝」という音声語句は「17:45 32 857」(=17時45分32秒857)という発生時刻に対応付けられている。以降、「に相談」、「特許の件」及び「に行きました」という音声語句がそれぞれ発生時刻に対応付けられている。音声文字列認識部102は、生成した音声文字列データを文字列生成部105に供給する。
手書き内容認識部103は、手書き入力欄A2に対して行われた手書きの内容を認識する。手書き内容認識部103は、例えば周知のパターンマッチング技術を用いて手書きの内容を認識し、認識した手書き内容を示す手書き内容データを生成する。
図5は生成された手書き内容データの一例を表す。手書き内容認識部103は、図5の例では、手書き内容と、各手書きがされた時刻(=手書き時刻)とを対応付けた手書き内容データを生成している。
例えば1つ目の「、」という読点は「17:45 34 221」(=17時45分34秒221)という手書き時刻に対応付けられている。以降、「Y」、「M」、「M」、「<」、「>」及び「。」という手書き内容がそれぞれ手書き時刻に対応付けられている。手書き内容認識部103は、生成した手書き内容データを画面表示制御部101、手書き情報取得部104及び文字列生成部105に供給する。
手書き情報取得部104は、手書き入力欄A2に対して行われた手書きに関する情報を取得する。手書き情報取得部104は、本実施例では、手書きの時刻を示す情報を手書きに関する情報として取得する。手書きの時刻を示す情報とは、例えば図5に表す手書き内容データが示す手書き内容と手書き時刻のことである。手書き情報取得部104は、取得した手書きに関する情報を文字列生成部105に供給する。
文字列生成部105は、供給された音声文字列データ、手書き内容データ及び手書きに関する情報に基づいて文字列を生成する。詳細には、文字列生成部105は、音声文字列認識部102により認識された音声文字列と、手書き内容認識部103により認識された手書きの内容とを、手書き情報取得部104により取得された手書きに関する情報に応じて編集した文字列を生成する。
文字列生成部105は、本実施例では、手書きに関する情報が示す手書き時刻と認識された音声文字列が発声された時刻(=発声時刻)とを時系列に並べた文字列を生成する。
図6は時系列に並べた発声時刻と手書き時刻の一例を表す。図6では、図4に表す発声時刻及び図5に表す手書き時刻が時系列に並べられている。
文字列生成部105は、発声時刻及び手書き時刻を時系列に並べた場合に、各時刻に対応する音声語句及び手書き内容を同じ順番で並べた文字列を生成する。文字列生成部105は、図6の例であれば、「私は今朝、YMMに相談<特許の件>に行きました。」という文字列を生成する。この場合、「、」及び「。」という句読点も、「YMM」という文字も、「<」、「>」という記号も手書きで入力されて文字列に含まれている。
文字列生成部105は、生成した文字列を画面表示制御部101に供給する。画面表示制御部101は、文字列生成部105から供給された文字列を表示させる。
図7は文字列入力後の文字列入力アプリの画面の一例を表す。画面表示制御部101は、図7の例では、前述した「私は今朝、YMMに相談<特許の件>に行きました。」という文字列B1を文字列表示欄A1に表示させている。
また、画面表示制御部101は、手書きの際にユーザが指示した位置を移動させた軌跡によって表される手書きの内容C1、C2、C3、C4、C5、C6及びC7を手書き入力欄A2に表示させている。また、画面表示制御部101は、手書き内容認識部103から供給された手書き内容データが示す「、」、「Y」、「M」、「M」、「<」、「>」及び「。」という手書き内容D1、D2、D3、D4、D5、D6及びD7を文字列B1の一部として表示させている。
また、画面表示制御部101は、音声文字列認識部102から供給された音声文字列データが示す「私は今朝」、「に相談」、「特許の件」及び「に行きました」という音声文字列E1、E2、R3及びE4を文字列B1の一部として表示させている。手書き内容D1及びD7のような句読点や手書き内容D5及びD6のような記号は、音声入力だと入力に慣れが必要である。
一方、音声文字列E1等の文字列は手書き入力だけだと音声に比べて手間がかかる。本実施例では、文字列の入力において音声入力及び手書き入力を用いており、音声入力の方が入力しやすい部分は音声入力で行い、手書き入力の方が入力しやすい部分は手書き入力で行っている。これにより、文字列の入力において音声入力及び手書き入力のいずれか一方だけを用いる場合に比べて文字列の入力が容易になっている。
また、本実施例では、手書き時刻と発声時刻とを時系列に並べた文字列が生成されている。これにより、ユーザは、入力したい文字列を発声しながら、必要なタイミングで手書き文字を入力することで、音声文字列のうちの意図した位置に手書き内容を差し込むことになる。
表示装置10は、上記の構成により、ユーザが入力した文字列を表示する表示処理を行う。
図8は表示処理における動作手順の一例を表す。まず、表示装置10(音声文字列認識部102)は、音声が示す音声文字列を認識する(ステップS11)。次に、表示装置10(手書き内容認識部103)は、手書きの内容を認識する(ステップS12)。
ステップS11及びS12は、ユーザの入力の仕方によって順序が反対になる場合があり、また、複数回連続して行われる場合がある。続いて、表示装置10(手書き情報取得部104)は、手書きに関する情報を取得する(ステップS13)。次に、表示装置10(文字列生成部105)は、ステップS11において認識された音声文字列と、ステップS12において認識された手書きの内容とを、ステップS13において取得された手書きに関する情報に応じて編集した文字列を生成する(ステップS14)。
続いて、表示装置10(画面表示制御部101)は、ステップS14において生成された文字列をディスプレイに表示させる(ステップS15)。そして、表示装置10は、入力が終了したか否かを判断し(ステップS16)、終了していない(NO)と判断した場合はステップS11に戻って動作を続け、終了した(YES)と判断した場合はこの動作手順を終了する。
[2]変形例
上述した実施例は本発明の実施の一例に過ぎず、以下のように変形させてもよい。また、実施例及び各変形例は、必要に応じて組み合わせて実施してもよい。
[2−1]文字列の生成方法
文字列生成部105は、実施例と同じく手書き時刻を示す手書き情報が用いられた場合に、実施例と異なる方法で文字列を生成してもよい。文字列生成部105は、本変形例では、音声文字列認識部102により認識された音声文字列の一部の語句と、その語句が発声された時刻との差分が閾値未満の時刻に手書きされた語句とが同じ内容を示す場合は音声文字列の一部の語句を手書きの語句で表した文字列を生成する。
また、文字列生成部105は、音声文字列認識部102により認識された音声文字列が示す文章の切れ目となる部分が発声された時刻に最も近い時刻に描かれた手書きの文字をその切れ目に配置して並べた文字列を生成する。本変形例の文字列生成を図9を参照して説明する。
図9は本変形例の文字列生成の一例を表す。図9(a)では、ユーザが音声で「ワタシハケサワイエムエムデトッキョソウダンヲシマシタ」と入力したことと、手書きで「、」、「YMM」、「<」、「>」及び「。」と入力したこととが表されている。手書き入力の時刻は、手書き内容の上に位置する音声の文字の発声時刻と一致しているものとする。例えば「、」は「ワタシハケサワイ」の「サワ」の中間の時刻に入力され、「<」は「デ」と同じ時刻に入力されている。
まず、音声文字列認識部102が図9(b)に表すように音声文字列である「私は今朝ワイエムエムで特許相談をしました」を認識する。文字列生成部105は、認識された音声文字列の一部の語句のうち「ワイエムエム」と手書き内容の「YMM」とが同じ内容を示すと判断し、図9(c)に表すように「ワイエムエム」の部分を「YMM」とした文字列を生成する。
次に、文字列生成部105は、音声文字列が示す文章の切れ目となる部分を特定し、特定した切れ目となる部分の発声時刻を特定する。文章の切れ目となる部分の特定には、周知の日本語変換の技術等が用いられればよい。図9の例では、「私」、「は」、「今朝」、「YMM」、「で」、「特許相談」、「を」、「しました」という各語句の間の部分の発声時刻が切れ目の発声時刻として特定される。
なお、「しました」の後も文章の切れ目として発声時刻が特定される。切れ目の発声時刻は、例えば、切れ目の後の最初の文字の発声時刻が用いられる。「私」、「は」という部分の切れ目であれば、「は」の発声時刻が用いられる。また、「は」、「今朝」という部分の切れ目であれば、「今朝」の「ケ」の発声時刻が用いられる。また、「しました」の後の切れ目の場合は、例えば切れ目の前の文字である「た」の発声が終わった時刻が用いられる。
文字列生成部105は、特定した切れ目となる部分の発声時刻に最も近い時刻に描かれた手書きの文字をその切れ目に配置して並べた文字列を図9(d)に表すように生成する。文字列生成部105は、図9(d)の例では、「今朝」と「YMM」の間に手書きの「、」を配置し、「で」と「特許相談」の間に手書きの「<」を配置している。また、文字列生成部105は、「特許相談」と「を」の間に手書きの「>」を配置し、「しました」の後に手書きの「。」を配置している。
文字列生成部105は、以上のとおり音声の語句を手書き内容で代替し、音声文字列の切れ目に手書き内容を配置することで、「私は今朝、YMMで<特許相談>をしました。」という文字列を生成する。ユーザが「ワイエムエム」と発声した場合、片仮名なのかアルファベットなのか(平仮名の場合もある)、音声では判別がつかない。本変形例では、ユーザが入力したい種類の文字を手書きで入力すればよいので、ユーザは意図した種類の文字を入力することになる。
また、実施例のように手書き時刻と発声時刻とを時系列に並べる場合、手書き内容を入力するタイミングがずれると意図しない位置に手書き内容が配置されることになる。本変形例では、例えば「特許相談>」の「>」という手書き内容が「ソウダン」の「ダン」の間で入力されたとしても、切れ目である「特許相談」と「を」の間に配置される。このように,本変形例では、手書きのタイミングが少しずれても意図した位置に手書き内容が配置されることになる。
なお、「ワイエムエム」を「YMM」と表したい場合に、文字の種類がアルファベットであることだけを手書きで示してもよい。例えば「αβ」という文字を手書きで描くと文字の種類がアルファベットであることを示すものとする。その場合、図9の例で「YMM」ではなく「αβ」と手書きで入力しても、文字列生成部105は、図9の例と同様に「ワイエムエム」を「YMM」とした文字列を生成する。
このように、文字列生成部105は、音声文字列認識部102により認識された音声文字列の一部の語句を、その語句が発声された時刻との差分が閾値未満の時刻に手書きされた語句が示す文字の種類で表した文字列を生成する。この場合も、ユーザが入力したい種類を手書きで指定すればよいので、ユーザは意図した種類の文字を入力することになる。
[2−2]手書き情報
実施例では手書き情報として手書きの時刻を示す情報が用いられたが、手書きの内容の位置を示す情報が用いられてもよい。本変形例では、まず、画面表示制御部101が、音声文字列認識部102により認識された音声文字列における位置に対応して手書き入力のための領域を配置した画像を表示させる。
図10は本変形例の手書き入力欄の一例を表す。画面表示制御部101は、図10(a)に表すように、文字列表示欄A1と、音声入力欄A3と、手書き入力欄A2aとを表示している。画面表示制御部101は、音声文字列認識部102により認識された音声文字列が示す文章の切れ目となる部分を特定し、特定した切れ目となる部分を示す画像とその音声文字列とを音声入力欄A3に表示する。
画面表示制御部101は、図10の例では、「私は今朝ワイエムエムで特許相談をしました」という文章の切れ目となる8つの部分を示す画像として、(f1)、(f2)、・・・、(f8)という画像を表示している。また、画面表示制御部101は、特定した切れ目となる部分に対応する手書き領域を手書き入力欄A2aに並べて表示する。画面表示制御部101は、図10の例では、手書き領域f1、f2、〜、f8を並べて表示している。
各手書き領域は、音声文字列における位置に対応して配置される手書き入力のための領域の一例である。図10の例では、手書き領域f3、f5、f6、f8に「、」、「<」、「>」、「。」という手書きの内容C1、C5、C6、C7がそれぞれ入力されている。文字列生成部105は、手書き領域の配置を手書きに関する情報として用いて文字列を生成する。
具体的には、文字列生成部105は、音声文字列における位置のうち、手書き領域の配置に対応する位置にその手書き領域に入力された手書きの内容を配置した文字列を生成する。文字列生成部105は、例えば手書き領域f3の位置に入力された「、」であれば(f3)という切れ目の部分に配置する。文字列生成部105は、同様に「<」、「>」、「。」についても対応する切れ目となる部分である(f5)、(f6)、(f8)に配置する。
画面表示制御部101は、こうして生成された「私は今朝、ワイエムエムで<特許相談>をしました。」という文字列を文字列表示欄A1に表示している。なお、手書きの文字の位置を示す情報は、図10の例に限らない。
図11は本変形例の手書き入力欄の別の一例を表す。図11の例では、画面表示制御部101が、文字列表示欄A1と、手書き入力欄A2bとを表示している。画面表示制御部101は、図11(a)に表すように、切れ目となる部分に手書き入力のための8つの手書き領域f21、f22、・・・、f28を配置した音声文字列G1を手書き入力欄A2bに表示する。
図11の例では、手書き領域f23、f25、f26、f28に「、」、「<」、「>」、「。」という手書きの内容C1、C5、C6、C7がそれぞれ入力されている。文字列生成部105は、図10の例と同様に、音声文字列における位置のうち、手書き領域の配置に対応する位置にその手書き領域に入力された手書きの内容を配置した文字列である「私は今朝、ワイエムエムで<特許相談>をしました。」を生成する。
図12は本変形例の手書き入力欄の別の一例を表す。図12の例では、画面表示制御部101が、文字列表示欄A1と、音声入力欄A3cと、手書き入力欄A2cとを表示している。画面表示制御部101は、音声文字列認識部102により認識された音声文字列である「私は今朝ワイエムエムで特許相談をしました」を音声入力欄A3cに表示する。
ユーザは、音声文字列に対して、配置したい手書き内容を順番に手書き入力欄A2cに入力する。図12の例では、「、」、「、」、「、」、「。」という手書き内容C31、C32、C33、C34が左から順番に並べて入力されている。図12の例では、手書き入力欄A2cに個々の手書き領域が明示されていないが、文字列生成部105は、各手書き内容が入力された領域を、音声文字列における位置に対応する手書き領域f31、f32、f33、f34と判断する。
そして、文字列生成部105は、音声文字列における位置のうち、手書き領域の配置に対応する位置にその手書き領域に入力された手書きの内容を配置した文字列を生成する。具体的には、文字列生成部105は、「私は今朝ワイエムエムで特許相談をしました」という音声文字列のうち、切れ目になりやすい部分を4箇所特定し、それらの位置に手書き内容を配置して文字列を生成する。
文字列生成部105は、図12の例では、「私は」、「今朝」、「ワイエムエムで」、「特許相談をしました」というように切れ目になりやすい部分を特定し、「私は、今朝、ワイエムエムで、特許相談をしました。」という文字列を生成する。以上のとおり、図10、図11の例では手書き領域の配置が音声文字列に対応して絶対的に決まっていたが、図12の例のように、手書き領域の配置が相対的に決まるようになっていてもよい。
本変形例では、上記のいずれの場合も、手書き領域の配置に応じて手書きの内容が音声文字列に配置されるので、ユーザは、手書きのタイミングを気にすることなく音声での入力をしてもよいことになる。
[2−3]文字列の修正
文字列生成部105が生成した文字列が意図した内容でない場合に、ユーザがその文字列を修正できるようにしてもよい。文字列の修正自体は、一般的な文字列編集の機能を用いればよい。
[2−4]手書き内容の配置の学習
手書きの内容が配置される位置にはユーザ毎に個人的な傾向が現れる場合がある。そのような傾向に基づいて手書きの内容が自動的に配置されるようにしてもよい。
図13は本変形例の表示装置10dが実現する機能構成を表す。表示装置10dは、図2に表す各部に加えて配置傾向判定部106を備える。
配置傾向判定部106は、文字列生成部105により生成された文字列において手書きの内容が配置された位置の履歴を蓄積する。そして、配置傾向判定部106は、蓄積した履歴に基づいて、手書きの内容を配置する位置の傾向を判定する。
図14は蓄積された位置音履歴の一例を表す。配置傾向判定部106は、図14の例では、手書きの内容と、直前の語句と、件数とを対応付けて蓄積している。
例えば「、」という手書きの内容は、直前の語句が「は」、「が」、「も」の場合の件数が「95」、「76」、「21」となっている。また、「。」という手書きの内容は、直前の語句が「です」、「ます」、「でした」の場合の件数が「65」、「58」、「34」となっている。なお、手書きの内容は、直前の語句だけでなく、直後の語句にも対応付けられていてもよい。
文字列生成部105は、上述した各例のように音声文字列が示す文章の切れ目となる部分を特定しておく。そして、手書き内容認識部103により手書きの内容が認識されると、認識された手書きの内容が、特定した切れ目となる各部分に配置される傾向の判定を配置傾向判定部106に要求する。例えば「私は今朝ワイエムエムで特許相談をしました」という音声文字列で「、」という手書きの内容が認識された場合、配置傾向判定部106は、「私は」の「は」の後に配置される傾向が最も高いと判定する。
また、「。」という手書きの内容が認識された場合、配置傾向判定部106は、最後の「ました」の後に配置される傾向が最も高いと判定する。
図15は本変形例での文字列の表示の一例を表す。図15の例では、画面表示制御部101は、文字列表示欄A1と、手書き入力欄A2dとを表示している。画面表示制御部101は、図15(a)に表すように、文字列表示欄A1に音声文字列を表示し、手書き入力欄A2dに手書きの内容である「、」を表示する。
この場合、「、」という手書きの内容は「私は」の「は」の後に配置される傾向が最も高いと判定されるので、図15(b)に表すように、「私は、今朝ワイエムエムで特許相談をしました」という手書き内容D41(「は」の後の「、」)を含む文字列が生成及び表示される。画面表示制御部101は、図15の例では、文字列に反映した手書きの内容は手書き入力欄A2dから消去して、次の手書きの内容を入力できるようにする。
次に、図15(c)に表すように「。」が手書き入力されたとする。その場合、「。」という手書きの内容は「ました」の後に配置される傾向が最も高いと判定されるので、図15(d)に表すように、「私は、今朝ワイエムエムで特許相談をしました。」という手書き内容D42(「ました」の後の「。」)を含む文字列が表示される。この後も、例えば再度「、」が手書き入力されると、「は」の次に「、」が配置される傾向が高い位置(例えば「で」の後)に手書きの内容が配置される。
以上のとおり、文字列生成部105は、配置傾向判定部106により判定された傾向に応じた位置に、手書き内容認識部103により認識された手書きの内容を配置した文字列を生成する。これにより、ユーザは、音声文字列において登場する順番を気にせずに手書きの内容を入力してもよいことになる。なお、上記の変形例のようにユーザが生成された文字列を修正する場合には、配置傾向判定部106は、文字列の修正履歴を蓄積してもよい。
そして、配置傾向判定部106は、蓄積した修正履歴にも基づいて、手書きの内容を配置する位置の傾向を判定する。この場合、配置傾向判定部106は、修正前に手書きの内容が配置されていた位置は、ユーザの意図とは異なる位置なので図14に表す件数から省いて、修正履歴が示す位置に件数を計上する。これにより、修正履歴を用いない場合に比べて、手書きの内容を配置する位置の傾向の判定の精度が向上し、ユーザの意図に沿った位置に手書きの内容が配置されやすくなる。
[2−5]機能構成
図2等に表す機能を実現する方法は上記の各例で述べた方法に限らない。例えば、表示装置10が実現する機能を2以上の装置(表示装置10とクラウドサービスで提供されるコンピュータリソースなど)が各機能を実現してもよい。
仮にクラウドサービスが用いられる場合、例えば画面表示制御部101以外の機能はクラウドサービス側のコンピュータリソースで実現されればよい。その場合はコンピュータリソースが本発明の「情報処理装置」の一例である。このように、本発明の「情報処理装置」は、1つの筐体内に全ての構成要素を備えていてもよいし、2以上の筐体に分けて構成要素を備えていてもよい。
また、例えば上記の各例では画面表示制御部101又は文字列生成部105が音声文字列が示す文章の切れ目となる部分を特定したが、この特定を行う機能が別途設けられていてもよい。また、前述した修正履歴を蓄積する機能が別途設けられていてもよい。また、手書き内容認識部103及び手書き情報取得部104が行う動作を、1つの機能が行ってもよい。要するに、全体として図2等に表された機能が実現されていれば、各機能を実現する装置の構成と、各機能が行う動作の範囲とは自由に定められてよい。
[2−6]プロセッサ
上記各実施例において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit、等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス、等)を含むものである。
また上記各実施例におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
[2−7]発明のカテゴリ
本発明は、上述した情報処理装置の他、その情報処理装置が実施する処理を実現するための情報処理方法としても捉えられるし、各装置を制御するコンピュータを機能させるためのプログラムとしても捉えられる。このプログラムは、それを記憶させた光ディスク等の記録媒体の形態で提供されてもよいし、インターネット等の通信回線を介してコンピュータにダウンロードさせ、それをインストールして利用可能にするなどの形態で提供されてもよい。
10…表示装置、11…プロセッサ、16…タッチスクリーン、17…マイクロフォン、101…画面表示制御部、102…音声文字列認識部、103…手書き内容認識部、104…手書き情報取得部、105…文字列生成部、106…配置傾向判定部。

Claims (8)

  1. プロセッサを備え、
    前記プロセッサが、
    音声が示す音声文字列を認識し、
    手書きの内容を認識し、
    前記手書きに関する情報を取得し、
    認識された前記音声文字列と、認識された前記手書きの内容とを、取得された前記手書きに関する情報に応じて編集した文字列を生成する
    情報処理装置。
  2. 前記プロセッサは、
    取得された前記手書きに関する情報が手書きの時刻を示す場合に、当該時刻と認識された前記音声文字列が発声された時刻とを時系列に並べた文字列を生成する
    請求項1に記載の情報処理装置。
  3. 前記プロセッサは、
    取得された前記手書きに関する情報が手書きの時刻を示す場合に、認識された前記音声文字列が示す文章の切れ目となる部分が発声された時刻に最も近い時刻に描かれた手書きの文字を当該切れ目に配置して並べた文字列を生成する
    請求項1に記載の情報処理装置。
  4. 前記プロセッサは、
    認識された音声文字列の一部の語句と、当該語句が発声された時刻との差分が閾値未満の時刻に手書きされた語句とが同じ内容を示す場合は当該一部の語句を当該手書きの語句で表した文字列を生成する
    請求項3に記載の情報処理装置。
  5. 前記プロセッサは、
    認識された前記音声文字列における位置に対応して手書き入力のための領域を配置した画像を表示させ、当該領域の配置を前記手書きに関する情報として用いて、当該音声文字列における位置のうち、前記手書き入力のための領域の配置に対応する位置に当該領域に入力された手書きの内容を配置した文字列を生成する
    請求項1に記載の情報処理装置。
  6. 前記プロセッサは、
    生成された前記文字列において前記手書きの内容が配置された位置の履歴に基づいて前記手書きの内容を配置する位置の傾向を判定し、
    判定された前記傾向に応じた位置に、認識された前記手書きの内容を配置した文字列を生成する
    請求項1から5のいずれか1項に記載の情報処理装置。
  7. 前記プロセッサは、
    生成された文字列の修正履歴を蓄積し、
    蓄積された前記修正履歴にも基づいて前記傾向を判定する
    請求項6に記載の情報処理装置。
  8. プロセッサを備えるコンピュータに、
    音声が示す音声文字列を認識し、
    手書きの内容を認識し、
    前記手書きに関する情報を取得し、
    認識された前記音声文字列と、認識された前記手書きの内容とを、取得された前記手書きに関する情報に応じて編集した文字列を生成する
    手順を実行させるためのプログラム。
JP2020021862A 2020-02-12 2020-02-12 情報処理装置及びプログラム Pending JP2021128222A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020021862A JP2021128222A (ja) 2020-02-12 2020-02-12 情報処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020021862A JP2021128222A (ja) 2020-02-12 2020-02-12 情報処理装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2021128222A true JP2021128222A (ja) 2021-09-02

Family

ID=77488448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020021862A Pending JP2021128222A (ja) 2020-02-12 2020-02-12 情報処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2021128222A (ja)

Similar Documents

Publication Publication Date Title
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US7873508B2 (en) Apparatus, method, and computer program product for supporting communication through translation between languages
AU2010212370B2 (en) Generic spelling mnemonics
US20070255567A1 (en) System and method for generating a pronunciation dictionary
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP6245846B2 (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
TW200538969A (en) Handwriting and voice input with automatic correction
KR20120006489A (ko) 입력 방법 편집기
JP2008216756A (ja) 語句として新たに認識するべき文字列等を取得する技術
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
JP2010198241A (ja) 中国語入力装置およびプログラム
JP2020060642A (ja) 音声合成システム、及び音声合成装置
JP2007003669A (ja) 文書作成装置
JP2021128222A (ja) 情報処理装置及びプログラム
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
JPH06282290A (ja) 自然言語処理装置およびその方法
JP2003162524A (ja) 言語処理装置
JP4622861B2 (ja) 音声入力システム、音声入力方法、および、音声入力用プログラム
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JP3069532B2 (ja) かな漢字変換方法およびその装置並びにかな漢字変換方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10143503A (ja) 音声ワードプロセッサ
JP2009098328A (ja) 音声合成装置及び方法
JPH09288494A (ja) 音声認識装置および音声認識方法
JP2023006055A (ja) プログラム、情報処理装置、方法