JP2011243011A - 入力支援装置、抽出方法、プログラム、及び情報処理装置 - Google Patents

入力支援装置、抽出方法、プログラム、及び情報処理装置 Download PDF

Info

Publication number
JP2011243011A
JP2011243011A JP2010114847A JP2010114847A JP2011243011A JP 2011243011 A JP2011243011 A JP 2011243011A JP 2010114847 A JP2010114847 A JP 2010114847A JP 2010114847 A JP2010114847 A JP 2010114847A JP 2011243011 A JP2011243011 A JP 2011243011A
Authority
JP
Japan
Prior art keywords
conversion candidate
speech
unit
voice
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010114847A
Other languages
English (en)
Other versions
JP5318030B2 (ja
Inventor
Kenichi Iso
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010114847A priority Critical patent/JP5318030B2/ja
Publication of JP2011243011A publication Critical patent/JP2011243011A/ja
Application granted granted Critical
Publication of JP5318030B2 publication Critical patent/JP5318030B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】キーボード等に入力された文字列が短い場合であっても、ユーザが要求する変換候補を表示できる、すなわち、予測変換の精度を向上できる入力支援装置を提供すること。
【解決手段】ユーザによるテキストの入力を予測し、変換候補を抽出する入力支援装置100であって、入力された音声に基づく音声波形について、音声認識をする音声認識部107と、ユーザのキー操作に対応するキー入力情報を取得するキー入力情報取得部111と、音声認識部107による音声認識の結果と、キー入力情報とに基づいて、関連するテキストを変換候補として作成する変換候補作成部113とを備える。
【選択図】図1

Description

本発明は、ユーザによるテキストの入力を予測し、変換候補を抽出する入力支援装置、抽出方法、プログラム、及び、情報処理装置に関する。
従来、パーソナルコンピュータや、携帯通信端末等への情報の入力方法として、キーボード等を用いて入力をした変換候補を表示する入力支援装置が広く知られている。
例えば、キーボードを用いて、文字を入力し、漢字仮名混じり文字列に変換する際に、変換候補が複数存在する場合、音声による入力を参照し、変換候補を絞り込む入力支援装置が知られている(例えば、特許文献1)。このような入力支援装置によれば、変換候補を特定する際の効率を向上できる。
特開平8−123481号公報
しかしながら、上述した従来の入力支援装置には、次のような問題があった。すなわち、上述した入力支援装置は、キーボード等に入力された文字列に基づいて、入力支援装置に記憶された文字列を変換候補として表示するため、入力される文字列が短い場合、変換候補が多く検出され、表示すべき変換候補を絞りきれず、ユーザが要求する変換候補を十分に表示できないという問題がある。
そこで、本発明は、このような状況に鑑みてなされたものであり、キーボード等に入力された文字列が短い場合であっても、ユーザが要求する変換候補を表示できる、すなわち、予測変換の精度を向上できる入力支援装置、抽出方法、プログラム、及び情報処理装置を提供することを目的とする。
上述した問題を解決するため、本発明は、次のような特徴を有している。まず、本発明の第1の特徴は、ユーザによるテキストの入力を予測し、変換候補を抽出する入力支援装置(入力支援装置100)であって、入力された音声に基づく音声波形(音声波形131)について音声認識をする音声認識手段(音声認識部107)と、ユーザのキー操作に対応するキー入力情報(キー入力情報180)を取得する取得手段(キー入力情報取得部111)と、前記音声認識手段による音声認識の結果と、前記キー入力情報とに基づいて、関連するテキストを変換候補として作成する変換候補作成手段(変換候補作成部113)と、を備えることを要旨とする。
このような入力支援装置は、入力された音声に基づく音声波形について、音声認識をする音声認識手段と、ユーザのキー操作に対応するキー入力情報を取得する取得手段と、変換候補作成手段とを備える。
変換候補作成手段は、音声認識手段による音声認識の結果と、キー入力情報とに基づいて、関連するテキストを変換候補として作成する。すなわち、変換候補作成手段は、キーボード等に入力された文字列が短い場合であっても、ユーザが要求する変換候補を表示できる。従って、予測変換の精度を向上できる入力支援装置を提供できる。
本発明の第2の特徴は、本発明の第1の特徴に係り、前記変換候補作成手段は、前記音声認識手段による音声認識の結果に基づいて、前記音声波形に対応するテキストである音声変換候補(音声変換候補140)を取得する音声変換候補取得手段(音声変換候補取得部115)と、前記キー入力情報に基づいて、前記音声変換候補を絞り込む限定手段(限定部117)と、を備えることを要旨とする。
本発明の第3の特徴は、本発明の第1又は第2の特徴に係り、ユーザの指定に基づいて、前記変換候補から単語を確定する確定手段(確定部127)を更に備え、前記音声認識手段は、前記確定手段による処理がされていない前記音声波形について、再度音声認識をすることを要旨とする。
本発明の第4の特徴は、本発明の第3の特徴に係り、単語(基本単語191)と、該単語に関連する関連単語(関連単語193)とを記憶する関連単語記憶手段(関連単語記憶部125)と、前記関連単語記憶手段から、前記確定手段により確定した単語に関連する前記関連単語に対応する前記変換候補を優先的に提示する提示手段(提示部123)とを更に備えことを要旨とする。
本発明の第5の特徴は、コンピュータが、ユーザによるテキストの入力を予測し、変換候補を抽出する抽出方法であって、入力された音声に基づく音声波形について音声認識をするステップ(ステップS120)と、ユーザのキー操作に対応するキー入力情報を取得するステップ(ステップS130)と、前記音声認識の結果と、前記キー入力情報とに基づいて、関連するテキストを変換候補として作成するステップ(ステップS150)とを含むことを要旨とする。
本発明の第6の特徴は、本発明の第5の特徴に記載の抽出方法をコンピュータに実行させるためのプログラムであることを要旨とする。
本発明の第7の特徴は、本発明の第6の特徴に記載のプログラムを配信するための情報処理装置であることを要旨とする。
本発明によれば、キーボード等に入力された文字列が短い場合であっても、ユーザが要求する変換候補を表示できる、すなわち、予測変換の精度を向上できる入力支援装置、抽出方法、プログラム、及び、情報処理装置を提供できる。
本発明の実施形態に係る入力支援装置100の機能ブロック図である。 本発明の実施形態に係る入力支援装置100の動作を説明するための概念図である。 本発明の実施形態に係る入力支援装置100に記憶される情報の一例を示す図である。 本発明の実施形態に係る入力支援装置100の動作を説明するための概念図である。 本発明の実施形態に係る入力支援装置100の動作を説明するための概念図である。 本発明の実施形態に係る入力支援装置100に記憶される情報の一例を示す図である。 本発明の実施形態に係る入力支援装置100の変換候補抽出動作を示すフローチャートである。 本発明の実施形態に係る入力支援装置100の音声認識処理動作の詳細を示すフローチャートである。 本発明の実施形態に係る入力支援装置100に関する判定処理動作を示すフローチャートである。
次に、図面を参照して、本発明の実施形態について説明する。
なお、以下の図面の記載において、同一または類似の部分には、同一または類似の符号を付している。また、図面は模式的なものであり、各寸法の比率などは現実のものとは異なる。
したがって、具体的な寸法などは以下の説明を参酌して判断すればよく、図面相互間においても互いの寸法の関係や比率が異なる部分が含まれている。
以下の実施形態においては、(1)入力支援装置100の全体構成、(2)入力支援装置100の動作、(3)作用・効果、及び(4)その他の実施形態について説明する。
(1)入力支援装置100の全体構成
図1は、本実施形態に係る入力支援装置100の機能ブロック図である。
入力支援装置100は、携帯通信端末装置(携帯電話機やスマートフォン)であり、ユーザによるテキストの入力を予測し、変換候補150を抽出する。以下の実施形態では、入力支援装置100は、ユーザによる「K」又は「か」の入力に基づいて、「会社訪問」という文章の入力を予測することを具体例として記載する。以下の実施形態で説明する予測変換機能は、周知の予測変換機能に組み込まれてもよい。また、入力支援装置100は、予測変換機能のみでなく通常のかな漢字変換機能も有してもよい。
入力支援装置100は、下記のハードウェア資源に加えて、マイク等の音声入力装置、キーボタンやタッチパネル等のキー入力情報入力装置、液晶ディスプレイ等の出力装置を備える。入力支援装置100は、CPU等の制御装置、メモリやHDD等の記憶装置、通信ネットワークと通信する通信I/F等の通信装置といったハードウェア資源を有するコンピュータ(単一或いは複数)により構成される。入力支援装置100が備える下記の各ブロックは、前述したコンピュータの制御装置等のハードウェア資源を用いてコンピュータプログラムを実行することによって実現されるものである。なお、これらの各ブロック、手段は、単一のコンピュータ上に配置される必要はなく、必要に応じて分散される構成を採用しても良い。
図1に示すように、入力支援装置100は、制御部101、音声取得部103、音声記憶部105、音声認識部107、音響モデルDB108a、言語モデルDB108b、音声変換候補記憶部109、キー入力情報取得部111、変換候補作成部113、キー入力変換候補作成部119、変換候補辞書記憶部121、提示部123、関連単語記憶部125、確定部127、出力部129を備える。また、変換候補作成部113は、音声変換候補取得部115と、限定部117とを備える。
これらの機能部は、いわゆるコンピュータにより構成され、演算/制御装置としてのCPU(Central Processing Unit)、記憶媒体としてのRAM(Random Access Memory)及びROM(Read Only Memory)、通信インターフェイス等が関連することで実現される。以下、各機能部について、説明する。
(1.1)制御部101
制御部101は、入力支援装置100を制御するCPU等の制御装置である。制御部101は、下記に示す機能部の動作を制御する。
(1.2)音声取得部103
音声取得部103は、マイク等を介して、入力された音声を取得し、音声を音声波形131に変換する。
(1.3)音声記憶部105
音声記憶部105は、音声取得部103により入力された音声の音声波形131を記憶する。
(1.4)音声認識部107
図2は、本実施形態に係る入力支援装置100の音声認識部107の動作を説明するための概念図である。具体的には、図2(a)は、音声認識部107で変換される音声波形131の概念図である。図2(b)は、音声認識部107で音声波形131に基づいて置き換えられる発音記号133の一例を示す図である。図2(c)は、音声認識部107で発音記号133に基づいて変換される音声変換候補140の概念図である。
図2に示すように、音声認識部107は、入力された音声に基づく音声波形131について、音声認識をする。音声認識部107は、音響モデルDB108aを用いて音声波形131を発音記号133に変換し、言語モデルDB108bを用いて、発音記号133を単語列からなる音声変換候補140に変換する、いわゆるボトムアップ的な認識手法による音声認識をする。具体的には、図2(a)に示すように、音声認識部107は、音声記憶部105に記憶された音声波形131を分析して特徴量を抽出した情報に変換する。更に、音声認識部107は、音声波形131を分析して、特徴量を抽出した情報に変換する。
次に、図2(b)に示すように、音声認識部107は、音声波形131と、音響モデルDB108aとに基づいて、音声波形131を発音記号133に置き換える。具体的には、音声認識部107は、音声波形131の特徴量等に基づいて、音声波形131を単語又は文節等である音声区間に区切る。次に、音声認識部107は、音響モデルDB108aから、音声波形131に対応する発音記号133を抽出することにより、音声波形131の所定の音声区間を複数の発音記号133に置き換える。また、音声認識部107は、複数の発音記号133に対して、音響モデルDB108aに基づいた確率を付与して記憶する。
例えば、音声認識部107は、音声波形131の特徴量に基づいて、音声波形131を「かいしゃほうもん」、「はいしゃこうもん」「あいしゃほうもん」等の発音記号133に音響モデルDB108aに基づいた確率付きで置き換える。
最後に、図2(c)に示すように、音声認識部107は、発音記号133について、言語モデルDB108bに記憶される単語を用いて、確率統計的な手法に基づいて、音声認識をする。言語モデルDB108bは、発音記号133について、音声変換候補140と、音声変換候補140の確率とを記憶する。例えば、音声認識部107は、「かいしゃ」、「はいしゃこうもん」「あいしゃほうもん」等の発音記号133について、言語モデルDB108bに基づいて、「歯医者」、「会社」、「愛車」、「開始」等の音声変換候補141、「校門」、「訪問」、「ホルモン」等の音声変換候補143を作成する。すなわち、音声変換候補140は、音声波形131に対応するテキストデータである。
また、音声認識部107は、確定部127により、音声変換候補140が確定後、確定部127による処理がされていない音声波形131について、再度音声認識をする。この場合、音声認識部107は、言語モデルDB108bに記憶される単語において、確定部127により確定した音声変換候補140(すなわち、後述する変換候補150)に関連する単語をユーザに選択される確率の高い単語として、音声変換候補140とすることができる。
(1.5)音響モデルDB108a
音響モデルDB108aは、発音記号と、発音記号に対応する複数の音声波形又は音声波形の統計的な音声波形のモデルである音声波形モデルとを記憶する。例えば、音響モデルDB108aは、「あ」から「ん」までの平仮名の発音記号と、各発音記号に対応する複数又は統計的な音声波形モデルとを記憶する。
(1.6)言語モデルDB108b
言語モデルDB108bは、辞書部と、n−gramとからなる。辞書部には、発音記号と、発音記号に対応する単語とが含まれる。辞書部は、使用頻度に応じて各単語の出現確率をデータ化している。すなわち、辞書部の所定の発音記号に対する単語の確率の累積は、100%になる。例えば、辞書部は、「かいしゃ」という発音記号に対して、「会社」である確率は、70%、「歯医者」である確率は、20%、「愛車」である確率は、5%・・・、という確率のデータを有し、「かいしゃ」という発音記号に対する単語の確率の累積は、100%になる。
n−gramは、文法記述部の機能として、単語の並び方を規定する。n−gramは、所定の文字列において、N個の文字列または単語の組み合わせの出現頻度を示したテーブルからなる、いわゆるn−gram文法に基づいて作成される。すなわち、n−gramは、直前のn−1単語を指定したときに、n単語目の単語の出現頻度を示すテーブルを有する。これにより、例えば、1−gramでは、「内閣」と「内角」とを、前後のテキストデータに基づいて、直前の単語が、人物名の場合は、「内角」よりも「内閣」である可能性が高いというデータを有し、直前の単語が、「キャッチャーが」である場合は、「内角」の確率が高いというデータを有する。
(1.7)音声変換候補記憶部109
図3は、本実施形態に係る入力支援装置100の音声変換候補記憶部109に記憶される情報の一例を示す図である。
図3に示すように、音声変換候補記憶部109は、識別番号171と、音声波形要素173と、音声変換候補140とを記憶する。
識別番号171は、音声波形要素173毎に割り振られた番号である。音声波形要素173は、音声波形131の一部であり、音声認識部107により音声変換候補140に変換された発音記号133に対応する波形である。
(1.8)キー入力情報取得部111
キー入力情報取得部111は、ユーザのキー操作に対応するキー入力情報180を取得する。具体的には、キー入力情報取得部111は、キーボード、タッチパネル等の操作に伴って、ユーザにより入力されたキー入力情報180を取得する。例えば、キー入力情報取得部111は、「K」又は「か」などのキー入力情報180を取得する。
(1.9)変換候補作成部113
図4は、本実施形態に係る入力支援装置100の音声認識部107の動作を説明するための概念図である。
図4に示すように、変換候補作成部113は、音声認識部107による音声認識の結果と、キー入力情報180とに基づいて、関連するテキストを変換候補150として作成する。具体的には、変換候補作成部113は、音声認識部107による音声認識の結果と、キー入力情報180とに基づいて、関連する音声変換候補140の有無を判定し、音声変換候補140と、キー入力情報180とに基づいて、関連するテキストを変換候補150として作成する。また、変換候補作成部113は、音声波形131について、変換候補151、変換候補153のように文節又は単語毎に連ねて作成する。
変換候補作成部113は、音声変換候補取得部115と、限定部117とを備える。音声変換候補取得部115は、音声波形131に対応する音声変換候補140を音声変換候補記憶部109から取得することにより、音声認識部107による音声認識の結果を取得する。例えば、音声変換候補取得部115は、音声波形131に対応する音声変換候補140として、音声変換候補141と音声変換候補143とを音声変換候補記憶部109から取得する。
限定部117は、キー入力情報180に基づいて、音声変換候補140を絞り込むことにより関連するテキストを変換候補150として作成する。具体的には、限定部117は、キー入力情報180と、音声変換候補140の発音記号133の先頭文字とに基づいて、音声変換候補140を絞り込む。例えば、限定部117は、キー入力情報180である「K」、「か」と、音声変換候補141の発音記号133の先頭文字である「はいしゃ」、「かいしゃ」、「あいしゃ」、「かいし」とに基づいて、発音記号133の先頭文字が、「か行」である、「かいしゃ」、「かいし」に音声変換候補141を絞り込むことにより変換候補151を作成する。なお、限定部117は、キー入力情報180である「か」に基づいて、発音記号133の先頭文字が、「か」である、「かいしゃ」、「かいし」に音声変換候補141を絞り込んでもよい。
限定部117は、音声変換候補141に続く音声変換候補143について、変換候補151の確定後に新たなキー入力情報180に基づいて、音声変換候補143を絞り込む。なお、限定部117は、キー入力情報180に一致する音声変換候補143がない場合、該当する音声変換候補143は無とする。この場合、後述するキー入力変換候補作成部119により作成されるキー入力変換候補160のみが、提示部123を介してユーザに提示される。
また、限定部117は、一文字からなるキー入力情報180だけでなく、複数の文字からなるキー入力情報180に基づいて、音声変換候補140を絞り込むことができる。具体的には、先頭のキー入力情報180に続く新たなキー入力情報180に基づいて、音声変換候補141を更に絞り込むことができる。音声変換候補143が、「こうもん」、「ほうもん」、「ほるもん」である場合における限定部117の絞込みについて、以下説明する。
例えば、キー入力情報180が「H」、音声変換候補143が、「こうもん」、「ほうもん」、「ほるもん」である場合、限定部117は、キー入力情報180と、音声変換候補143とに基づいて、「ほうもん」、「ほるもん」に音声変換候補143を絞り込む。ここで、新たなキー入力情報180として、「O」「U」が連続して入力された場合、限定部117は、新たなキー入力情報180に基づいて、音声変換候補143を「ほうもん」に絞り込む。
(1.10)キー入力変換候補作成部119
キー入力変換候補作成部119は、ユーザのキー操作に対応するキー入力情報180に基づいて、キー入力変換候補160を作成する。具体的には、キー入力変換候補作成部119は、キーボード、タッチパネル、マウス等の操作に伴って、ユーザにより入力されたキー入力情報180をキー入力情報取得部111から取得し、キー入力情報180に対応するキー入力変換候補160を変換候補辞書記憶部121から抽出する。
例えば、キー入力変換候補作成部119は、「K」又は「か」などのキー入力情報180を取得し、キー入力情報180に対応する先頭文字が「か行」である「帰り」、「蚊」、「昨日」、「健康」等を変換候補辞書記憶部121から抽出する。なお、キー入力情報取得部111は、キー入力情報180である「か」に基づいて、発音記号133の先頭文字が、「か」である、「帰り」、「蚊」にキー入力変換候補160を絞り込んでもよい。
(1.11)変換候補辞書記憶部121
変換候補辞書記憶部121は、発音記号と、発音記号に対応するキー入力変換候補160とを記憶する。なお、発音記号及びキー入力変換候補160は、辞書として事前に登録されている。また、発音記号及びキー入力変換候補160は、ユーザにより利用される単語の履歴に基づいて登録される。例えば、変換候補辞書記憶部121は、確定部127により確定した単語をキー入力変換候補160として、確定部127により確定した単語の発音記号と対応させて記憶する。
(1.12)提示部123
図5は、本実施形態に係る入力支援装置100の提示部123の動作を説明するための概念図である。具体的には、図5(a)は、提示部123で表示される変換候補150の一例を示す図である。図5(b)は、確定部127により確定した変換候補151と、変換候補151の確定に伴う提示部123の動作を示す概念図である。
図5に示すように、提示部123は、音声波形131又はキー入力情報180について、対応する変換候補150及びキー入力変換候補160の少なくとも何れかを提示する。具体的には、提示部123は、液晶ディスプレイ等の出力装置を介して、音声波形131又はキー入力情報180に対応する変換候補150を提示する。例えば、図5(a)に示すように、提示部123は、音声波形131又はキー入力情報180に対応する変換候補151及び変換候補153を提示する。図5(a)に示す提示部123は、複数の変換候補151及び複数の変換候補153を提示する、いわゆるラティス式の提示をする。提示部123は、変換候補151及び変換候補153について、言語モデルDB108b、或いは後述する関連単語記憶部125に基づいて、ユーザに選択される確率の高い単語のみ、すなわち、nベスト文式に基づき、1つの単語をそれぞれ提示してもよい。
また、図5(b)、図6に示すように、提示部123は、確定部127により確定した単語である変換候補151aを基本単語191として、基本単語191に関連する関連単語193に対応する変換候補を変換候補153aとして優先的に提示する。例えば、提示部123は、変換候補151aである「会社」をユーザが選択した場合、基本単語191の「会社」に関連する関連単語193である「訪問」を、「校門」よりも上位に提示することで、変換候補153aとして優先的に提示する。
(1.13)関連単語記憶部125
図6は、本実施形態に係る入力支援装置100の関連単語記憶部125に記憶される情報の一例を示す図である。図6に示すように、関連単語記憶部125は、基本単語191と、該基本単語191に関連する関連単語193とを記憶する。
なお、基本単語191は、ユーザにより利用される単語の履歴に基づいて登録される。例えば、基本単語191は、言語モデルDB108bに記憶される単語である。また、基本単語191は、ユーザからの入力に基づいて、逐次、登録される。
関連単語193は、基本単語191に関連する単語である。例えば、関連単語193は、音声記憶部105の言語モデルに基本単語191と関連して記憶される単語である。また、関連単語193は、ユーザからの入力に基づいて、逐次基本単語191と関連して記憶される。
なお、関連単語記憶部125は、言語モデルDB108bのn−gramそのものであってもよい。
(1.14)確定部127
確定部127は、ユーザの指定に基づいて、変換候補150から単語を確定する。具体的には、確定部127は、キーボタンやタッチパネル等のキー入力情報入力装置、又はマウス等の入力装置からのユーザの指示情報に基づいて、変換候補150から単語を確定する。例えば、図5(a)、(b)に示すように、確定部127は、ユーザの指定に基づいて、変換候補151から「会社」を変換候補151aとして、確定する。
(1.15)出力部129
出力部129は、確定部127により確定した変換候補151aをユーザに出力する。具体的には、出力部129は、液晶ディスプレイ等の出力装置を介して、変換候補151aを出力する。また、出力部129は、ネットワーク等を介して、変換候補151aをデータとして出力することもできる。
(2)入力支援装置100の動作
入力支援装置100の動作について、(2.1)全体概略動作、(2.2)音声認識部107の音声認識処理動作、(2.3)変換候補作成部113の音声変換候補140に関する判定処理動作の順に説明する。
(2.1)全体概略動作
図7は、実施形態に係る入力支援装置100の変換候補抽出動作を示すフローチャートである。
図7に示すように、ステップS100において、制御部101は、ユーザからの入力が音声に基づくものであるか、キー入力情報180に基づくものであるかを判定する。具体的には、制御部101は、ユーザからの入力が音声に基づくものである場合、処理をステップS110へ進める。また、制御部101は、ユーザからの入力がキー入力情報180に基づくものである場合、処理をステップS130へ進める。
ステップS110において、音声取得部103は、マイク等を介して、入力された音声を取得し、音声を音声波形131に変換する。また、音声記憶部105は、音声取得部103により入力された音声の音声波形131を記憶する。
ステップS120において、音声認識部107は、音声記憶部105に記憶された音声波形131について、音響モデルDB108a及び言語モデルDB108bを用いて、音声認識を行い、音声変換候補140を作成する。また、音声変換候補記憶部109は、音声変換候補140と、音声変換候補140に伴う識別番号171と、音声波形要素173とを記憶する。
ステップS130において、キー入力情報取得部111は、ユーザのキー操作に対応するキー入力情報180を取得する。
ステップS140において、変換候補作成部113は、音声認識部107による音声認識の結果と、キー入力情報180とに基づいて、関連する音声変換候補140の有無を判定する。
具体的には、変換候補作成部113の音声変換候補取得部115は、音声波形131に対応する音声変換候補140を音声変換候補記憶部109から取得することにより、音声認識部107による音声認識の結果を取得する。
また、変換候補作成部113の限定部117は、キー入力情報180に基づいて、音声変換候補140を絞り込むことにより、キー入力情報180に基づく、音声変換候補140の有無を判定する。
具体的には、限定部117は、キー入力情報180に対応する音声変換候補140を有りと判定した場合、処理をステップS150へ進める。また、限定部117は、キー入力情報180に対応する音声変換候補140を無しと判定した場合、処理をステップS120へ戻すことにより、音声認識部107による音声認識をやり直す。
ステップS150において、変換候補作成部113は、音声認識部107による音声認識の結果と、キー入力情報180とに基づいて、関連するテキストを変換候補150として作成する。具体的には、変換候補作成部113の限定部117は、キー入力情報180に基づいて、音声変換候補140を絞り込むことにより関連するテキストを変換候補150として作成する。
ステップS160において、提示部123は、音声波形131について、対応する変換候補150を提示する。また、提示部123は、ステップS210のキー入力変換候補作成部119の処理を受けて、音声波形131について、対応するキー入力変換候補160を提示してもよい。
ステップS170において、確定部127は、ユーザの指定に基づいて、変換候補150から単語を確定したか否かを確認する。具体的には、確定部127は、ユーザの指定に基づいて、変換候補150から単語を確定した場合、処理をステップS180へ進める。また、確定部127は、ユーザの指定に基づいて、変換候補150から単語を確定していない場合、処理をステップS200へ進める。
ステップS180において、出力部129は、確定部127により確定した変換候補151aをユーザに出力する。
ステップS190において、制御部101は、音声波形131について、確定した変換候補151aの次の文節、又は次の単語の変換候補150の有無を判定する。例えば、制御部101は、音声波形131について、確定した変換候補151aの次の文節、又は次の単語として、変換候補153を確認するため、変換候補153を有りとして次の処理に進める。
具体的には、制御部101は、音声波形131について、確定した変換候補151aの次の文節、又は次の単語の変換候補150を有りと判定した場合、処理をステップS170へ戻すことにより、確定した変換候補151aの次変換候補150について、処理をする。また、制御部101は、音声波形131について、確定した変換候補151aの次の文節、又は次の単語の変換候補150を無しと判定した場合、変換候補抽出処理を終了する。
ステップS200において、キー入力情報取得部111は、ユーザのキー操作に対応する新たなキー入力情報180の入力を確認し、処理をステップS210へ進める。
ステップS210において、キー入力変換候補作成部119は、ユーザのキー操作に対応するキー入力情報180に基づいて、キー入力変換候補160を作成する。
(2.2)音声認識部107の音声認識処理動作
図8は、実施形態に係る音声認識部107の音声認識処理動作の詳細を示すフローチャートである。具体的には、図8は、図7のステップS120における音声認識部107が、音声認識を行う処理の詳細動作を示す。
ステップS121において、音声認識部107は、音声記憶部105に記憶された音声波形131を分析して特徴量を抽出した情報に変換する。更に、音声認識部107は、音声波形131と、音響モデルDB108aとに基づいて、音声波形131を発音記号133に置き換える。
ステップ123において、音声認識部107は、発音記号133について、言語モデルDB108bに基づいて、音声変換候補140を作成する。
ステップ125において、音声変換候補記憶部109は、識別番号171と、音声波形要素173と、音声変換候補140とを対応させて記憶する。
これにより、音声認識部107は、音声認識処理動作を終了する。
(2.3)変換候補作成部113の音声変換候補140に関する判定処理動作
図9は、実施形態に係る変換候補作成部113の音声変換候補140に関する判定処理動作を示すフローチャートである。具体的には、図9は、図7のステップS140における変換候補作成部113が、音声変換候補140に関する判定を行う処理の詳細動作を示す。
ステップS141において、変換候補作成部113の音声変換候補取得部115は、音声波形131に対応する音声変換候補140を音声変換候補記憶部109から取得することにより、音声認識部107による音声認識の結果を取得する。
ステップS143において、変換候補作成部113の限定部117は、キー入力情報180に基づいて、音声変換候補140を絞り込むことにより、キー入力情報180に基づく、音声変換候補140の有無を判定する。
これにより、変換候補作成部113は、音声変換候補に関する判定処理動作を終了する。
(3)作用・効果
以上説明したように、本実施形態によれば、入力支援装置100は、入力された音声に基づく音声波形131について、音声認識をする音声認識部107と、ユーザのキー操作に対応するキー入力情報180を取得するキー入力情報取得部111と、変換候補作成部113とを備える。
変換候補作成部113は、音声認識部107による音声認識の結果と、キー入力情報180とに基づいて、関連するテキストを変換候補150として作成する。すなわち、変換候補作成部113は、キーボード等に入力された文字列が短い場合であっても、ユーザが要求する変換候補150を表示できる。従って、予測変換の精度を向上できる入力支援装置100を提供できる。
このように入力支援装置100は、入力したい文章を単文、又は全文にわたって始めに入力し、ユーザのキー操作に基づいて、文章の先頭から単語を決定していく使い方で好適に用いられる。特に、入力支援装置100は、ユーザのキー操作を削減する事が出来るため、携帯通信端末に適用されることで、好適に用いられる。
実施形態では、変換候補作成部113は、音声認識部107による音声認識の結果に基づいて、音声波形131に対応するテキストである音声変換候補140を取得する音声変換候補取得部115と、キー入力情報180に基づいて、音声変換候補140を絞り込む限定部117とを備える。
このため、変換候補作成部113は、音声認識部107により音声認識された音声変換候補140をキー入力情報180に基づいて絞り込むことができる。すなわち、変換候補作成部113は、音声波形131と、キー入力情報180とを用いることで、予測変換の精度を更に向上できる。
実施形態では、入力支援装置100は、ユーザの指定に基づいて、変換候補150から単語を確定する確定部127を更に備える。また、音声認識部107は、確定部127による処理がされていない音声波形131について、再度音声認識をする。
このため、音声認識部107は、確定部127により単語が確定した変換候補150に基づいて、再度音声認識をすることができる。すなわち、音声認識部107は、確定した単語の情報を用いて、再度音声認識を行うため、確定した単語と連なる可能性の高い単語を候補として表示することで、予測変換の精度を更に向上できる。
実施形態では、入力支援装置100は、単語と、該単語に関連する関連単語193とを記憶する関連単語記憶部125と、関連単語記憶部125から、確定部127により確定した単語に関連する関連単語記憶部125に対応する変換候補150を優先的に提示する提示部123とを更に備える。このため、提示部123は、関連単語記憶部125に基づいて、関連単語193を優先的に提示することができる。従って、ユーザの要求する単語を更に効果的に提示できる入力支援装置100を提供できる。
(4)その他の実施形態
上述した実施形態では、音声認識部107は、音響モデルDB108aを用いて音声波形131を発音記号133に変換し、言語モデルDB108bを用いて、発音記号133を単語列からなる音声変換候補140に変換する、いわゆるボトムアップ的な認識手法による音声認識をする。
本発明は、これに限られず、音声認識部107は、言語モデルDB108bを用いて音声変換候補140を仮定し、言語モデルDB108bの辞書部を用いて発音記号133に変換し、音響モデルDB108aを用いて、発音記号133と、対応する音声波形131とを照合する、いわゆるトップダウン的な認識手法による音声認識をしてもよい。この場合、図8に示す音声認識を行う処理では、音声認識部107は、ステップS121、S123を同時に行い、音声波形131から音声変換候補140を作成する。
上述した実施形態では、入力支援装置100は、マイク等の音声入力装置及びキーボタンやタッチパネル等のキー入力情報入力装置を備え、ユーザによるテキストの入力を予測し、変換候補150を抽出する。
本発明は、これに限られず、音声や、キー入力情報は、通信ネットワーク等を介して、クライアント端末から入力支援装置100に入力されてもよい。この場合、入力支援装置100は、ネットワーク等を介して、元のクライアント端末に変換候補150を送信することにより、クライアント端末では、変換候補150をユーザに提示することができる。
上述した実施形態では、入力支援装置100は、携帯通信端末装置(携帯電話機やスマートフォン)として例示した。本発明は、これに限られず、入力支援装置100は、ユーザが使用するPC(Personal Computer)やカーナビゲーションシステム等でもよい。
上述した実施形態では、入力支援装置100が備える各ブロックについて記載しているが、本発明これに限られず、例えば、上記の各ブロックの機能を実行するコンピュータプログラムとしてもよく、また、このコンピュータプログラムを配信する情報処理装置であってもよい。
上述した実施形態では、音声認識部107は、音声波形131と、音響モデルDB108aとに基づいて、音声波形131を発音記号133に置き換え、言語モデルDB108bに記憶される単語を用いて、音声変換候補140を作成する。
本発明は、これに限られず、例えば、音声認識部107は、音声波形131について、キー入力情報180に対応するとともに、変換候補辞書記憶部121に記憶される単語を用いて音声認識をしてもよい。この場合、変換候補辞書記憶部121は、確定部127により確定した単語をキー入力変換候補160として、確定部127により確定した単語の発音記号と対応させて記憶する。これによれば、音声認識部107は、確定部127により確定するとともに、キー入力情報180に対応する単語を音声変換候補140として、作成できる。すなわち、音声認識部107は、ユーザにとって使用頻度が高いとともに、キー入力情報180に対応する単語を音声変換候補140として作成できる。従って、音声認識部107は、ユーザの作成意図を組んだ単語を音声変換候補140として作成できる。
このように、本発明は、ここでは記載していない様々な実施の形態などを含むことは勿論である。したがって、本発明の技術的範囲は、上述の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。
例えば、各構成図、フローチャート、概念図の図などは例示に過ぎず、各要素の有無、その順序や具体的内容などは適宜変更可能である。一例として、手動によるブロックの指定は必須ではなく、また、本発明において、各手段などの要素は、コンピュータの演算制御部に限らず、ワイヤードロジック等に基づく電子回路で実現してもよい。
100 入力支援装置
101 制御部
103 音声取得部
105 音声記憶部
107 音声認識部
108a 音響モデルDB
108b 言語モデルDB
109 音声変換候補記憶部
111 キー入力情報取得部
113 変換候補作成部
115 音声変換候補取得部
117 限定部
119 キー入力変換候補作成部
121 変換候補辞書記憶部
123 提示部
125 関連単語記憶部
127 確定部
129 出力部
131 音声波形
133 発音記号
140、141、143 音声変換候補
150、151、151a、153、153a 変換候補
160 キー入力変換候補
171 識別番号
173 音声波形要素
180 キー入力情報
191 基本単語
193 関連単語

Claims (7)

  1. ユーザによるテキストの入力を予測し、変換候補を抽出する入力支援装置であって、
    入力された音声に基づく音声波形について音声認識をする音声認識手段と、
    ユーザのキー操作に対応するキー入力情報を取得する取得手段と、
    前記音声認識手段による音声認識の結果と、前記キー入力情報とに基づいて、関連するテキストを変換候補として作成する変換候補作成手段と、
    を備えることを特徴とする入力支援装置。
  2. 前記変換候補作成手段は、
    前記音声認識手段による音声認識の結果に基づいて、前記音声波形に対応するテキストである音声変換候補を取得する音声変換候補取得手段と、
    前記キー入力情報に基づいて、前記音声変換候補を絞り込む限定手段と、
    を備えることを特徴とする請求項1に記載の入力支援装置。
  3. ユーザの指定に基づいて、前記変換候補から単語を確定する確定手段を更に備え、
    前記音声認識手段は、
    前記確定手段による処理がされていない前記音声波形について、再度音声認識をすることを特徴とする請求項1又は2に記載の入力支援装置。
  4. 単語と、該単語に関連する関連単語とを記憶する関連単語記憶手段と、
    前記関連単語記憶手段から、前記確定手段により確定した単語に関連する前記関連単語に対応する前記変換候補を優先的に提示する提示手段と
    を更に備えことを特徴とする請求項3に記載の入力支援装置。
  5. コンピュータが、ユーザによるテキストの入力を予測し、変換候補を抽出する抽出方法であって、
    入力された音声に基づく音声波形について音声認識をするステップと、
    ユーザのキー操作に対応するキー入力情報を取得するステップと、
    前記音声認識の結果と、前記キー入力情報とに基づいて、関連するテキストを変換候補として作成するステップと
    を含むことを特徴とする抽出方法。
  6. 請求項5に記載の抽出方法をコンピュータに実行させるためのプログラム。
  7. 請求項6に記載のプログラムを配信するための情報処理装置。
JP2010114847A 2010-05-19 2010-05-19 入力支援装置、抽出方法、プログラム、及び情報処理装置 Active JP5318030B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010114847A JP5318030B2 (ja) 2010-05-19 2010-05-19 入力支援装置、抽出方法、プログラム、及び情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010114847A JP5318030B2 (ja) 2010-05-19 2010-05-19 入力支援装置、抽出方法、プログラム、及び情報処理装置

Publications (2)

Publication Number Publication Date
JP2011243011A true JP2011243011A (ja) 2011-12-01
JP5318030B2 JP5318030B2 (ja) 2013-10-16

Family

ID=45409589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010114847A Active JP5318030B2 (ja) 2010-05-19 2010-05-19 入力支援装置、抽出方法、プログラム、及び情報処理装置

Country Status (1)

Country Link
JP (1) JP5318030B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489944B2 (en) 2013-12-13 2016-11-08 Kabushiki Kaisha Toshiba Information processing device, method and computer program product for processing voice recognition data
WO2018138826A1 (ja) * 2017-01-26 2018-08-02 オリンパス株式会社 情報記録システム、情報記録装置、および情報記録方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196140A (ja) * 2003-12-30 2005-07-21 Microsoft Corp テキストを入力するための方法
WO2006137246A1 (ja) * 2005-06-21 2006-12-28 Pioneer Corporation 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196140A (ja) * 2003-12-30 2005-07-21 Microsoft Corp テキストを入力するための方法
WO2006137246A1 (ja) * 2005-06-21 2006-12-28 Pioneer Corporation 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489944B2 (en) 2013-12-13 2016-11-08 Kabushiki Kaisha Toshiba Information processing device, method and computer program product for processing voice recognition data
WO2018138826A1 (ja) * 2017-01-26 2018-08-02 オリンパス株式会社 情報記録システム、情報記録装置、および情報記録方法
US11036775B2 (en) 2017-01-26 2021-06-15 Olympus Corporation Information recording system and information recording method

Also Published As

Publication number Publication date
JP5318030B2 (ja) 2013-10-16

Similar Documents

Publication Publication Date Title
US8543375B2 (en) Multi-mode input method editor
US9026428B2 (en) Text/character input system, such as for use with touch screens on mobile phones
Fowler et al. Effects of language modeling and its personalization on touchscreen typing performance
TWI443551B (zh) 用於輸入方法編輯器之方法及系統,及電腦程式產品
JP5362095B2 (ja) インプットメソッドエディタ
US20130073286A1 (en) Consolidating Speech Recognition Results
JP5802292B2 (ja) 共有された言語モデル
TWI510965B (zh) 輸入方法編輯器整合
US20160163314A1 (en) Dialog management system and dialog management method
KR100704093B1 (ko) 콤포넌트 기반의, 적응성 스트로크 명령 시스템
JP2015038731A (ja) 言語変換において複数の読み方の曖昧性を除去する方法
JP2016218995A (ja) 機械翻訳方法、機械翻訳装置及びプログラム
CN103026318A (zh) 输入法编辑器
US20170372695A1 (en) Information providing system
JP5231484B2 (ja) 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
JP5318030B2 (ja) 入力支援装置、抽出方法、プログラム、及び情報処理装置
KR20120063407A (ko) 터치스크린을 이용한 빠른 문자입력방법 및 문자입력장치
KR20160016870A (ko) 제스쳐에 의한 톤 및 발음 기호들의 입력
CN111475129A (zh) 一种语音识别候选同音词的展示方法及设备
JP2004295578A (ja) 翻訳装置
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
CN102156616B (zh) 触摸屏写键输入方法
JP2008226019A (ja) 文字処理装置、文字処理方法及びプログラム
JP7476960B2 (ja) 文字列入力装置、文字列入力方法、および文字列入力プログラム
Tung et al. A modified phoneme-based Chinese input method for minimizing conflict code rate

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120724

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130709

R150 Certificate of patent or registration of utility model

Ref document number: 5318030

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250