JP6763527B2

JP6763527B2 - 認識結果補正装置、認識結果補正方法、およびプログラム

Info

Publication number: JP6763527B2
Application number: JP2018157234A
Authority: JP
Inventors: 基光白川
Original assignee: Soppra Corp
Current assignee: Soppra Corp
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2020-09-30
Anticipated expiration: 2038-08-24
Also published as: JP2020030379A

Description

本発明は、入力された音声を音声認識した結果である入力文字列を補正する認識結果補正装置等に関するものである。

従来、各金融商品を示唆する言葉を規定した第１辞書を格納する記憶装置と、演算装置とを備える取引分析システムが存在した。演算装置は、金融商品の取扱企業とその顧客との間で行われた通話内容の録音データを所定の音声認識アルゴリズムでテキスト化し、テキスト化した通話内容を第１辞書に適用して、通話内容において該当顧客が売買意向を示唆した金融商品を特定する。そして、演算装置は、特定した金融商品の情報とテキスト化した通話内容が示す売買意向の情報とを含む傾向分析用情報を、所定の取引傾向分析アルゴリズムに適用して、特定した金融商品の取引傾向を分析する。かかる取引分析システムにより、信憑性および鮮度が良好な情報に基づき、金融商品の取引傾向を精度良好に分析することができる（例えば、特許文献１参照）。

特開２０１６−９９８５８号公報

しかし、上記の従来技術のように、ユーザの発話音声を音声認識した結果を用いて処理を行う処理装置では、例えば、ユーザの発音が不明瞭であったり、発話内容が汎用的でない用語を含んでいたり、音声認識の精度が低かったりすると、発話内容を正確に示す入力文字列は得られない可能性があった。発話内容を正確に示す入力文字列が得られないと、処理装置は、正しい処理結果を出力できない。

そこで、音声認識の結果を的確に補正する認識結果補正装置が所望される。

本第一の発明の認識結果補正装置は、１以上の文字の配列である第一文字列と、第一文字列に対応する１以上の音素の配列である第一音素列との対が、２対以上、格納される格納部と、入力された音声であり、一の文に対応する音声を音声認識した結果である入力文字列を取得する入力文字列取得部と、入力文字列の少なくとも一部に対応する２以上の音素の配列である第二音素列を取得する音素列取得部と、格納部から、第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得する第一文字列取得部と、入力文字列の少なくとも一部を、第一文字列取得部が取得した第一文字列に置き換える補正処理を行う補正部と、補正処理後の入力文字列を出力する出力部とを具備し、前記予め決められた条件は、第一音素列および第二音素列において対応する母音が全て一致するという第一条件を含むことを特徴とする認識結果補正装置である。かかる構成により、音声認識の結果を的確に補正するとともに、母音が全て同じ用語に対して、的確な補正が行える。

また、本第二の発明の認識結果補正装置は、第一の発明に対して、第一文字列は、１以上の名詞の配列で構成された用語に対応する文字列であり、音素列取得部は、入力文字列を形態素解析した結果であり、２以上の形態素の配列および２以上の各形態素の品詞を示す形態素情報を取得する形態素情報取得手段と、形態素情報を用いて、入力文字列に含まれる１以上の名詞を特定する特定手段と、特定手段が特定した１以上の各名詞ごとに、名詞に対応する音素の配列である第二音素列を取得する音素列取得手段とを具備し、第一文字列取得部は、格納部から、音素列取得手段が取得した１以上の各第二音素列ごとに、第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得し、補正部は、入力文字列の、特定手段が特定した１以上の名詞を、第一文字列取得部が取得した１以上の第一文字列に置き換える補正処理を行う認識結果補正装置である。かかる構成により、音声認識の結果を名詞単位で簡単かつ的確に補正する認識結果補正装置を提供できる。

また、本第三の発明の認識結果補正装置は、第二の発明に対して、音素列取得部は、形態素情報に対し、連続する２以上の名詞を結合して一の名詞とする結合処理を施す形態素情報処理手段をさらに具備し、特定手段は、結合処理が施された形態素情報を用いて、前記入力文字列に含まれる１以上の名詞を特定する認識結果補正装置である。かかる構成により、音声認識の結果を、１以上の名詞の配列で構成された用語単位で、簡単かつ的確に補正する認識結果補正装置を提供できる。

また、本第四の発明の認識結果補正装置は、第一から第三いずれか一つの発明に対して、予め決められた条件は、第一音素列および第二音素列において対応する子音が全て一致するという第二条件を含む認識結果補正装置である。かかる構成により、子音が全て同じ用語に対して、的確な補正が行える。特に、予め決められた条件が第一条件および第二条件を含むことで、子音が全て同じで、かつ母音も全て同じ用語に対して、的確な補正が行える。

また、本第五の発明の認識結果補正装置は、第一から第三いずれか一つの発明に対して、予め決められた条件は、第一音素列および第二音素列において対応する子音のうち予め決められた割合以上が一致するという第三条件を含む認識結果補正装置である。かかる構成により、予め決められた条件が第三条件を含むことで、子音の一部が同じで、かつ母音の一部が異なる用語に対して、的確な補正が行える。特に、予め決められた条件が第一条件および第三条件を含むことで、子音の一部が同じで、かつ母音が全て同じ用語に対しても、的確な補正が行える。

また、本第十一の発明の認識結果補正装置は、１以上の文字の配列である第一文字列と、当該第一文字列に対応する１以上の音素の配列である第一音素列との対が、２対以上、格納される格納部と、入力された音声であり、一の文に対応する音声を音声認識した結果である入力文字列を取得する入力文字列取得部と、前記入力文字列の少なくとも一部に対応する２以上の音素の配列である第二音素列を取得する音素列取得部と、前記格納部から、前記第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得する第一文字列取得部と、前記入力文字列の少なくとも一部を、前記第一文字列取得部が取得した第一文字列に置き換える補正処理を行う補正部と、前記補正処理後の入力文字列を出力する出力部とを具備し、前記予め決められた条件は、第一音素列および第二音素列において対応する子音が全て一致するという第二条件を含むことを特徴とする認識結果補正装置である。かかる構成により、音声認識の結果を的確に補正する認識結果補正装置を提供できるとともに、子音が全て同じ用語に対して、的確な補正が行える。特に、予め決められた条件が第一条件および第二条件を含むことで、子音が全て同じで、かつ母音も全て同じ用語に対して、的確な補正が行える。

また、本第十二の発明の認識結果補正装置は、第十一の発明に対して、第一文字列は、１以上の名詞の配列で構成された用語に対応する文字列であり、音素列取得部は、入力文字列を形態素解析した結果であり、２以上の形態素の配列および２以上の各形態素の品詞を示す形態素情報を取得する形態素情報取得手段と、形態素情報を用いて、入力文字列に含まれる１以上の名詞を特定する特定手段と、特定手段が特定した１以上の各名詞ごとに、名詞に対応する音素の配列である第二音素列を取得する音素列取得手段とを具備し、第一文字列取得部は、格納部から、音素列取得手段が取得した１以上の各第二音素列ごとに、第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得し、補正部は、入力文字列の、特定手段が特定した１以上の名詞を、第一文字列取得部が取得した１以上の第一文字列に置き換える補正処理を行う認識結果補正装置である。かかる構成により、音声認識の結果を名詞単位で簡単かつ的確に補正する認識結果補正装置を提供できる。

また、本第十三の発明の認識結果補正装置は、第十二の発明に対して、音素列取得部は、形態素情報に対し、連続する２以上の名詞を結合して一の名詞とする結合処理を施す形態素情報処理手段をさらに具備し、特定手段は、結合処理が施された形態素情報を用いて、前記入力文字列に含まれる１以上の名詞を特定する認識結果補正装置である。かかる構成により、音声認識の結果を、１以上の名詞の配列で構成された用語単位で、簡単かつ的確に補正する認識結果補正装置を提供できる。

また、本第十九の発明の認識結果補正装置は、１以上の文字の配列である第一文字列と、当該第一文字列に対応する１以上の音素の配列である第一音素列との対が、２対以上、格納される格納部と、入力された音声であり、一の文に対応する音声を音声認識した結果である入力文字列を取得する入力文字列取得部と、前記入力文字列の少なくとも一部に対応する２以上の音素の配列である第二音素列を取得する音素列取得部と、前記格納部から、前記第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得する第一文字列取得部と、前記入力文字列の少なくとも一部を、前記第一文字列取得部が取得した第一文字列に置き換える補正処理を行う補正部と、前記補正処理後の入力文字列を出力する出力部とを具備し、前記予め決められた条件は、第一音素列および第二音素列において対応する母音または子音の一致に関する２以上の条件を含み、前記第一文字列取得部は、前記２以上の条件のうち第一音素列が満たす１以上の条件に応じた優先順序で、第一音素列に対応する第一文字列の取得を行うことを特徴とする認識結果補正装置である。かかる構成により、音声認識の結果をより的確に補正できる。

また、本第二十の発明の認識結果補正装置は、第十九の発明に対して、第一文字列は、１以上の名詞の配列で構成された用語に対応する文字列であり、音素列取得部は、入力文字列を形態素解析した結果であり、２以上の形態素の配列および２以上の各形態素の品詞を示す形態素情報を取得する形態素情報取得手段と、形態素情報を用いて、入力文字列に含まれる１以上の名詞を特定する特定手段と、特定手段が特定した１以上の各名詞ごとに、名詞に対応する音素の配列である第二音素列を取得する音素列取得手段とを具備し、第一文字列取得部は、格納部から、音素列取得手段が取得した１以上の各第二音素列ごとに、第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得し、補正部は、入力文字列の、特定手段が特定した１以上の名詞を、第一文字列取得部が取得した１以上の第一文字列に置き換える補正処理を行う認識結果補正装置である。かかる構成により、音声認識の結果を名詞単位で簡単かつ的確に補正する認識結果補正装置を提供できる。

また、本第二十一の発明の認識結果補正装置は、第二十の発明に対して、音素列取得部は、形態素情報に対し、連続する２以上の名詞を結合して一の名詞とする結合処理を施す形態素情報処理手段をさらに具備し、特定手段は、結合処理が施された形態素情報を用いて、前記入力文字列に含まれる１以上の名詞を特定する認識結果補正装置である。かかる構成により、音声認識の結果を、１以上の名詞の配列で構成された用語単位で、簡単かつ的確に補正する認識結果補正装置を提供できる。

また、本第二十二の発明の認識結果補正装置は、第十九の発明に対して、予め決められた条件は、第一音素列および第二音素列において対応する母音が全て一致するという第一条件と、第一音素列および第二音素列において対応する子音が全て一致するという第二条件と、第一音素列および第二音素列において対応する子音のうち予め決められた割合以上が一致するという第三条件とを含む認識結果補正装置である。かかる構成により、音声認識の結果をより的確に補正できる。

また、本第二十三の発明の認識結果補正装置は、第二十二の発明に対して、第一文字列取得部は、第一条件および第二条件を満たす第一音素列、第一条件および第三条件を満たす第一音素列、第二条件を満たす第一音素列、および第三条件を満たす第一音素列の優先順序で、第一音素列に対応する第一文字列の取得を行う認識結果補正装置である。かかる構成により、音声認識の結果をより的確に補正できる。

本発明によれば、音声認識の結果を的確に補正する認識結果補正装置を提供できる。

実施の形態１における認識結果補正装置のブロック図同認識結果補正装置の動作を説明するフローチャート同音素列取得処理を説明するフローチャート同第一文字列取得処理を説明するフローチャート同対情報のデータ構造図同補正後の入力文字列の出力例を示す図実施の形態２における認識結果補正装置のブロック図同第一文字列取得処理を説明するフローチャート同対情報のデータ構造図コンピュータシステムの内部構成の一例を示す図

以下、認識結果補正装置等の２つの実施の形態について、図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

実施の形態１および２に共通して、第一文字列と第一音素列との対が２対以上格納されており、一の文に対応する入力音声を音声認識した結果である入力文字列を取得し、入力文字列の少なくとも一部に対応する音素列である第二音素列を取得し、第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得し、入力文字列の少なくとも一部を第一文字列に置き換える補正処理を行い、補正処理後の文字列を出力する認識結果補正装置について説明する。

認識結果補正装置は、例えば、サーバと通信可能な端末である。端末は、例えば、ＬＡＮやインターネット等のネットワーク、無線または有線の通信回線などを介して、サーバと通信可能に接続される。ただし、認識結果補正装置は、スタンドアロンの端末でもよい。

サーバは、例えば、自然言語処理を用いたサービスを提供する企業のサーバである。自然言語処理とは、人間が使う自然言語をコンピュータに処理させる技術である。自然言語処理は、例えば、音声認識、形態素解析等の処理を含む。なお、音声認識、形態素解析等については、後述する。または、サーバは、クラウドサーバやＡＳＰサーバ等でもよく、そのタイプや所在は問わない。

端末は、例えば、携帯端末である。携帯端末とは、例えば、スマートフォン、タブレット端末、携帯電話機、ノートＰＣ等であるが、その種類は問わない。または、端末は、例えば、据え置き型のＰＣでもよく、そのタイプや所在は問わない。

（実施の形態１）
本実施の形態において、第一文字列は用語に対応する文字列であり、入力文字列を形態素解析した結果である形態素情報を取得し、形態素情報に対して２以上の名詞を結合して一の名詞とする結合処理を施し、結合処理後の形態素情報を用いて、入力文字列中の１以上の名詞を特定し、１以上の各名詞ごとに、当該名詞に対応する第二音素列を取得し、１以上の各第二音素列ごとに、当該第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得し、入力文字列の１以上の名詞を、取得した１以上の第一文字列に置き換える認識結果補正装置１について説明する。

予め決められた条件は、第一音素列および第二音素列において対応する１以上の母音に関する第一条件を含む。予め決められた条件は、第一条件に加えて又はこれに代えて、第一音素列および第二音素列において対応する１以上の子音が全て一致するという第二条件を含んでもよい。または、予め決められた条件は、第一条件に加えて又はこれに代えて、第一音素列および第二音素列において対応する１以上の子音のうち予め決められた割合以上が一致するという第三条件を含んでもよい。または、予め決められた条件は、第一〜第三の３つの条件を含んでもよい。

本実施の形態では、特に、予め決められた条件が第一〜第三の３条件を含み、予め決められた条件を構成する第一〜第三条件の組み合わせによって、第一音素列に対応する第一文字列の取得を行う際の優先順位が異なる認識結果補正装置１について説明する。

図１は、本実施の形態における認識結果補正装置１のブロック図である。認識結果補正装置１は、格納部１１、処理部１２、および出力部１３を備える。処理部１２は、入力文字列取得部１２１、音素列取得部１２２、第一文字列取得部１２３、および補正部１２４を備える。音素列取得部１２２は、形態素情報取得手段１２２１、形態素情報処理手段１２２２、特定手段１２２３、および音素列取得手段１２２４を備える。

格納部１１には、第一文字列と第一音素列との対が、２対以上、格納される。第一文字列とは、１以上の文字の配列である。文字は、例えば、平仮名、片仮名、漢字等である。なお、文字は、日本語の文字に限らず、外国語の文字でもよい。外国語の文字とは、例えば、中国語の文字、ハングル文字、ギリシア文字、アルファベット等であるが、その種類は問わない。

第一文字列は、例えば、用語である。用語とは、書いたり話したりするときに用いられる語句である。用語は、通常、特定の分野で特に使われる語句である。特定の分野とは、例えば、金融の分野であるが、商取引の分野、工学の分野など、どの分野でもよい。この種の用語は、例えば、専門用語、学術用語などでもよい。

用語は、例えば、１または２以上の名詞の配列で構成される。一の名詞で構成される用語は、例えば、“去年”、“収支”などである。２以上の名詞の配列で構成される用語は、例えば、“五年”、“池田泉州銀行”（「池田泉州銀行」は登録商標：以下同様）などである。

または、用語は、自立語であってもよい。自立語とは、文中で単独でも文節を構成することのできる語である。自立語は、例えば、名詞、動詞、形容詞、形容動詞、副詞等であるが、付属語以外の語であれば何でもよい。付属語とは、単独では文節を構成することができず、常に自立語の下に付いて文節の一部として用いられる語である。付属語は、例えば、助詞、助動詞などである。

または、用語は、一の自立語の中の、文脈や活用等により変化しない、静的な部分であってもよい。静的な部分は、例えば、動詞の語幹である。

なお、第一文字列は、例えば、文でもよい。文とは、書いたり話したりする際の表現の単位である。なお、文は、主語と述語を有する完全な文章でなくてもよく、例えば、主語のみで構成され、述語を有していなくてもよいもよいし、主語が省略され、述語のみで構成されても構わない。

文は、例えば、１または２以上の形態素の配列で構成される、といってもよい。形態素とは、文を構成する単位である。形態素は、例えば、名詞、動詞、形容詞、形容動詞、副詞、助詞、助動詞等の品詞に対応する要素である。または、形態素は、自立語、付属語に対応する要素でもよく、その分類方法は問わない。なお、第一文字列が文である場合の認識結果の補正手法についは、実施の形態２で説明する。

第一音素列とは、第一文字列に対応する１以上の音素の配列である。なお、対応することは、通常、第一音素列の全部が第一文字列の全部に対応することであるが、例えば、第一音素列の一部が第一文字列の全部に対応する場合を含んでもよいし、第一音素列の全部が第一文字列の一部に対応する場合を含んでもよいし、第一音素列の一部が第一文字列の一部に対応する場合をも含むと考えても構わない。

音素とは、発話音声を構成する音の最小単位である。発話音声とは、ユーザが用語や文等の文字列を発音した音声である。発話音声は、母音と子音の組み合わせで構成される。母音は、例えば、ａ，ｉ，ｕ，ｅ，ｏ等であるが、その種類は問わない。子音は、例えば、ｋ，ｓ，t，ｎ，ｈ，ｍ，ｒ，ｙ，ｗ，ｇ，ｚ，ｄ，ｂ，ｐ，ｋｙ，ｍｙ等であるが、その種類は問わない。なお、音素は、例えば、上記のようにローマ字で表現されるが、発音記号で表現されてもよく、その表現形式は問わない。

第一音素列は、例えば、１以上のローマ字の配列で構成される。かかる第一音素列は、例えば、第一文字列の読み仮名を、１以上のローマ字の配列に変換することにより得られる。従って、第一音素列は、例えば、第一文字列の読み仮名のローマ字表記であってもよい。なお、ローマ字表記は、例えば、訓令式であるが、ヘボン式でもよく、その表現形式は問わない。

格納部１１に格納される第一文字列と第一音素列との対は、通常、用語を単位とする対である。用語を単位とする第一文字列と第一音素列との対は、例えば、“去年”と“ｋ，ｙ，ｏ，ｎ，ｅ，ｎ”との対、“池田泉州銀行”と“ｉ，ｋ，ｅ，ｄ，ａ，ｓ，ｅ，ｎ，ｓｙ，ｕ，ｇ，ｉ，ｎ，ｋ，ｏ”との対、“収支”と“ｓｙ，ｕ，ｓ，ｉ”との対などである。

ただし、格納部１１に格納される第一文字列と第一音素列との対は、例えば、文を単位とする対であってもよい。文を単位とする第一文字列と第一音素列との対は、例えば、“池田泉州銀行の去年の収支を教えて”と、“ｉ，ｋ，ｅ，ｄ，ａ，ｓ，ｅ，ｎ，ｓｙ，ｕ，ｇ，ｉ，ｎ，ｋ，ｏ，ｎ，ｏ，ｋ，ｙ，ｏ，ｎ，ｅ，ｎ，ｎ，ｏ，ｓｙ，ｕ，ｓ，ｉ，ｗ，ｏ，ｏ，ｓ，ｉ，ｅ，ｔ，ｅ”との対などである。なお、一の文に対応する第一音素列は、例えば、ベクトル空間モデルにおける第一ベクトルであってもよい。なお、ベクトル空間モデル、および第一ベクトルについては、実施の形態２で説明する。

なお、以下では、上記のような、第一文字列と第一音素列との対を、「対情報」と記す場合がある。

また、格納部１１は、対情報以外の情報も格納し得る。対情報以外の情報とは、例えば、辞書、音声認識用コーパスなどである。辞書とは、単語と、当該単語に関する各種の情報との組の集合である、といってもよい。各種の情報とは、例えば、読み仮名、品詞名などの情報である。辞書は、例えば、金融等の特定の分野の用語の辞書であるが、汎用的な用語の辞書でもよく、その種類は問わない。

音声認識用コーパスとは、音声認識を行うためのコーパスである。コーパスとは、自然言語による文や用語と、当該文等に関する情報との組の集合である、といってもよい。文等に関する情報は、例えば、構文、品詞、発音などの情報であるが、その種類は問わない。音声認識用コーパスは、例えば、ＨＭＭ(Hidden Markov Model)に基づくコーパスであるが、その種類は問わない。音声認識用コーパスは、通常、汎用的な用語のコーパスである。

なお、格納部１１に格納される１または２以上の対情報の集合は、コーパスの一種と考えてもよく、これを「特定用語コーパス」と呼ぶ場合がある。特定用語コーパスとは、特定の分野の用語のコーパスである。

処理部１２は、各種の処理を行う。各種の処理とは、例えば、入力文字列取得部１２１、音素列取得部１２２、第一文字列取得部１２３、補正部１２４、形態素情報取得手段１２２１、形態素情報処理手段１２２２、特定手段１２２３、および音素列取得手段１２２４などの処理である。

入力文字列取得部１２１は、入力文字列を取得する。入力文字列とは、入力された音声を音声認識した結果であり、１または２以上の文字の配列で構成される。音声認識とは、人間が発話した音声をコンピュータに認識させ、文字列に変換する技術である、といってもよい。なお、かかる技術は公知であり、詳しい説明を省略する。

入力文字列は、通常、一の文の全部に対応する文字列であるが、例えば、文節や単語等、文の一部に対応する文字列でもよいし、２以上の文に対応する文字列でも構わない。

取得とは、例えば、サーバからの受信である。詳しくは、例えば、ユーザが「池田泉州の去年の収支を教えて」と発話したとすると、入力文字列取得部１２１は、その発話音声を、認識結果補正装置１を実現する端末のマイクロフォン等を介して受け付け、音声信号に変換する。入力文字列取得部１２１は、変換した音声信号を、当該端末の通信モジュールを介して、サーバに送信する。

サーバは、認識結果補正装置１から送信された音声信号を受信して、音声認識等の処理を行い、入力文字列を取得する。取得される入力文字列は、発話と同じ文字列であることは好適であるが、例えば、“池田選手の５年の収支を教えて”といった、発話とは異なる文字列が取得される場合もあり得る。

なお、これは、例えば、音声認識等の処理に用いる辞書が汎用的なものであるために、金融等の特定の分野において「池田泉州銀行」を意味する用語「池田泉州」を、これと発音が同じ又は略同じ一般的な２つの単語の配列「池田」「選手」と誤認識することによる、とも考えられる。また、「去年」が、明瞭に“ｋｙｏｎｅｎ”と発音されず、例えば、“ｇｏｎｅｎ”の近い音で発音された結果、「５年」と認識された、とも考えられる。つまり、発話とは異なる文字列が取得される原因は、ユーザの不明瞭な発音でもよいし、コンピュータの誤認識でもよく、その種類は問わない。

サーバは、認識結果補正装置１から受信した音声信号に対して、上記のようにして取得した入力文字列を、認識結果補正装置１に送信する。

認識結果補正装置１において、通信モジュールがサーバからの入力文字列を受信し、入力文字列取得部１２１は、その受信された入力文字列を取得する。

なお、詳細は後述するが、取得された入力字列が、例えば、“池田選手の５年の収支を教えて”といった、発話とは異なる入力文字列である場合、この誤った入力文字列を、単に、発話と同じ入力文字列“池田泉州の去年の収支を教えて”に補正するのではなく、発話の意図をより的確に示す入力文字列“池田泉州銀行の去年の収支を教えて”に補正する処理が、音素列取得部１２２、第一文字列取得部１２３、および補正部１２４により行われる。また、取得された入力字列が、例えば、発話と同じ入力文字列“池田泉州の去年の収支を教えて”である場合にも、その正しい入力文字列は、より的確な“池田泉州銀行の去年の収支を教えて”に補正される。

または、入力文字列取得部１２１は、サーバから入力文字列を受信する代わりに、自ら音声認識を行い、その音声認識の結果である入力文字列を取得してもよい。詳しくは、例えば、ユーザが「池田泉州の去年の収支を教えて」と発話したとすると、入力文字列取得部１２１は、その発話音声を、マイクロフォン等を介して受け付け、音声信号に変換する。入力文字列取得部１２１は、変換した音声信号に対し、格納部１１の音声認識用コーパス等を用いて、音声認識を行い、入力文字列を取得する。なお、こうして入力文字列取得部１２１が自ら音声認識を行う場合にも、発話と同じ入力文字列が取得されるとは限らず、例えば、“池田選手の５年の収支を教えて”といった、発話とは異なる文字列が取得される場合もあり得る。

音素列取得部１２２は、第二音素列を取得する。第二音素列とは、入力文字列の少なくとも一部に対応する２以上の音素の配列である。少なくとも一部とは、入力文字列の一部でもよいし、全部でもよい。一部とは、例えば、名詞に対応する部分であるが、自立語に対応する部分でもよいし、自立語中の静的な部分でもよく、入力文字列のどの部分でも構わない。

音素列取得部１２２を構成する形態素情報取得手段１２２１は、形態素情報を取得する。形態素情報とは、形態素に関する情報である。形態素情報取得手段１２２１が取得する形態素情報は、入力文字列取得部１２１が取得した入力文字列を形態素解析した結果に関する情報である。形態素解析とは、文を構成する１以上の形態素を解析する処理である。形態素解析は、例えば、文に対応する入力文字列を構成する２以上の形態素の配列、および２以上の各形態素の品詞などを解析する処理を含む。取得される形態素情報は、例えば、入力文字列を構成する２以上の形態素の配列、および２以上の各形態素の品詞を示す情報を含む。

形態素情報は、例えば、一の形態素に対応する１または２以上の文字の配列（かかる文字列を、以下、「単語」と記す場合がある）と、品詞名との組（以下、「組情報」と記す場合がある）の集合である。形態素情報は、例えば、単語“池田”と品詞名“名詞”との組である第一の組情報、単語“泉州”と品詞名“名詞”との組である第二の組情報、単語“の”と品詞名“助詞”との組である第三の組情報といった、２以上の組情報で構成される。ただし、形態素情報のデータ構造は問わない。

形態素情報もまた、サーバから受信され得る。サーバは、例えば、音声認識により取得した文字列に対して形態素解析を行い、形態素情報を取得してもよい。サーバは、取得した形態素情報を、取得した入力文字列と対に、認識結果補正装置１に送信してもよい。サーバから送信された形態素情報は、認識結果補正装置１を実現する端末の通信モジュールによって受信され、形態素情報取得手段１２２１は、その受信された形態素情報を取得する。

または、形態素情報取得手段１２２１は、入力文字列取得部１２１が取得した入力文字列に対して、自ら形態素解析を行い、形態素情報を取得してもよい。

形態素情報取得手段１２２１は、通常、入力文字列取得部１２１が入力文字列を取得したことに応じて、当該入力文字列に関する形態素情報を取得する。ただし、形態素情報取得手段１２２１は、入力文字列が取得された後、例えば、タッチパネル等の入力デバイスを介して、形態素情報の取得の指示が受け付けられたことに応じて、形態素情報を取得してもよく、その取得のトリガやタイミングは問わない。

形態素情報処理手段１２２２は、形態素情報取得手段１２２１が取得した形態素情報に対し、例えば、結合処理を施す。結合処理とは、入力文字列取得部１２１が取得した入力文字列において、連続する２以上の名詞を結合して一の名詞とするために、形態素情報を変更する処理である。

結合処理は、例えば、上記の形態素情報を構成する２以上の組情報のうち、単語“池田”と品詞名“名詞”との組である第一の組情報、およびこれに続く単語“選手”と品詞名“名詞”との組である第二の組情報を用いて、連続する２つの名詞である単語“池田”および単語“選手”を結合することにより、一の名詞である単語“池田選手”を構成し、当該第一および第二の組情報を、構成した一の単語“池田選手”と品詞名“名詞”との組である新たな第一の組情報に更新する処理である。

かかる結合処理が施されることで、上記形態素情報は、単語“池田選手”と品詞名“名詞”との組である第一の組情報、およびこれに続く単語“の”と品詞名“助詞”との組である第二の組情報などで構成された形態素情報に更新される。

なお、結合処理は必須ではない。例えば、取得された入力文字列中に、連続する２以上の名詞が存在しない場合、形態素情報処理手段１２２２は、結合処理を行わないことは言うまでもない。また、取得された入力文字列中に、連続する２以上の名詞が存在する場合でも、形態素情報処理手段１２２２は、当該２以上の名詞を必ずしも結合しなくてもよい。

特定手段１２２３は、例えば、結合処理が施された後の形態素情報を用いて、入力文字列に含まれる１以上の名詞を特定する。特定手段１２２３は、例えば、上記の更新された形態素情報を用いて、３つの名詞“池田選手”，“去年”，および“収支”を特定する。なお、特定手段１２２３は、結合処理が施されていない形態素情報を用いて、入力文字列に含まれる１以上の名詞を特定してもよい。

音素列取得手段１２２４は、例えば、特定手段１２２３が特定した１以上の各名詞ごとに、当該名詞に対応する音素の配列である第二音素列を取得する。音素列取得手段１２２４は、例えば、格納部１１の辞書を用いて、当該名詞の読み仮名のローマ字表記を取得する。または、格納部１１に、仮名とローマ字との対応を示す対応情報が格納されており、音素列取得手段１２２４は、例えば、辞書を用いて、当該名詞の読み仮名を取得し、取得した読み仮名を、対応情報を用いてローマ字に変換してもよい。

なお、第二音素列の取得は、文単位で行われてもよい。例えば、後述する実施の形態２における音素列取得部２２２は、辞書を用いて、入力文字列の全部（つまり、一の文の全体）の読み仮名を取得し、取得した読み仮名を、対応情報を用いてローマ字に変換する。

第一文字列取得部１２３は、格納部１１から、音素列取得部１２２が取得した第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得する。なお、類似とは、通常、概ね一致することであるが、完全に一致する場合（以下、完全一致）も含む。

予め決められた条件は、例えば、第一条件を含む。第一条件とは、第一音素列および第二音素列において対応する母音が全て一致するという条件である。なお、全て一致することは、例えば、完全一致であるが、部分一致でもよい。部分一致は、通常、以下で説明するような前方一致であるが、例えば、後方一致でもよいし、中央一致でも構わない。

対応する母音が全て一致することは、第一音素列を構成する１以上の音素の配列（例えば、“ｉ，ｋ，ｅ，ｄ，ａ，ｓ，ｅ，ｎ，ｓｙ，ｕ，ｇ，ｉ，ｎ，ｋ，ｏ”）と、第二音素列を構成する１以上の音素の配列（例えば、“ｉ，ｋ，ｅ，ｄ，ａ，ｓ，ｅ，ｎ，ｓｙ，ｕ”）との各々において、例えば、先頭の音素から順に番号１，２，３等を付した場合に、第一音素列に含まれる１以上の各母音が何番目の音素であるかを示す１以上の番号の組（以下、「第一音素列における母音配列」と記す場合がある：例えば、｛１，３，５，７，１０，１２，１５｝）の少なくとも先頭の部分（例えば、１番目の音素から５番目の音素まで部分）が、第二音素列における母音配列（例えば、｛１，３，５，７，１０｝）と一致し、かつ、同じ番号の音素（例えば、音素１，音素３，音素５，音素７，音素１０）の種類が一致することである。

従って、例えば、第一音素列“ｉ，ｋ，ｅ，ｄ，ａ，ｓ，ｅ，ｎ，ｓｙ，ｕ，ｇ，ｉ，ｎ，ｋ，ｏ”は、第二音素列“ｉ，ｋ，ｅ，ｄ，ａ，ｓ，ｅ，ｎ，ｓｙ，ｕ”に対して、第一条件を満たしている。

または、予め決められた条件は、第一条件に代えて又はこれに加えて、第二条件を含んでもよい。第二条件とは、第一音素列および第二音素列において対応する子音が全て一致するという条件である。対応する子音とは、第一音素列を構成する１以上の音素の配列（例えば、“ｉ，ｋ，ｅ，ｄ，ａ，ｓ，ｅ，ｎ，ｓｙ，ｕ，ｇ，ｉ，ｎ，ｋ，ｏ”）と、第二音素列を構成する１以上の音素の配列（例えば、“ｉ，ｋ，ｅ，ｄ，ａ，ｓ，ｅ，ｎ，ｓｙ，ｕ”）との各々において、第一音素列に含まれる１以上の各子音が何番目の音素であるかを示す１以上の番号の組（以下、「第一音素列における子音配列」と記す場合がある：例えば、｛２，４，６，８，９，１１，１３，１４｝）の少なくとも先頭の部分（例えば、２番目の音素から９番目の音素までの５つの子音）が、第二音素列における子音配列（例えば、｛２，４，６，８，９｝）と一致し、かつ、同じ番号の音素（例えば、音素２，音素４，音素６，音素８，音素９）の種類が一致することである。

従って、例えば、第一音素列“ｉ，ｋ，ｅ，ｄ，ａ，ｓ，ｅ，ｎ，ｓｙ，ｕ，ｇ，ｉ，ｎ，ｋ，ｏ”は、第二音素列“ｉ，ｋ，ｅ，ｄ，ａ，ｓ，ｅ，ｎ，ｓｙ，ｕ”に対して、第二条件をも満たしている。

または、予め決められた条件は、例えば、第一条件に代えて又はこれに加えて、第三条件を含んでもよい。第三条件とは、第一音素列（例えば、“ｋｙ，ｏ，ｎ，ｅ，ｎ”）および第二音素列（例えば、“ｇ，ｏ，ｎ，ｅ，ｎ”）において対応する子音が類似するという条件である。対応する子音が類似することは、例えば、対応する２以上の子音のうち、予め決められた割合以上が一致することである。予め決められた割合とは、対応する子音の数に対する、一致する子音の数の割合である。予め決められた割合は、例えば、“５０％”であるが、“２／３”、“４割”等でもよく、その数値や単位は問わない。

例えば、第一音素列における子音配列は“ｋｙ，ｏ，ｎ，ｅ，ｎ”｛１，３，５｝であり、第二音素列“ｇ，ｏ，ｎ，ｅ，ｎ”における子音配列もまた｛１，３，５｝であるから、対応する子音の数は３個である。そして、対応する３個の子音のうちのうち、一番目の子音だけが異なり、３番目の子音および５番目の子音は一致するため、一致する子音の数は２個である。従って、対応する子音の数に対する、一致する子音の数の割合は、“２／３”と計算される。

この場合、例えば、予め決められた割合が“５０％”であれば、第一音素列“ｇ，ｏ，ｎ，ｅ，ｎ”は、第二音素列“ｋｙ，ｏ，ｎ，ｅ，ｎ”に対して、第三条件を満たしている。

第一文字列取得部１２３は、例えば、第一条件および第二条件を満たす第一音素列、第一条件および第三条件を満たす第一音素列、第二条件を満たす第一音素列、および第三条件を満たす第一音素列の優先順序で、第一音素列に対応する第一文字列の取得を行う。

優先順序とは、２種類以上の条件に関する判断を順番に行い、最初に条件を満たした第一音素列に対応する第一文字列を取得する動作において、どの種類の条件に関する判断を優先するかの順序である。第一文字列取得部１２３は、いずれかの条件を満たすまで、１回または２回以上、判断を行い、その条件を満たした第一音素列に対応する第一文字列を取得する。こうして第一文字列を取得した後、第一文字列取得部１２３は、その条件よりも優先順序が後の条件に関する判断を行わない。

詳しくは、第一文字列取得部１２３は、最初、第一条件および第二条件を満たす第一音素列が存在するか否かを判断する。そして、第一条件および第二条件を満たす第一音素列が存在する場合、第一文字列取得部１２３は、当該第一音素列を取得し、他の３種類の判断を行わない。

第一条件および第二条件を満たす第一音素列が存在しない場合、第一文字列取得部１２３は、次に、第一条件および第三条件を満たす第一音素列が存在するか否かを判断する。そして、第一条件および第三条件を満たす第一音素列が存在する場合、第一文字列取得部１２３は、当該第一音素列を取得し、他の２種類の判断を行わない。

第一条件および第三条件を満たす第一音素列が存在しない場合、第一文字列取得部１２３は、次に、第二条件を満たす第一音素列が存在するか否かを判断する。そして、第二条件を満たす第一音素列が存在する場合は、当該第一音素列を取得し、他の１種類の判断を行わない。

第二条件を満たす第一音素列が存在しない場合、第一文字列取得部１２３は、次に、第三条件を満たす第一音素列が存在するか否かを判断する。そして、第三条件を満たす第一音素列が存在する場合、第一文字列取得部１２３は、当該第一音素列を取得する。なお、第三条件を満たす第一音素列が存在しない場合、第一文字列取得部１２３は、通常、どの第一文字列も取得しない。

なお、予め決められた条件は、例えば、第一および第二の各音素列を構成する音素の数に関する条件を含んでいてもよい。音素の数に関する条件は、例えば、各音素列を構成する音素数の差分が閾値以下である、という条件でもよいし、または、第一音素列の音素数に対する上記差分の割合が閾値以下である、という条件でもよい。

なお、予め決められた条件は、第一音素列と第二音素列との類似度に関する条件でもよい。例えば、後述する実施の形態２における第一文字列取得部２２３は、格納部２１に格納されている２以上の各第一音素列ごとに、当該第一音素列と前記第二音素列との類似度を算出し、第二音素列との類似度が、算出した２以上の類似度の中で最も高く、かつ閾値以上である又は閾値より高いという条件を満たす第一文字列を取得する。本実施の形態１における第一文字列取得部１２３も、これと同様の動作を行ってもよい。ただし、実施の形態２における類似度は、文に対応する音素列間の類似度であるが、本実施の形態１における類似度は、用語（つまり、特定手段１２２３が特定した名詞）に対応する音素列間の類似度となる。

補正部１２４は、入力文字列の少なくとも一部を、第一文字列取得部１２３が取得した第一文字列に置き換える補正処理を行う。

補正部１２４は、例えば、入力文字列取得部１２１が取得した入力文字列の、特定手段１２２３が特定した１以上の名詞を、第一文字列取得部１２３が取得した１以上の第一文字列に置き換える補正処理を行う。

なお、補正処理は、入力文字列の全部に対して行われてもよい。例えば、後述する実施の形態２における補正部２２４は、かかる補正処理を行う。

出力部１３は、補正処理が行われた後の入力文字列（以下、補正入力文字列と記す場合がある）を出力する。出力部１３は、補正入力文字列を、例えば、ディスプレイに表示するが、記録媒体に蓄積したり、プリンタでプリントアウトしたりしてもよいし、スピーカから音声の態様で出力しても構わない。あるいは、出力部１３は、補正入力文字列を、外部の装置に送信したり、他のプログラムへ引渡したりしてもよく、その出力の態様は問わない。

なお、外部の装置は、例えば、補正入力文字列を用いて処理を行う処理装置であるが、外部モニタなどでもよく、その種類は問わない。また、他のプログラムは、例えば、補正入力文字列を用いて処理を行うアプリケーションプログラムであるが、その種類は問わない。さらに、こうした処理装置やアプリケーションプログラムが行う処理は、例えば、金融に関する情報処理である。金融に関する情報処理は、例えば、ユーザの口座情報を用いて資金の動きを特定し、資金の動きからユーザの取引傾向を分析し、取引傾向に基づいて、残高予測や資金移動の提案をユーザに対して行う、といった処理である。ただし、処理は、例えば、商取引、工学といった、金融以外の分野の情報処理でもよく、その種類は問わない。

格納部１１は、例えば、ハードディスクやフラッシュメモリといった不揮発性の記録媒体が好適であるが、ＲＡＭなど揮発性の記録媒体でも実現可能である。格納部１１に対情報等の情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部１１で記憶されるようになってもよく、ネットワークや通信回線等を介して送信された情報が格納部１１で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部１１で記憶されるようになってもよい。入力デバイスは、例えば、キーボード、マウス、タッチパネル、マイクロフォン等、何でもよい。なお、格納部１１に関する上記事項は、実施の形態２の格納部２１にも当てはまる。

処理部１２、入力文字列取得部１２１、音素列取得部１２２、第一文字列取得部１２３、補正部１２４、形態素情報取得手段１２２１、形態素情報処理手段１２２２、特定手段１２２３、および音素列取得手段１２２４は、通常、ＭＰＵやメモリ等から実現され得る。処理部１２等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。ただし、処理手順は、ハードウェア（専用回路）で実現してもよい。

なお、入力文字列取得部１２１の音声受付機能は、マイクロフォンによって実現される。入力文字列取得部１２１は、マイクロフォンを含むと考えても、含まないと考えてもよい。音声受付機能は、マイクロフォンのドライバーソフトによって、またはマイクロフォンとそのドライバーソフトとで実現され得る。

また、入力文字列取得部１２１の送信機能は、通常、無線または有線の通信手段（例えば、ＮＩＣ(Network interface controller)やモデム等の通信モジュール）で実現されるが、放送手段（例えば、放送モジュール）で実現されてもよい。出力部１３の送信機能も、同様に実現され得る。さらに、入力文字列取得部１２１の受信機能は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段（例えば、放送受信モジュール）で実現されてもよい。なお、こうした事項は、入力文字列取得部１２１以外の構成要素の送受信機能（例えば、出力部１３の送信機能）についても当てはまる。

なお、処理部１２、入力文字列取得部１２１等に関する上記事項は、実施の形態２の処理部２２、入力文字列取得部２２１等にも当てはまる。

出力部１３は、ディスプレイやスピーカ等の出力デバイスを含むと考えても含まないと考えてもよい。出力部１３は、出力デバイスのドライバーソフトによって、または出力デバイスとそのドライバーソフトとで実現され得る。なお、出力部１３に関する上記事項は、実施の形態２の出力部２３にも当てはまる。

次に、認識結果補正装置１の動作について、図２および図３のフローチャートを用いて説明する。図２は、本実施の形態における認識結果補正装置１の動作を説明するフローチャートである。

（ステップＳ２０１）入力文字列取得部１２１は、入力文字列の取得を行うか否かを判断する。入力文字列取得部１２１は、例えば、認識結果補正装置１を実現する端末の通信モジュールがサーバから入力文字列を受信した場合に、入力文字列の取得を行うと判断する。または、入力文字列取得部１２１は、かかる端末のマイクロフォンを介して発話音声が入力された場合に、入力文字列の取得を行うと判断してもよい。入力文字列の取得を行う場合はステップＳ２０２に進み、入力文字列の取得を行わない場合は、ステップＳ２０１に戻る。

（ステップＳ２０２）入力文字列取得部１２１は、入力文字列を取得する。入力文字列取得部１２１は、例えば、通信モジュールが受信した入力文字列を取得する。または、入力文字列取得部１２１は、入力された発話音声に対して音声認識処理を行い、入力文字列を取得してもよい。

（ステップＳ２０３）音素列取得部１２２は、ステップＳ２０２で取得された入力文字列の少なくとも一部に対応する第二音素列を取得する。音素列取得部１２２は、例えば、図３に示すような音素列取得処理を実行する。なお、音素列取得処理については後述する。

（ステップＳ２０４）第一文字列取得部１２３は、ステップＳ２０３で取得された第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を、格納部１１から取得する。なお、予め決められた条件については、前述したので説明を省略する。また、本実施の形態において、第一文字列取得部１２３は、例えば、図４に示すような第一文字列取得処理を実行してもよい。この第一文字列取得処理については後述する。

（ステップＳ２０５）補正部１２４は、ステップＳ２０２で取得された入力文字列の少なくとも一部を、ステップＳ２０４で取得された第一文字列に置き換える補正処理を行う。本実施の形態において補正部１２４が行う補正処理は、ステップＳ２０２で取得された入力文字列の、後述するステップＳ３０３で特定された１以上の名詞を、ステップＳ２０４で取得された１以上の第一文字列に置き換える処理である。

（ステップＳ２０６）出力部１３は、ステップＳ２０５で補正処理が施された後の入力文字列を出力する。出力部１３は、補正入力文字列を、例えば、ディスプレイに表示するが、外部の装置に送信したり、他のプログラムへ引渡したりしてもよい。その後、ステップＳ２０１に戻る。

なお、図２のフローチャートにおいて、認識結果補正装置１の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。

図３は、上記ステップＳ２０３の音素列取得処理を説明するフローチャートである。

（ステップＳ３０１）音素列取得部１２２を構成する形態素情報取得手段１２２１は、ステップＳ２０２で取得された入力文字列を形態素解析した結果に関する形態素情報を取得する。形態素情報取得手段１２２１は、かかる形態素情報を、例えば、サーバから入力文字列と対に受信してもよいし、または、取得された入力文字列に対して自ら形態素解析を行うことにより取得してもよい。

（ステップＳ３０２）形態素情報処理手段１２２２は、ステップＳ３０１で取得された形態素情報に対し、連続する２以上の名詞を結合して一の名詞とするべく形態素情報を変更する結合処理を施す。

（ステップＳ３０３）特定手段１２２３は、ステップＳ３０２で結合処理が施された後の形態素情報を用いて、ステップＳ２０２で取得された入力文字列に含まれる１以上の名詞を特定する。

（ステップＳ３０４）音素列取得手段１２２４は、変数ｉに初期値“１”をセットする。なお、変数ｉは、ステップＳ３０３で特定された１以上の名詞のうち、未選択の名詞を順番に選択していくための変数である。

（ステップＳ３０５）音素列取得手段１２２４は、ｉ番目の名詞があるか否かを判別する。例えば、ステップＳ３０３で特定された名詞の数をｍ個（ただし、ｍは１以上の整数）とすると、音素列取得手段１２２４は、ｉ≦ｍの場合に、ｉ番目の名詞があると判別し、ｍ＜ｉの場合には、ｉ番目の名詞がないと判別する。ｉ番目の名詞がある場合はステップＳ３０６に進み、ｉ番目の名詞がない場合は上位の処理にリターンする。

（ステップＳ３０６）音素列取得手段１２２４は、ｉ番目の名詞に対応する第二音素列を取得する。なお、音素列取得手段１２２４は、こうして取得した第二音素列を、変数ｉに対応付けて、例えば、ＭＰＵの内部メモリ等に保持する。

（ステップＳ３０７）音素列取得手段１２２４は、変数ｉをインクリメントする。その後、ステップＳ３０５に戻る。

図４は、上記ステップＳ２０４の第一列取得処理を説明するフローチャートである。

（ステップＳ４０１）第一文字列取得部１２３は、第一条件および第二条件を満たす第一音素列が存在するか否かを判断する。第一条件および第二条件を満たす第一音素列が存在する場合はステップＳ４０２に進み、第一条件および第二条件を満たす第一音素列が存在しない場合はステップＳ４０３に進む。

（ステップＳ４０２）第一文字列取得部１２３は、第一条件および第二条件を満たす第一音素列を取得する。その後、上位処理にリターンする。

（ステップＳ４０３）第一文字列取得部１２３は、第一条件および第三条件を満たす第一音素列が存在するか否かを判断する。第一条件および第三条件を満たす第一音素列が存在する場合はステップＳ４０４に進み、第一条件および第三条件を満たす第一音素列が存在しない場合はステップＳ４０５に進む。

（ステップＳ４０４）第一文字列取得部１２３は、第一条件および第三条件を満たす第一音素列を取得する。その後、上位処理にリターンする。

（ステップＳ４０５）第一文字列取得部１２３は、第二条件を満たす第一音素列が存在するか否かを判断する。第二条件を満たす第一音素列が存在する場合はステップステップＳ４０６に進み、第二条件を満たす第一音素列が存在しない場合はステップステップＳ４０７に進む。

（ステップＳ４０６）第一文字列取得部１２３は、第二条件を満たす第一音素列を取得する。その後、上位処理にリターンする。

（ステップＳ４０７）第一文字列取得部１２３は、第三条件を満たす第一音素列が存在するか否かを判断する。第三条件を満たす第一音素列が存在する場合はステップＳ４０８に進み、第三条件を満たす第一音素列が存在しない場合は上位処理にリターンする。

（ステップＳ４０８）第一文字列取得部１２３は、第三条件を満たす第一音素列を取得する。その後、上位処理にリターンする。

以下、本実施の形態における認識結果補正装置１の具体的な動作例について説明する。なお、以下の説明は、種々の変更が可能であり、本発明の範囲を何ら制限するものではない。

本例における認識結果補正装置１は、サーバと通信可能なスマートフォン等の携帯端末である。サーバは、自然言語処理を用いた音声認識や翻訳等のサービスを提供する企業のサーバである。

認識結果補正装置１の格納部１１には、例えば、図５に示すような２以上の対情報が格納される。図５は、本実施の形態における対情報のデータ構造図である。対情報は、第一音素列と第一文字列との対で構成される。第一音素列は、１以上の音素の配列で構成される。なお、図５では、各音素に、先頭から何番目の音素かを示す番号（１，２，３等）を付している。

第一文字列は、用語に対応する文字列である。格納される２以上の第一文字列の多くは、特に、例えば、金融分野の用語（例えば、「池田泉州銀行」や「収支」等）に対応する文字列であるが、汎用的な用語（例えば、「去年」や「今年」等）に対応する文字列が含まれていてもよい。

格納部１１の２以上の各対情報には、ＩＤ（例えば、“１”，“２”，“３”等）が対応付いている。例えば、ＩＤ“１”に対応する対情報（以下、対情報１と記す場合がある）は、第一音素列“ｉ，ｋ，ｅ，ｄ，ａ，ｓ，ｅ，ｎ，ｓｙ，ｕ，ｇ，ｉ，ｎ，ｋ，ｏ”と、第一文字列“池田泉州銀行”との対で構成される。また、ＩＤ“２”に対応する対情報（対情報２）は、第一音素列“ｋ，ａ，ｎ，ｓ，ａ，ｉ，ｇ，ｉ，ｎ，ｋ，ｏ”と、第一文字列“関西銀行”（「関西銀行」は登録商標：以下同様）との対で構成される。同様に、対情報３は、第一音素列“ｋｙ，ｏ，ｎ，ｅ，ｎ”と第一文字列“去年”との対で構成され、対情報４は、第一音素列“ｋ，ｏ，ｔ，ｏ，ｓ，ｉ”と第一文字列“今年”との対で構成され、対情報５は、第一音素列“ｓｙ，ｕ，ｓ，ｉ”と第一文字列“収支”との対で構成される。

また、格納部１１には、条件情報も格納されている。条件情報とは、予め決められた条件に関する情報である。条件情報は、第一〜第三条件を含む。なお、予め決められた条件、および第一〜第三条件等、前述した事項については、同じ説明を繰り返さない。

さらに、格納部１１には、例えば、アラビア数字と漢数字との対応表といった各種の情報や、他のプログラムなども格納されている。他のプログラムは、例えば、金融に関する情報を処理するアプリケーションプログラム（例えば、資産運用アプリ、インターネットバンキングのアプリなど）である。

ユーザは、認識結果補正装置１である携帯端末に向かって「池田泉州の収支を教えて」と発話したとする。この発話音声は、当該携帯端末のマイクロフォンを介して音声信号に変換され、音声信号は、当該携帯端末の通信モジュールを介して、サーバに送信される。

サーバは、認識結果補正装置１から送信された音声信号を受信して、音声認識等の処理を行い、入力文字列を取得する。本例では、発話とは異なる入力文字列“池田選手の５年の収支を教えて”が取得されたとする。サーバは、取得した入力文字列を、認識結果補正装置１に送信する。

上記入力文字列は、当該携帯端末の通信モジュールによって受信される。認識結果補正装置１において、入力文字列取得部１２１は、通信モジュールが受信した入力文字列を取得する。音素列取得部１２２は、取得された入力文字列の、１以上の名詞に対応する部分の第二音素列を取得する音素列取得処理を、以下のように実行する。

すなわち、音素列取得部１２２を構成する形態素情報取得手段１２２１は、取得された入力文字列「池田選手の５年の収支を教えて」に対し、アラビア数字「５」を漢数字「五」に変更した後、形態素解析を行い、形態素情報を取得する。取得された形態素情報は、第一〜第十の１０個の組情報を有する。

第一の組情報は、単語“池田”と品詞名“名詞”との組である。第二の組情報は、単語“泉州”と品詞名“名詞”との組である。第三の組情報は、単語“の”と品詞名“助詞”との組である。第四の組情報は、単語“五”と品詞名“名詞”との組である。第五の組情報は、単語“年”と品詞名“名詞”との組である。第六の組情報は、単語“の”と品詞名“助詞”との組である。第七の組情報は、単語“収支”と品詞名“名詞”との組である。第八の組情報は、単語“を”と品詞名“助詞”との組である。第九の組情報は、単語“教え”と品詞名“動詞”との組である。第十の組情報は、単語“て”と品詞名“助詞”との組である。

形態素情報処理手段１２２２は、取得された形態素情報に対し、以下のような結合処理を施す。すなわち、形態素情報処理手段１２２２は、上記１０個の組情報のうち、まず、第一および第二の組情報を用いて、連続する２つの名詞である単語“池田”および単語“選手”を結合し、一の名詞である単語“池田選手”を構成して、当該第一および第二の組情報を、一の単語“池田選手”と品詞名“名詞”との組である新たな第一の組情報に更新する。次に、形態素情報処理手段１２２２は、第四および第五の組情報を用いて、連続する２つの名詞である単語“五”および単語“年”を結合し、一の名詞である単語“五年”を構成して、当該第四および第五の組情報を、一の単語“池田選手”と品詞名“名詞”との組である新たな第三の組情報に更新する。

結合処理が施された後の形態素情報は、次のような第一〜第八の８個の組情報を有する。第一の組情報は、単語“池田選手”と品詞名“名詞”との組である。第二の組情報は、単語“の”と品詞名“助詞”との組である。第三の組情報は、単語“五年”と品詞名“名詞”との組である。第四の組情報は、単語“の”と品詞名“助詞”との組である。第五の組情報は、単語“収支”と品詞名“名詞”との組である。第六の組情報は、単語“を”と品詞名“助詞”との組である。第七の組情報は、単語“教え”と品詞名“動詞”との組である。第八の組情報は、単語“て”と品詞名“助詞”との組である。

特定手段１２２３は、結合処理後の形態素情報を用いて、入力文字列“池田選手の５年の収支を教えて”に含まれる３つの名詞“池田選手”，“五年”，および“収支”を特定する。

音素列取得手段１２２４は、かかる３つの名詞のうち、１番目の名詞“池田選手”に対応する第二音素列“ｉ，ｋ，ｅ，ｄ，ａ，ｓ，ｅ，ｎ，ｓｙ，ｕ”を取得し、２番目の名詞“五年”に対応する第二音素列“ｇ，ｏ，ｎ，ｅ，ｎ”を取得し、３番目の名詞“収支”に対応する第二音素列“ｓｙ，ｕ，ｓ，ｉ”を取得する。

第一文字列取得部１２３は、上記３つの名詞に関して取得された３つの第二音素列ごとに、当該第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を、格納部１１から取得する。

すなわち、１番目の名詞“池田選手”に関して取得された第二音素列“ｉ，ｋ，ｅ，ｄ，ａ，ｓ，ｅ，ｎ，ｓｙ，ｕ”に対しては、格納されている２以上の対情報（図５参照）のうち、対情報１を構成する第一音素列“ｉ，ｋ，ｅ，ｄ，ａ，ｓ，ｅ，ｎ，ｓｙ，ｕ，ｇ，ｉ，ｎ，ｋ，ｏ”だけが、第一および第二の２条件を満たし、他のどの対情報を構成する第二音素列も、第一および第二の２条件を満たさないため、第一文字列取得部１２３は、対情報１を用いて、第一音素列“ｉ，ｋ，ｅ，ｄ，ａ，ｓ，ｅ，ｎ，ｓｙ，ｕ，ｇ，ｉ，ｎ，ｋ，ｏ”に対応する第一文字列“池田泉州銀行”を取得する。

また、２番目の名詞“五年”に関して取得された第二音素列“ｇ，ｏ，ｎ，ｅ，ｎ”に対しては、格納されている２以上の対情報の中に、第一および第二の２条件を満たすものは存在せず、対情報３を構成する第一音素列“ｋｙ，ｏ，ｎ，ｅ，ｎ”だけが、第一および第三の２条件を満たすため、第一文字列取得部１２３は、対情報３を用いて、第一音素列“ｋｙ，ｏ，ｎ，ｅ，ｎ”に対応する第一文字列“去年”を取得する。

さらに、３番目の名詞“収支”に関して取得された第二音素列“ｓｙ，ｕ，ｓ，ｉ”に対しては、対情報５を構成する第一音素列“ｓｙ，ｕ，ｓ，ｉ”だけが、第一および第二の２条件を満たすため、第一文字列取得部１２３は、対情報５を用いて、第一音素列“ｓｙ，ｕ，ｓ，ｉ”に対応する第一文字列“収支”を取得する。

補正部１２４は、入力文字列“池田選手の五年の収支を教えて”の、特定された３つの名詞“池田選手”，“五年”および“収支”を、取得された３つの第一文字列“池田泉州銀行”，“去年”，および“収支”にそれぞれ置き換えることにより、補正後の入力文字列“池田泉州銀行の去年の収支を教えて”を取得する。

出力部１３は、補正後の入力文字列を出力する。補正後の入力文字列の出力先は、金融に関する情報を処理するアプリケーションプログラムである。処理部１２および出力部１３は、このアプリケーションプログラムの制御下で、例えば、以下のような処理を行う。

補正後の入力文字列“池田泉州銀行の去年の収支を教えて”がアプリケーションプログラムに引き渡されると、処理部１２は、当該入力文字列に含まれる“去年”を“平成２９年度”に変換する。そして、処理部１２は、例えば、外部のサーバに対し、“池田泉州銀行”，“平成２９年度”、および“収支”の３語をキーとする検索を行う。本例では、検索の結果、池田泉州銀行の平成２９年度の収支に関する情報“○○億円の利益”が取得されたとする。処理部１２は、こうして取得した情報を、補正後の入力文字列と共に、ディスプレイに出力する。

これによって、認識結果補正装置１である携帯端末のディスプレイには、例えば、図６に示すような画面が表示される。図６は、補正後の入力文字列等を含む画面の出力例を示す図である。この画面は、文字列“質問”と、この文字列に対応付いた入力欄と、この入力欄に表示された補正後の入力文字列“池田泉州銀行の去年の収支を教えて”と、この補正後の入力文字列が示す質問に対する回答を示す文字列“池田泉州銀行の去年の収支は○○億円の利益です”とを有する。

こうして、ユーザは、金融等の特定の分野の用語を含む質問を音声入力し、その質問への的確な回答を得ることができる。

なお、画面には、例えば、補正前の入力文字列“池田選手の五年の収支を教えて”がさらに表示されてもよい。それによって、ユーザは、自分の発話音声が、当初は誤変換されていたこと、および、発話通りに的確に補正されたことを確認できる。ただし、画面の構成は問わない。

以上、本実施の形態によれば、格納部１１に、１以上の文字の配列である第一文字列と、第一文字列に対応する１以上の音素の配列である第一音素列との対が、２対以上、格納されており、認識結果補正装置１は、入力された音声であり、一の文に対応する音声を音声認識した結果である入力文字列を取得し、入力文字列の少なくとも一部に対応する２以上の音素の配列である第二音素列を取得し、格納部１１から、第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得し、入力文字列の少なくとも一部を、取得した第一文字列に置き換える補正処理を行い、補正処理後の入力文字列を出力することにより、音声認識の結果を的確に補正できる。

また、第一文字列が、１以上の名詞の配列で構成された用語に対応する文字列であり、認識結果補正装置１は、入力文字列を形態素解析した結果であり、２以上の形態素の配列および２以上の各形態素の品詞を示す形態素情報を取得し、形態素情報に対し、連続する２以上の名詞を結合して一の名詞とする結合処理を施し、結合処理が施された形態素情報を用いて、入力文字列に含まれる１以上の名詞を特定し、特定した１以上の各名詞ごとに、名詞に対応する音素の配列である第二音素列を取得し、格納部１１から、取得した１以上の各第二音素列ごとに、第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得し、入力文字列の、特定手段が特定した１以上の名詞を、取得した１以上の第一文字列に置き換える補正処理を行うことにより、音声認識の結果を用語単位で簡単かつ的確に補正できる。

また、予め決められた条件が、第一音素列および第二音素列において対応する母音が全て一致するという第一条件を含むことにより、認識結果補正装置１は、母音が全て同じ用語（例えば、母音が全て同じで、かつ子音の一部が異なる「五年（gonen）」と「去年（kyonen）」等）に対して、的確な補正が行える。

また、予め決められた条件が、第一音素列および第二音素列において対応する子音が全て一致するという第二条件を含むことにより、認識結果補正装置１は、子音が全て同じ用語（例えば、子音が全て同じで、かつ母音の一部が異なる「権利（kenri）」と「金利（kinri）」等）に対して、的確な補正が行える。特に、予め決められた条件が第一条件および第二条件を含むことで、子音が全て同じで、かつ母音も全て同じ用語（例えば、「選手（sensyu）」と「泉州（sensyu）」）に対して、的確な補正が行える。

また、予め決められた条件が、第一音素列および第二音素列において対応する子音のうち予め決められた割合以上が一致するという第三条件を含むことにより、認識結果補正装置１は、子音の一部が同じで、かつ母音の一部が異なる用語（例えば、「権利（kenri）」と「金利（kinri）」等）に対して、的確な補正が行える。特に、予め決められた条件が第一条件および第三条件を含むことで、認識結果補正装置１は、子音の一部が同じで、かつ母音が全て同じ用語（例えば、「五年（gonen）」と「去年（kyonen）」に対しても、的確な補正が行える。

また、予め決められた条件が、第一音素列および第二音素列において対応する母音または子音の一致に関する２以上の条件を含み、認識結果補正装置１は、２以上の条件のうち第一音素列が満たす１以上の条件に応じた優先順序で、第一音素列に対応する第一文字列の取得を行うことにより、認識結果補正装置１は、音声認識の結果をより的確に補正できる。

また、予め決められた条件が、第一音素列および第二音素列において対応する母音が全て一致するという第一条件と、第一音素列および第二音素列において対応する子音が全て一致するという第二条件と、第一音素列および第二音素列において対応する子音のうち予め決められた割合以上が一致するという第三条件とを含むことにより、認識結果補正装置１は、音声認識の結果をより的確に補正できる。

また、認識結果補正装置１は、第一条件および第二条件を満たす第一音素列、第一条件および第三条件を満たす第一音素列、第二条件を満たす第一音素列、および第三条件を満たす第一音素列の優先順序で、第一音素列に対応する第一文字列の取得を行うことにより、音声認識の結果をより的確に補正できる。

さらに、本実施の形態における処理は、ソフトウェアで実現してもよい。そして、このソフトウェアをソフトウェアダウンロード等により配布してもよい。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して配布してもよい。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における認識結果補正装置１を実現するソフトウェアは、例えば、以下のようなプログラムである。

つまり、コンピュータがアクセス可能な記録媒体は、１以上の文字の配列である第一文字列と、当該第一文字列に対応する１以上の音素の配列である第一音素列との対が、２対以上、格納される格納部１１を具備し、このプログラムは、前記コンピュータを、入力された音声であり、一の文に対応する音声を音声認識した結果である入力文字列を取得する入力文字列取得部１２１と、前記入力文字列の少なくとも一部に対応する２以上の音素の配列である第二音素列を取得する音素列取得部１２２と、前記格納部１１から、前記第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得する第一文字列取得部１２３と、前記入力文字列の少なくとも一部を、前記第一文字列取得部１２３が取得した第一文字列に置き換える補正処理を行う補正部１２４と、前記補正処理後の入力文字列を出力する出力部１３として機能させるためのプログラムである。。

そして、前記第一文字列は、１以上の名詞の配列で構成された用語に対応する文字列であり、このプログラムは、前記コンピュータを、前記入力文字列を形態素解析した結果であり、２以上の形態素の配列および当該２以上の各形態素の品詞を示す形態素情報を取得する形態素情報取得手段１２２１と、前記形態素情報に対し、連続する２以上の名詞を結合して一の名詞とする結合処理を施す形態素情報処理手段１２２２と、前記結合処理が施された形態素情報を用いて、前記入力文字列に含まれる１以上の名詞を特定する特定手段１２２３と、前記特定手段が特定した１以上の各名詞ごとに、当該名詞に対応する音素の配列である第二音素列を取得する音素列取得手段１２２４としてさらに機能させ、前記第一文字列取得部１２３は、前記格納部１１から、前記音素列取得手段１２２４が取得した１以上の各第二音素列ごとに、当該第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得し、前記補正部１２４は、前記入力文字列の、前記特定手段１２２３が特定した１以上の名詞を、前記第一文字列取得部１２３が取得した１以上の第一文字列に置き換える補正処理を行う、プログラムである。

なお、このプログラムは、例えば、前述したアプリケーションプログラムの一部であってもよい。

（実施の形態２）
本実施の形態において、第一文字列は一の文に対応する文字列であり、１以上の第一音素列ごとに、第二音素列との類似度を算出し、第二音素列との類似度が、算出した２以上の類似度中で最も高く、かつ閾値以上であるという条件を満たす第一音素列に対応する第一文字列を取得し、入力文字列の全部を当該第一文字列に置き換える認識結果補正装置２について説明する。

図７は、本実施の形態における認識結果補正装置２のブロック図である。認識結果補正装置２は、格納部２１、処理部２２、および出力部２３を備える。処理部２２は、入力文字列取得部２２１、音素列取得部２２２、第一文字列取得部２２３、および補正部２２４を備える。第一文字列取得部２２３は、算出手段２２３１、および第一文字列取得手段２２３２を備える。

格納部２１には、第一文字列と、第一文字列に対応する第一音素列との対（対情報）が、２対以上、格納される。なお、実施の形態１における第一文字列は、通常、用語に対応する文字列であったが、本実施の形態における第一文字列は、一の文に対応する文字列である。文の構成、第一文字列を構成する文字の種類、第一音素列を構成する音素の種類等は、実施の形態１と同様である。格納部２１に格納される１または２以上の対情報の集合もまた、コーパスの一種と考えてもよく、これを「特定文コーパス」と呼ぶ場合がある。特定文コーパスとは、特定の分野の文のコーパスである。

なお、本実施の形態における第一音素列は、例えば、後述する第一ベクトルであるが、実施の形態１における第一音素列と同様、読み仮名のローマ字表記であってもよい。

処理部２２を構成する入力文字列取得部２２１は、入力文字列を取得する。本実施の形態における入力文字列は、一の文の全部に対応する文字列である。なお、入力文字列の取得方法は、実施の形態１と同様である。

音素列取得部２２２は、入力文字列取得部２２１が取得した入力文字列の全部に対応する第二音素列を取得する。音素列取得部２２２は、例えば、格納部２１の辞書を用いて、一の文の全部の読み仮名を取得し、取得した読み仮名をローマ字に変換することにより、かかる第二音素列を取得する。

なお、音素列取得部２２２は、例えば、取得した第二音素列を用いて、後述する第二ベクトルを取得するが、第二ベクトルの取得は行われなくてもよい。

第一文字列取得部２２３は、音素列取得部２２２が取得した第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を、格納部２１から取得する。

詳しくは、第一文字列取得部２２３を構成する算出手段２２３１は、格納部２１に格納されている２以上の第一音素列ごとに、当該第一音素列と、音素列取得部２２２が取得した第二音素列との類似度を算出し、類似度情報を取得する。類似度とは、第一音素列と第二音素列との間の類似性の度合いを示す情報である。類似度は、例えば、コサイン類似度である。

コサイン類似度とは、ベクトル空間モデルを用いて、２つの文の間の類似度を計算する手法である。ベクトル空間モデルとは、文を構成する２以上の要素（例えば、語や音素等）を変数とする多次元の空間を定義し、文の特徴を当該空間内のベクトルの方向や大きさで表現するモデルである、といってもよい。

ベクトル空間モデルでは、例えば、各種の母音および各種の子音といった、Ｎ個（ただし、Ｎは２以上の整数）の音素を軸とするＮ次元のベクトル空間が定義され、一の文を構成する音素列は、Ｎ次元ベクトル空間におけるベクトルとして表現される。

前述した第一ベクトルおよび第二ベクトルは、かかるＮ次元のベクトル空間におけるベクトルである。第一音素列と第二音素列との類似度は、例えば、第一ベクトルと第二ベクトルとのなす角度の余弦として算出される。こうして算出される類似度が、コサイン類似度である。

詳しくは、ベクトルは、例えば、（ａ，ｉ，ｕ，ｅ，ｏ，ｋ，ｓ，ｔ，ｎ，ｈ，・・・）のような、Ｎ個の変数の組として表現される。ベクトルを構成するＮ個の各音素“ａ”，“ｉ”，“ｕ”等の値は、例えば、一の文において当該音素が出現する回数を示す。

なお、上記のベクトルにおいては、前述した前方一致に対応して、先頭に５種類の母音が配置され、その後方に（Ｎ−５）個の子音が配置されることで、母音に対して重み付けがなされている。ただし、５個の母音の順序は、適宜変更され得る。また、（Ｎ−５）個の子音の順序も、適宜変更され得る。さらに、例えば、一部の子音が、母音よりも前方に配列されてもよいし、母音か子音かを問わず、特定の音素に対して重み付けがされていてもよい。特定の音素に対する重み付けは、例えば、ベクトルを構成するＮ個の音素の配列を決める際に、当該音素を前方に配置することにより実現される。

コサイン類似度は、例えば、第一音素列に対応する第一ベクトルと、第二音素列に対応する第二ベクトルとのなす角度の余弦である。余弦は、例えば、第一ベクトルと第二ベクトルとの内積を、第一ベクトルの大きさと第二ベクトルの大きさとの積で除算することにより取得される。コサイン類似度が“１”に近いほど、第一音素列と第二音素列との間の類似性は高く、コサイン類似度が“０”に近いほど、第一音素列と第二音素列との間の類似性は低い。

類似度情報とは、第一音素列と第二音素列との類似度に関する情報である。類似度情報は、例えば、第一音素列識別子と、コサイン類似度とを有する。第一音素列識別子とは、第一音素列を識別する情報である。第一音素列識別子は、例えば、“１”，“２”，“３”等のＩＤであるが、第一音素列を識別し得る情報であれば何でもよい。ただし、類似度情報は、例えば、コサイン類似度以外の類似度を有していてもよいし、第一音素列識別子を有していなくてもよく、そのデータ構造は問わない。

算出手段２２３１は、例えば、格納部２１に格納されている２以上の第一音素列ごとに、当該第一音素列に対応する第一ベクトルを取得し、音素列取得部２２２が取得した第二音素列に対応する第二ベクトルとのコサイン類似度を算出し、類似度情報を取得する。

第一文字列取得手段２２３２は、格納部２１から、音素列取得部２２２が取得した第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得する。予め決められた条件は、算出手段２２３１が算出した２以上の類似度の中で最も高く、かつ閾値以上である又は閾値より高い、という条件である。

第一文字列取得手段２２３２は、例えば、算出手段２２３１が取得した２以上の類似度情報を用いて、算出された２以上の類似度の中で最も高く、かつ閾値以上である又は閾値より高い、という条件を満たす第一音素列に対応する第一文字列を、格納部２１から取得する。

補正部２２４は、入力文字列取得部２２１が取得した入力文字列の全部を、第一文字列取得手段２２３２が取得した第一文字列に置き換える補正処理を行う。

出力部２３は、補正部２２４が補正処理を施した後の入力文字列を出力する。

次に、認識結果補正装置２の動作について、図２および図８のフローチャートを用いて説明する。

認識結果補正装置２の基本的な動作は、図２のフローチャートを用いて説明したものと同様である。本実施の形態におけるステップＳ２０１〜Ｓ２０６は、以下のようになる。

（ステップＳ２０１）入力文字列取得部２２１は、入力文字列の取得を行うか否かを判断する。判断の方法は、実施の形態１と同様である。入力文字列の取得を行う場合はステップＳ２０２に進み、入力文字列の取得を行わない場合は、ステップＳ２０１に戻る。

（ステップＳ２０２）入力文字列取得部２２１は、入力文字列を取得する。取得される入力文字列は、一の文に対応する文字列である。入力文字列の取得方法は、実施の形態１と同様である。

（ステップＳ２０３）音素列取得部２２２は、ステップＳ２０２で取得された入力文字列の全部に対応する第二音素列を取得する。

（ステップＳ２０４）第一文字列取得部２２３は、ステップＳ２０３で取得された第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を、格納部２１から取得する。本実施の形態では、入力文字列取得部２２１を構成する算出手段２２３１および第一文字列取得手段２２３２が、例えば、図８に示すような第一文字列取得処理を実行する。なお、この第一文字列取得処理については後述する。

（ステップＳ２０５）補正部２２４は、ステップＳ２０２で取得された入力文字列の全部を、ステップＳ２０４で取得された第一文字列に置き換える補正処理を行う。

（ステップＳ２０６）出力部２３は、ステップＳ２０５で補正処理が施された後の入力文字列を出力する。出力の態様は、実施の形態１と同様である。その後、ステップＳ２０１に戻る。

図８は、本実施の形態における第一文字列取得処理を説明するフローチャートである。なお、このフローチャートにおいて、第一音素列は、これに対応する第一ベクトルでもよい。また、第二音素列は、これに対応する第二ベクトルでもよい。さらに、類似度は、第一ベクトルと第二ベクトルとのコサイン類似度でもよい。

（ステップＳ８０１）第一文字列取得部２２３を構成する算出手段２２３１は、変数ｊに初期値“１”をセットする。なお、変数ｊは、格納部２１に格納されている２以上の第一音素列のうち、未選択の第一音素列を順番に選択していくための変数である。

（ステップＳ８０２）算出手段２２３１は、ｊ番目の第一音素列があるか否かを判別する。例えば、格納されている第一音素列の数をｎ個（ただし、ｎは２以上の整数）とすると、算出手段２２３１は、ｊ≦ｎの場合に、ｊ番目の第一音素列があると判別し、ｎ＜ｊの場合には、ｊ番目の第一音素列がないと判別する。ｊ番目の第一音素列がある場合はステップＳ８０３に進み、ｊ番目の第一音素列がない場合はステップＳ８０５に進む。

（ステップＳ８０３）算出手段２２３１は、ｊ番目の第一音素列と、ステップＳ２０２で取得された第二音素列との類似度を算出する。算出手段２２３１は、算出した類似度に関する類似度情報を取得し、ＭＰＵの内部メモリ等に保持する。

（ステップＳ８０４）は、変数ｊをインクリメントする。その後、ステップＳ８０２に戻る。

（ステップＳ８０５）第一文字列取得手段２２３２は、例えば、ＭＰＵの内部メモリ等に保持されている２以上の類似度情報を用いて、ステップＳ８０３で算出された２以上の類似度の中で最も高く、かつ閾値以上である又は閾値より高い、という条件を満たす第一音素列に対応する第一文字列を、格納部２１から取得する。その後、上位の処理にリターンする。

以下、本実施の形態における認識結果補正装置２の具体的な動作例について説明する。なお、以下の説明は、種々の変更が可能であり、本発明の範囲を何ら制限するものではない。

本例における認識結果補正装置２は、スタンドアロンの端末である。この端末は、自然言語処理を用いた音声認識を行う機能を有する。

認識結果補正装置２の格納部２１には、例えば、図９に示すような２以上の対情報が格納される。図９は、本実施の形態における対情報のデータ構造図である。対情報は、第一音素列に対応する第一ベクトルと、第一文字列との対で構成される。第一音素列に対応する第一ベクトルは、前述したようなＮ次元のベクトル（ａ，ｉ，ｕ，ｅ，ｏ，ｋ，ｓ，ｔ，ｎ，ｈ，・・・）である。

第一文字列は、一の文に対応する文字列である。格納される２以上の第一文字列の多くは、特に、例えば、金融分野の文（例えば、「池田泉州銀行の去年の収支を教えて」や「関西銀行の前期の収支を教えて」といった、金融分野での使用が想定される文）に対応する文字列であるが、汎用的な文に対応する文字列が含まれていてもよい。

格納部２１の２以上の各対情報には、ＩＤ（例えば、“１”，“２”等）が対応付いている。例えば、ＩＤ“１”に対応する対情報（対情報１）は、第一音素列に対応する第一ベクトル（１，４，２，２，６，１，３，１，４，０，・・・）と、第一文字列“池田泉州銀行の去年の収支を教えて”との対で構成される。同様に、対情報２は、第一音素列に対応する第一ベクトル（２，４，１，３，７，３，３，２，３，０，・・・）と、第一文字列“関西銀行の前期の収支を教えて”との対で構成される。

また、格納部２１には、例えば、音声認識を行うためのプログラムや、金融に関する情報を処理するアプリケーションプログラムといった、他のプログラムも格納されている。

ユーザは、認識結果補正装置２である端末に向かって「池田泉州の収支を教えて」と発話したとする。この発話音声は、当該端末のマイクロフォンを介して音声信号に変換される。

認識結果補正装置２において、入力文字列取得部２２１は、上記音声信号に対して音声認識処理を行い、入力文字列を取得する。本例では、発話とは異なる入力文字列“池田選手の五年の収支を教えて”が取得されたとする。さらに、音素列取得部２２２は、取得された入力文字列の全部に対応する第二音素列“ｉ，ｋ，ｅ，ｄ，ａ，ｓ，ｅ，ｎ，ｓｙ，ｕ，ｎ，ｏ，ｇ，ｏ，ｎ，ｅ，ｎ，ｎ，ｏ，ｓｙ，ｕ，ｓ，ｉ，ｗ，ｏ，ｏ，ｓ，ｉ，ｅ，ｔ，ｅ”を取得する。さらに、音素列取得部２２２は、かかる第二音素列に対応する第二ベクトル（１，３，２，５，５，１，３，１，５，０，・・・）を取得する。

第一文字列取得部２２３は、こうして取得された第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を、格納部２１から取得する。詳しくは、第一文字列取得部２２３を構成する算出手段２２３１は、まず、対情報１を構成する第一ベクトル（１，４，２，２，６，１，３，１，４，０，・・・）と、取得された第二ベクトル（１，３，２，５，５，１，３，１，５，０，・・・）とのコサイン類似度を算出する。ここでは、コサイン類似度０．６が算出されたとする。

次に、算出手段２２３１は、対情報２を構成する第一ベクトル（２，４，１，３，７，３，３，２，３，０，・・・）と、取得された第二ベクトル（１，３，２，５，５，１，３，１，５，０，・・・）とのコサイン類似度を算出する。ここでは、コサイン類似度０．４が算出されたとする。

第一文字列取得手段２２３２は、算出された２つのコサイン類似度の中で最も高く、かつ閾値０．５以上である又は閾値０．５より高い、という条件を満たす第一ベクトル（１，４，２，２，６，１，３，１，４，０，・・・）に対応する第一文字列“池田泉州銀行の去年の収支を教えて”を、格納部２１から取得する。

補正部２２４は、取得された入力文字列“池田選手の五年の収支を教えて”の全部を、取得された第一文字列“池田泉州銀行の去年の収支を教えて”に置き換える補正処理を行う。出力部２３は、補正処理が施された後の入力文字列“池田泉州銀行の去年の収支を教えて”を、アプリケーションプログラムに引き渡す。

これによって、認識結果補正装置２である端末のディスプレイには、図６と同様の画面が表示される。

以上、本実施の形態によれば、格納部２１に、１以上の文字の配列である第一文字列と、第一文字列に対応する１以上の音素の配列である第一音素列との対が、２対以上、格納されており、認識結果補正装置２は、入力された音声であり、一の文に対応する音声を音声認識した結果である入力文字列を取得し、入力文字列の少なくとも一部に対応する２以上の音素の配列である第二音素列を取得し、格納部２１から、第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得し、入力文字列の少なくとも一部を、取得した第一文字列に置き換える補正処理を行い、補正処理後の入力文字列を出力することにより、音声認識の結果を的確に補正できる。

また、第一文字列が、一の文に対応する文字列であり、認識結果補正装置２は、入力文字列の全部に対応する２以上の音素の配列である第二音素列を取得し、格納部２１に格納されている２以上の第一音素列ごとに、第一音素列と第二音素列との類似度を算出し、第二音素列との類似度が、算出した２以上の類似度の中で最も高く、かつ閾値以上である又は閾値より高いという条件満たす第一文字列を取得し、補正部２２４は、入力文字列の全部を、第一文字列取得手段が取得した第一文字列に置き換える補正処理を行うことにより、音声認識の結果を文単位で簡単かつ的確に補正できる。

なお、本実施の形態では、一の文に対応する音素列に関して類似度を算出しているが、類似度は、例えば、用語に対応する音素列に関して算出されてもよく、類似度の算出対象となる音素列の属性や長さは問わない。

さらに、本実施の形態における処理は、ソフトウェアで実現してもよい。そして、このソフトウェアをソフトウェアダウンロード等により配布してもよい。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して配布してもよい。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における認識結果補正装置２を実現するソフトウェアは、以下のようなプログラムである。

つまり、コンピュータがアクセス可能な記録媒体は、１以上の文字の配列である第一文字列と、当該第一文字列に対応する１以上の音素の配列である第一音素列との対が、２対以上、格納される格納部２１を具備し、このプログラムは、前記コンピュータを、入力された音声であり、一の文に対応する音声を音声認識した結果である入力文字列を取得する入力文字列取得部２２１と、前記入力文字列の少なくとも一部に対応する２以上の音素の配列である第二音素列を取得する音素列取得部２２２と、前記格納部２１から、前記第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得する第一文字列取得部２２３と、前記入力文字列の少なくとも一部を、前記第一文字列取得部２２３が取得した第一文字列に置き換える補正処理を行う補正部２２４と、前記補正処理後の入力文字列を出力する出力部２３として機能させるためのプログラムである。

そして、前記第一文字列は、文に対応する文字列であり、前記音素列取得部２２２は、前記入力文字列の全部に対応する２以上の音素の配列である第二音素列を取得し、このプログラムは、前記コンピュータを、前記格納部２１に格納されている２以上の第一音素列ごとに、当該第一音素列と前記第二音素列との類似度を算出する算出手段２２３１と、前記第二音素列との類似度が、前記算出手段２２３１が算出した２以上の類似度の中で最も高く、かつ閾値以上である又は閾値より高いという条件を満たす第一文字列を取得する第一文字列取得手段２２３２としてさらに機能させ、前記補正部２２４は、前記入力文字列の全部を、前記第一文字列取得手段２２３２が取得した第一文字列に置き換える補正処理を行う、プログラムである。

図１０は、各実施の形態におけるプログラムを実行して、認識結果補正装置１または認識結果補正装置２を実現するコンピュータシステム９００の内部構成の一例を示す図である。図１０において、コンピュータシステム９００は、プログラムを実行するコンピュータであるＭＰＵ９１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ９１２と、ＭＰＵ９１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ９１３と、アプリケーションプログラム、システムプログラム、およびデータを記憶するストレージ９１４と、ＭＰＵ９１１、ＲＯＭ９１２等を相互に接続するバス９１５と、外部ネットワークや内部ネットワーク等のネットワークへの接続を提供するネットワークカード９１６と、メモリカードスロット９１７と、ディスプレイ９１８と、ディスプレイ９１８の表示面に設けられたタッチパネル９１９と、マイクロフォン９２１とを備える。ストレージ９１４は、例えば、フラッシュメモリである。なお、コンピュータシステム９００全体をコンピュータと呼んでもよい。

コンピュータシステム９００に、認識結果補正装置１等の機能を実行させるプログラムは、例えば、メモリカード９２０に記憶されて、メモリカードスロット９１７に挿入され、ストレージ９１４に転送されてもよい。これに代えて、そのプログラムは、ネットワークを介してコンピュータシステム９００に送信され、ストレージ９１４に記憶されてもよい。プログラムは、実行の際にＲＡＭ９１３にロードされる。なお、プログラムは、メモリカード９２０、またはネットワークから直接、ロードされてもよい。

プログラムは、コンピュータシステム９００に、認識結果補正装置１等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能やモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム９００がどのように動作するのかについては周知であり、詳細な説明は省略する。

なお、上述したコンピュータシステム９００は、携帯端末であるが、認識結果補正装置１等は、例えば、据え置き型のＰＣまたはサーバで実現されてもよい。この場合、例えば、タッチパネル９１９はキーボードおよびマウスに、メモリカードスロット９１７はディスクドライブに、ストレージ９１４はハードディスクやＳＳＤに、メモリカード９２０はＣＤやＤＶＤ等のディスクに、それぞれ置き換えられてもよい。ただし、以上は例示であり、認識結果補正装置１等を実現するコンピュータのハードウェア構成は問わない。

なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理（ハードウェアでしか行われない処理）は含まれない。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる認識結果補正装置は、音声認識の結果を、例えば、一の分野に特有の用語や文に、的確に補正できるという効果を有し、認識結果補正装置等として有用である。

１、２認識結果補正装置
１１、２１格納部
１２、２２処理部
１３、２３出力部
１２１、２２１入力文字列取得部
１２２、２２２音素列取得部
１２３、２２３第一文字列取得部
１２４、２２４補正部
１２２１形態素情報取得手段
１２２２形態素情報処理手段
１２２３特定手段
１２２４音素列取得手段
２２３１算出手段
２２３２第一文字列取得手段

Claims

１以上の文字の配列である第一文字列と、当該第一文字列に対応する１以上の音素の配列である第一音素列との対が、２対以上、格納される格納部と、
入力された音声であり、一の文に対応する音声を音声認識した結果である入力文字列を取得する入力文字列取得部と、
前記入力文字列の少なくとも一部に対応する２以上の音素の配列である第二音素列を取得する音素列取得部と、
前記格納部から、前記第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得する第一文字列取得部と、
前記入力文字列の少なくとも一部を、前記第一文字列取得部が取得した第一文字列に置き換える補正処理を行う補正部と、
前記補正処理後の入力文字列を出力する出力部とを具備し、
前記予め決められた条件は、第一音素列および第二音素列において対応する母音が全て一致するという第一条件を含むこと
を特徴とする認識結果補正装置。
前記第一文字列は、１以上の名詞の配列で構成された用語に対応する文字列であり、
前記音素列取得部は、
前記入力文字列を形態素解析した結果であり、２以上の形態素の配列および当該２以上の各形態素の品詞を示す形態素情報を取得する形態素情報取得手段と、
前記形態素情報を用いて、前記入力文字列に含まれる１以上の名詞を特定する特定手段と、
前記特定手段が特定した１以上の各名詞ごとに、当該名詞に対応する音素の配列である第二音素列を取得する音素列取得手段とを具備し、
前記第一文字列取得部は、
前記格納部から、前記音素列取得手段が取得した１以上の各第二音素列ごとに、当該第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得し、
前記補正部は、
前記入力文字列の、前記特定手段が特定した１以上の名詞を、前記第一文字列取得部が取得した１以上の第一文字列に置き換える補正処理を行う請求項１記載の認識結果補正装置。
前記音素列取得部は、
前記形態素情報に対し、連続する２以上の名詞を結合して一の名詞とする結合処理を施す形態素情報処理手段をさらに具備し、
前記特定手段は、
前記結合処理が施された形態素情報を用いて、前記入力文字列に含まれる１以上の名詞を特定する請求項２記載の認識結果補正装置。
前記予め決められた条件は、第一音素列および第二音素列において対応する子音が全て一致するという第二条件を含む請求項１から請求項３いずれか一項に記載の認識結果補正装置。
前記予め決められた条件は、第一音素列および第二音素列において対応する子音のうち予め決められた割合以上が一致するという第三条件を含む請求項１から請求項３いずれか一項に記載の認識結果補正装置。
１以上の文字の配列である第一文字列と、当該第一文字列に対応する１以上の音素の配列である第一音素列との対が、２対以上、格納される格納部、入力文字列取得部、音素列取得部、第一文字列取得部、補正部、および出力部によって実現される認識結果補正方法であって、
入力文字列取得部が、入力された音声であり、一の文に対応する音声を音声認識した結果である入力文字列を取得する入力文字列取得ステップと、
音素列取得部が、前記入力文字列の少なくとも一部に対応する２以上の音素の配列である第二音素列を取得する音素列取得ステップと、
第一文字列取得部が、前記格納部から、前記第二音素列と第一音素列および第二音素列において対応する母音が全て一致するという第一条件を含む予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得する第一文字列取得ステップと、
補正部が、前記入力文字列の少なくとも一部を、前記第一文字列取得部が取得した第一文字列に置き換える補正処理を行う補正ステップと、
前記出力部が、前記補正処理後の入力文字列を出力する出力ステップとを含む認識結果補正方法。
コンピュータがアクセス可能な記録媒体は、
１以上の文字の配列である第一文字列と、当該第一文字列に対応する１以上の音素の配列である第一音素列との対が、２対以上、格納される格納部を具備し、
前記コンピュータを、
入力された音声であり、一の文に対応する音声を音声認識した結果である入力文字列を取得する入力文字列取得部と、
前記入力文字列の少なくとも一部に対応する２以上の音素の配列である第二音素列を取得する音素列取得部と、
前記格納部から、前記第二音素列と第一音素列および第二音素列において対応する母音が全て一致するという第一条件を含む予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得する第一文字列取得部と、
前記入力文字列の少なくとも一部を、前記第一文字列取得部が取得した第一文字列に置き換える補正処理を行う補正部と、
前記補正処理後の入力文字列を出力する出力部として機能させるためのプログラム。
１以上の文字の配列である第一文字列と、当該第一文字列に対応する１以上の音素の配列である第一音素列との対が、２対以上、格納される格納部と、
入力された音声であり、一の文に対応する音声を音声認識した結果である入力文字列を取得する入力文字列取得部と、
前記入力文字列の少なくとも一部に対応する２以上の音素の配列である第二音素列を取得する音素列取得部と、
前記格納部から、前記第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得する第一文字列取得部と、
前記入力文字列の少なくとも一部を、前記第一文字列取得部が取得した第一文字列に置き換える補正処理を行う補正部と、
前記補正処理後の入力文字列を出力する出力部とを具備し、
前記予め決められた条件は、第一音素列および第二音素列において対応する子音が全て一致するという第二条件を含むこと
を特徴とする認識結果補正装置。
前記第一文字列は、１以上の名詞の配列で構成された用語に対応する文字列であり、
前記音素列取得部は、
前記入力文字列を形態素解析した結果であり、２以上の形態素の配列および当該２以上の各形態素の品詞を示す形態素情報を取得する形態素情報取得手段と、
前記形態素情報を用いて、前記入力文字列に含まれる１以上の名詞を特定する特定手段と、
前記特定手段が特定した１以上の各名詞ごとに、当該名詞に対応する音素の配列である第二音素列を取得する音素列取得手段とを具備し、
前記第一文字列取得部は、
前記格納部から、前記音素列取得手段が取得した１以上の各第二音素列ごとに、当該第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得し、
前記補正部は、
前記入力文字列の、前記特定手段が特定した１以上の名詞を、前記第一文字列取得部が取得した１以上の第一文字列に置き換える補正処理を行う請求項８記載の認識結果補正装置。
前記音素列取得部は、
前記形態素情報に対し、連続する２以上の名詞を結合して一の名詞とする結合処理を施す形態素情報処理手段をさらに具備し、
前記特定手段は、
前記結合処理が施された形態素情報を用いて、前記入力文字列に含まれる１以上の名詞を特定する請求項９記載の認識結果補正装置。
１以上の文字の配列である第一文字列と、当該第一文字列に対応する１以上の音素の配列である第一音素列との対が、２対以上、格納される格納部、入力文字列取得部、音素列取得部、第一文字列取得部、補正部、および出力部によって実現される認識結果補正方法であって、
入力文字列取得部が、入力された音声であり、一の文に対応する音声を音声認識した結果である入力文字列を取得する入力文字列取得ステップと、
音素列取得部が、前記入力文字列の少なくとも一部に対応する２以上の音素の配列である第二音素列を取得する音素列取得ステップと、
第一文字列取得部が、前記格納部から、前記第二音素列と第一音素列および第二音素列において対応する子音が全て一致するという第二条件を含む予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得する第一文字列取得ステップと、
補正部が、前記入力文字列の少なくとも一部を、前記第一文字列取得部が取得した第一文字列に置き換える補正処理を行う補正ステップと、
前記出力部が、前記補正処理後の入力文字列を出力する出力ステップとを含む認識結果補正方法。
コンピュータがアクセス可能な記録媒体は、
１以上の文字の配列である第一文字列と、当該第一文字列に対応する１以上の音素の配列である第一音素列との対が、２対以上、格納される格納部を具備し、
前記コンピュータを、
入力された音声であり、一の文に対応する音声を音声認識した結果である入力文字列を取得する入力文字列取得部と、
前記入力文字列の少なくとも一部に対応する２以上の音素の配列である第二音素列を取得する音素列取得部と、
前記格納部から、前記第二音素列と第一音素列および第二音素列において対応する子音が全て一致するという第二条件を含む予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得する第一文字列取得部と、
前記入力文字列の少なくとも一部を、前記第一文字列取得部が取得した第一文字列に置き換える補正処理を行う補正部と、
前記補正処理後の入力文字列を出力する出力部として機能させるためのプログラム。
１以上の文字の配列である第一文字列と、当該第一文字列に対応する１以上の音素の配列である第一音素列との対が、２対以上、格納される格納部と、
入力された音声であり、一の文に対応する音声を音声認識した結果である入力文字列を取得する入力文字列取得部と、
前記入力文字列の少なくとも一部に対応する２以上の音素の配列である第二音素列を取得する音素列取得部と、
前記格納部から、前記第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得する第一文字列取得部と、
前記入力文字列の少なくとも一部を、前記第一文字列取得部が取得した第一文字列に置き換える補正処理を行う補正部と、
前記補正処理後の入力文字列を出力する出力部とを具備し、
前記予め決められた条件は、第一音素列および第二音素列において対応する母音または子音の一致に関する２以上の条件を含み、
前記第一文字列取得部は、前記２以上の条件のうち第一音素列が満たす１以上の条件に応じた優先順序で、第一音素列に対応する第一文字列の取得を行うこと
を特徴とする認識結果補正装置。
前記第一文字列は、１以上の名詞の配列で構成された用語に対応する文字列であり、
前記音素列取得部は、
前記入力文字列を形態素解析した結果であり、２以上の形態素の配列および当該２以上の各形態素の品詞を示す形態素情報を取得する形態素情報取得手段と、
前記形態素情報を用いて、前記入力文字列に含まれる１以上の名詞を特定する特定手段と、
前記特定手段が特定した１以上の各名詞ごとに、当該名詞に対応する音素の配列である第二音素列を取得する音素列取得手段とを具備し、
前記第一文字列取得部は、
前記格納部から、前記音素列取得手段が取得した１以上の各第二音素列ごとに、当該第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列を取得し、
前記補正部は、
前記入力文字列の、前記特定手段が特定した１以上の名詞を、前記第一文字列取得部が取得した１以上の第一文字列に置き換える補正処理を行う請求項１３記載の認識結果補正装置。
前記音素列取得部は、
前記形態素情報に対し、連続する２以上の名詞を結合して一の名詞とする結合処理を施す形態素情報処理手段をさらに具備し、
前記特定手段は、
前記結合処理が施された形態素情報を用いて、前記入力文字列に含まれる１以上の名詞を特定する請求項１４記載の認識結果補正装置。
前記予め決められた条件は、
第一音素列および第二音素列において対応する母音が全て一致するという第一条件と、
第一音素列および第二音素列において対応する子音が全て一致するという第二条件と、
第一音素列および第二音素列において対応する子音のうち予め決められた割合以上が一致するという第三条件とを含む請求項１３記載の認識結果補正装置。
前記第一文字列取得部は、
前記第一条件および前記第二条件を満たす第一音素列、前記第一条件および前記第三条件を満たす第一音素列、前記第二条件を満たす第一音素列、および前記第三条件を満たす第一音素列の優先順序で、第一音素列に対応する第一文字列の取得を行う請求項１６記載の認識結果補正装置。
１以上の文字の配列である第一文字列と、当該第一文字列に対応する１以上の音素の配列である第一音素列との対が、２対以上、格納される格納部、入力文字列取得部、音素列取得部、第一文字列取得部、補正部、および出力部によって実現される認識結果補正方法であって、
入力文字列取得部が、入力された音声であり、一の文に対応する音声を音声認識した結果である入力文字列を取得する入力文字列取得ステップと、
音素列取得部が、前記入力文字列の少なくとも一部に対応する２以上の音素の配列である第二音素列を取得する音素列取得ステップと、
第一文字列取得部が、前記格納部から、前記第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列の取得を行う第一文字列取得ステップと、
補正部が、前記入力文字列の少なくとも一部を、前記第一文字列取得部が取得した第一文字列に置き換える補正処理を行う補正ステップと、
前記出力部が、前記補正処理後の入力文字列を出力する出力ステップとを含む認識結果補正方法であって、
前記予め決められた条件は、第一音素列および第二音素列において対応する母音または子音の一致に関する２以上の条件を含み、
前記第一文字列取得ステップは、前記２以上の条件のうち第一音素列が満たす１以上の条件に応じた優先順位で、第一音素列に対応する第一文字列の取得を行うこと
を特徴とする認識結果補正方法。
コンピュータがアクセス可能な記録媒体は、
１以上の文字の配列である第一文字列と、当該第一文字列に対応する１以上の音素の配列である第一音素列との対が、２対以上、格納される格納部を具備し、
前記コンピュータを、
入力された音声であり、一の文に対応する音声を音声認識した結果である入力文字列を取得する入力文字列取得部と、
前記入力文字列の少なくとも一部に対応する２以上の音素の配列である第二音素列を取得する音素列取得部と、
前記格納部から、前記第二音素列と予め決められた条件を満たすほど類似する第一音素列に対応する第一文字列の取得を行う第一文字列取得部と、
前記入力文字列の少なくとも一部を、前記第一文字列取得部が取得した第一文字列に置き換える補正処理を行う補正部と、
前記補正処理後の入力文字列を出力する出力部として機能させるためのプログラムであって、
前記予め決められた条件は、第一音素列および第二音素列において対応する母音または子音の一致に関する２以上の条件を含み、
前記第一文字列取得部は、前記２以上の条件のうち第一音素列が満たす１以上の条件に応じた優先順位で、第一音素列に対応する第一文字列の取得を行うこと
を特徴とするプログラム。