JP5842591B2

JP5842591B2 - テキスト編集装置、テキスト編集方法およびテキスト編集プログラム

Info

Publication number: JP5842591B2
Application number: JP2011276434A
Authority: JP
Inventors: 昌剛角谷; 友樹長瀬; 富士　秀; 秀富士
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-12-16
Filing date: 2011-12-16
Publication date: 2016-01-13
Anticipated expiration: 2031-12-16
Also published as: JP2013127677A

Description

本発明は、テキスト編集装置等に関する。

近年、利用者は各種の入力装置を利用して、端末装置にテキスト情報を入力している。例えば、利用者は、キーボード等でテキスト情報を入力する場合もあれば、音声認識装置を利用して、音声をテキスト情報に変換し、端末装置にテキスト情報を入力する場合もある。特に、音声認識装置を利用すると、キーボードの操作が苦手な利用者であっても、容易にテキスト情報を端末装置に入力することが可能となる。

ここで、装置に入力されるテキスト情報には、入力誤りが存する場合があり、かかるテキストの入力誤りを訂正する各種の従来技術が存在する。例えば、入力装置から利用者が入力したテキストを逐次解析し、文法上の誤り等を検出して、利用者に通知する技術が存在する。また、入力されたテキスト情報に対して形態素解析などを実行し、解析結果を基にして、もっともらしい訂正結果を出力する技術が存在する。

特開２０１１−６５３８４号公報特開平５−２３３６１９号公報

しかしながら、上述した従来技術では、テキスト情報の入力誤りを訂正しづらいという問題があった。

例えば、音声認識装置を利用すると、ある程度まとまった文字数のテキスト情報が端末装置に一度に入力される。一般的に、入力される文字数が多くなることで、訂正されない入力誤りの発生確率が高くなる。このため、従来技術では対処できない入力誤りがテキスト情報に残ってしまう。また、入力誤りが連鎖して、まとまった単位で入力誤りが発生することも多く、利用者は、苦手であっても、キーボード等を用いてテキスト情報を修正することとなる。

例えば、利用者が「私の弟は早くさやかと会うために午前中会社を休んだ」と話した場合、テキスト情報は、図２１に示すものとなる。図２１は、入力誤りの一例を示す図である。図２１のテキスト情報１０の各文字１１が、誤り箇所である。利用者は、誤り箇所を選択して、キーボードなどによる修正を行う。

開示の技術は、上記に鑑みてなされたものであって、テキスト情報の訂正を容易にすることができるテキスト編集装置、テキスト編集方法およびテキスト編集プログラムを提供することを目的とする。

開示のテキスト編集装置は、検出部と、生成部と、計算部と、出力部とを有する。検出部は、テキスト情報に含まれる助詞または助詞相当の文字を検出する。生成部は、テキスト情報について、検出部が検出した助詞または助詞相当の各文字をそれぞれ助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けした複数のテンプレートを生成する。計算部は、複数のテンプレートの文字列において、助詞または助詞相当とみなした文字を除いた部分に含まれる名詞句の割合に基づいて、複数のテンプレートの優先度を計算する。出力部は、各テンプレートの優先度に基づいて、複数のテンプレートを助詞または助詞相当の文字で区切って出力する。

開示のテキスト編集装置によれば、テキスト情報の訂正を容易にすることができるという効果を奏する。

図１は、本実施例に係るテキスト編集装置の構成を示す図である。図２は、テキスト情報のデータ構造の一例を示す図である。図３は、助詞マッチングテーブルのデータ構造の一例を示す図である。図４は、テンプレート候補格納テーブルのデータ構造の一例を示す図である。図５は、代表動詞テーブルのデータ構造の一例を示す図である。図６は、検出部の処理を説明するための図である。図７は、計算部の処理を説明するための図（１）である。図８は、構文解析の一例を示す図である。図９は、計算部の処理を説明するための図（２）である。図１０は、計算部の処理を説明するための図（３）である。図１１は、計算部の処理を説明するための図（４）である。図１２は、計算部の処理を説明するための図である。図１３は、スコアを登録したテンプレート候補格納テーブルの一例を示す図である。図１４は、表示部の表示例を示す図である。図１５は、スコアの低いテンプレートの一例を示す図である。図１６は、本実施例に係るテキスト編集装置の処理手順を示すフローチャートである。図１７は、助詞マッチングテーブルを生成する処理手順を示すフローチャートである。図１８は、妥当性を判定する処理手順を示すフローチャートである。図１９は、スコアを計算する処理手順を示すフローチャートである。図２０は、テキスト編集プログラムを実行するコンピュータの一例を示す図である。図２１は、入力誤りの一例を示す図である。

以下に、本願の開示するテキスト編集装置、テキスト編集方法およびテキスト編集プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

図１は、本実施例に係るテキスト編集装置の構成を示す図である。図１に示すように、テキスト編集装置１００は、音声認識部１１０、入力部１２０、表示部１３０、通信部１３５、記憶部１４０、制御部１５０を有する。

音声認識部１１０は、マイク１１０ａに接続される。音声認識部１１０は、マイク１１０ａから音声情報を受け付け、この音声情報を文字として認識し、テキスト情報に変換する装置である。音声認識部１１０が、音声情報をテキスト情報に変換する処理は、従来の音声認識技術を用いればよい。音声認識部１１０は、テキスト情報を、制御部１５０に出力する。

入力部１２０は、各種の情報をテキスト編集装置１００に入力する入力装置である。入力部１２０は、例えば、キーボードやマウス、タッチパネル等に対応する。表示部１３０は、テキスト編集装置１００の処理結果を表示する表示装置である。例えば、表示部１３０は、ディスプレイやタッチパネルに対応する。

通信部１３５は、外部装置と通信を行う処理部である。例えば、通信部１３５は、ネットワークを介して、サーバとデータ通信を行う。通信部１３５は、外部装置等からネットワークを介してテキスト情報を取得しても良い。

記憶部１４０は、テキスト情報１４１、助詞マッチングテーブル１４２、テンプレート候補格納テーブル１４３、代表動詞テーブル１４４を記憶する。記憶部１４０は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子、またはハードディスク、光ディスクなどの記憶装置に対応する。

テキスト情報１４１は、音声認識部１１０から取得するテキスト情報に対応する。例えば、テキスト情報１４１に含まれる文字列を、図２に示すものとする。図２は、テキスト情報のデータ構造の一例を示す図である。図２に示すように、テキスト情報１４１には、文字列「私なお父とは早くさやかと追うために５センチ外車を生んだ。」を含む。

助詞マッチングテーブル１４２は、テキスト情報１４１と、このテキスト情報１４１に含まれる助詞とを対応付けるテーブルである。図３は、助詞マッチングテーブルのデータ構造の一例を示す図である。

図３に示すように、助詞マッチングテーブル１４１は、助詞ＩＤ（Identification）、助詞を有する。また、助詞マッチングテーブル１４１の１行目には、テキスト情報１４１が文字毎に格納される。例えば、テキスト情報の「は」が助詞である場合には、助詞ＩＤ「１」、助詞「は」を含む行と、テキスト情報の「は」を含む列とが交差する領域（１、６）に印が格納される。助詞マッチングテーブル１４１に、印を入れる処理は、後述する。

テンプレート候補格納テーブル１４３は、テキスト情報１４１から生成される複数のテンプレート候補を有する。図４は、テンプレート候補格納テーブルのデータ構造の一例を示す図である。図４に示すように、テンプレート候補格納テーブル１４３は、候補ＩＤ、テンプレート候補、妥当性、スコアを対応付ける。このうち、妥当性は、該当するテンプレート候補が妥当であるか否かを示す情報である。スコアは、各テンプレート候補に対して付与され、スコアが高いテンプレート候補ほど、優先度が高いテンプレートとなる。

代表動詞テーブル１４４は、助詞と動詞との組みを有する。図５は、代表動詞テーブルのデータ構造の一例を示す図である。図５において、「：」の前が助詞に対応し、「：」の後が動詞に対応する。例えば、図５の１行目では、助詞「と」と、動詞「歩く」との組みが登録されている。

制御部１５０は、受付部１５１、検出部１５２、生成部１５３、計算部１５４、出力部１５５を有する。制御部１５０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）や、ＦＰＧＡ（Field Programmable Gate Array）などの集積装置に対応する。また、制御部１２０は、例えば、ＣＰＵやＭＰＵ（Micro Processing Unit）等の電子回路に対応する。

受付部１５１は、音声認識部１１０からテキスト情報を受け付け、受け付けたテキスト情報１４１を、記憶部１４０に記憶させる。

検出部１５２は、テキスト情報１４１に含まれる助詞または助詞相当の文字を検出する処理部である。具体的に、検出部１５２の処理について説明する。まず、検出部１５２は、助詞マッチングテーブル１４２の「テキスト情報」に、テキスト情報１４１の文字列を格納する。

検出部１５２は、助詞ＩＤ「１」の助詞から順に、テキスト情報の文字列に対応する助詞が存在するか否かを判定する。検出部１５２は、対応する助詞が存在する場合には、助詞マッチングテーブル１４２の該当する領域に、印を格納する。

図６は、検出部の処理を説明するための図である。図６において、検出部１５２は、助詞ＩＤ「１」の助詞「は」が、テキスト情報に含まれるか否かを判定する。テキスト情報の６文字目に、「は」が存在する。このため、検出部１５２は、助詞ＩＤ「１」、助詞「は」を含む行と、テキスト情報の「は」を含む列とが交差する領域（１、６）に印を格納する。

検出部１５２は、助詞ＩＤ「２」の助詞「が」が、テキスト情報に含まれるか否かを判定する。テキスト情報に「が」は含まれないので、検出部１５２は次の助詞に移行する。

検出部１５２は、助詞ＩＤ「３」の助詞「を」が、テキスト情報に含まれるか否かを判定する。テキスト情報の２４文字目に「を」が存在する。このため、検出部１５２は、助詞ＩＤ「３」、助詞「を」を含む行と、テキスト情報の「を」を含む列とが交差する領域（３、１４）に印を格納する。

検出部１５２は、助詞ＩＤ「４」の助詞「に」が、テキスト情報に含まれるか否かを判定する。テキスト情報の１７文字目に「に」が存在する。このため、検出部１５２は、助詞ＩＤ「４」、助詞「に」を含む行と、テキスト情報の「に」を含む列とが交差する領域（４、１７）に印を格納する。

検出部１５２は、助詞ＩＤ「５」の助詞「で」が、テキスト情報に含まれるか否かを判定する。テキスト情報に「で」は含まれないので、検出部１５２は次の助詞に移行する。

検出部１５２は、助詞ＩＤ「６」の助詞「や」が、テキスト情報に含まれるか否かを判定する。テキスト情報の１０文字目に「や」が存在する。このため、検出部１５２は、助詞ＩＤ「６」、助詞「や」を含む行と、テキスト情報の「や」を含む列とが交差する領域（６、１０）に印を格納する。

検出部１５２は、助詞ＩＤ「７」の助詞「へ」が、テキスト情報に含まれるか否かを判定する。テキスト情報に「へ」は含まれないので、検出部１５２は次の助詞に移行する。

検出部１５２は、助詞ＩＤ「８」の助詞「と」が、テキスト情報に含まれるか否かを判定する。テキスト情報の５文字目および１２文字目に「と」が存在する。このため、検出部１５２は、助詞ＩＤ「８」、助詞「と」を含む行と、テキスト情報の５文字目の「と」を含む列との交差する領域（８、５）に印を格納する。また、検出部１５２は、助詞ＩＤ「８」、助詞「と」を含む行と、テキスト情報の１２文字目の「と」を含む列との交差する領域（８、１２）に印を格納する。

上記の処理を実行することで検出部１５２は、助詞を検出する。なお、図６の例では、助詞を検出する場合について説明したが、同様に助詞相当の文字を検出することも可能である。ここで、助詞および助詞相当の文字とは、格助詞、並立助詞、終助詞、間投助詞、副助詞、係助詞、接続助詞、準体助詞の他、例えば、「における」「のための」等の助詞と同様の役割をする句表現も含む。

生成部１５３は、検出部１５２が検出した助詞または助詞相当の各文字をそれぞれ助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けした複数のテンプレート候補を生成する処理部である。助詞または助詞相当の文字毎に、助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けするため、テキスト情報にｎ個の助詞または助詞相当の文字が含まれている場合には、２^ｎ個のテンプレート候補が生成される。

本実施例では一例として、生成部１５３は、助詞または助詞相当とみなす文字に囲まれる文字を、括弧で囲みテンプレート候補を生成する。なお、助詞または助詞相当とみなす文字に囲まれる文字が存在しない場合には、空を括弧で囲む。例えば、テキスト情報が「私なお父とは早くさやかと追うために５センチ外車を生んだ。」とし、５文字目「と」、６文字目「は」、１０文字目「や」、１２文字目「と」、１７文字目「に」、２４文字目「を」を助詞または助詞相当とみなす。そうすると、生成されるテンプレート候補は「（私なお父）と（）は（早くさ）や（か）と（追うため）に（５センチ外車）を（生んだ。）」となる。以下の説明において、括弧で囲まれた文字を適宜、可変部と表記する。

生成部１５３は、助詞または助詞相当の各文字をそれぞれ助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けした全てのパターンのテンプレートを生成し、テンプレート候補格納テーブル１４３に格納する。生成部１５３は、テンプレート候補をテンプレート候補格納テーブル１４３に格納する場合に、一意にテンプレート候補を識別する候補ＩＤと対応付ける。テンプレート候補格納テーブル１４３に候補ＩＤとテンプレート候補が格納された段階では、妥当性、スコアには、何も登録されない。

計算部１５４は、各テンプレート候補の優先度を示すスコアを計算する処理部である。計算部１５４は、計算部および除外部に対応するものである。以下において、計算部１５４の処理を具体的に説明する。計算部１５４は、妥当性を判定する処理、名詞句および動詞句を検出する処理、スコアを算出する処理を順に実行する。

計算部１５４が妥当性を判定する処理について説明する。計算部１５４は、テンプレート候補格納テーブル１４３を基にして、各テンプレート候補について、妥当性が「ＯＫ」であるか妥当性が「ＮＧ」であるかを判定する。

図７は、計算部の処理を説明するための図（１）である。計算部１５４は、テンプレート格納テーブル１４３について、可変部に文字が含まれていないテンプレート候補の妥当性を「ＮＧ」にし、可変部に文字を含むテンプレート候補の妥当性を「ＯＫ」にする。図７に示す例では、候補ＩＤ「１」、「５」のテンプレート候補に、文字か含まれない可変部を含む。このため、計算部１５４は、候補ＩＤ「１」、「５」の妥当性を「ＮＧ」に設定する。妥当性が「ＮＧ」となるテンプレート候補は、助詞または助詞相当とみなした文字が、明らかに、助詞または助詞相当ではないことを示す。助詞または助詞相当の文字が連続して文字列に含まれることは無いためである。

計算部１５４が、名詞句および動詞句を検出する処理について説明する。計算部１５４は、可変部を構文解析し、名詞句であるか否かを判定する。計算部１５４は、可変部が名詞句ではない場合には、可変部に、該可変部の直後の助詞または助詞相当の文字と、代表動詞テーブルの動詞とを付加した文字列が、動詞句か否かを判定する。以下の説明において、可変部に、該可変部の直後の助詞または助詞相当の文字と、代表動詞テーブルの動詞とを付加した文字列を適宜、付加可変部と表記する。

計算部１５４は、テンプレート格納テーブル１４３について、妥当性が「ＯＫ」となるテンプレート候補に含まれる各可変部について上記処理を実行する。計算部１５４は、各可変部について、可変部が名詞句となる場合、または、付加可変部が動詞句となる場合には、カウント値ｓに１を加算する。カウント値ｓの初期値を０とする。

計算部１５４が実行する構文解析は、従来の構文解析と同様である。計算部１５４は、可変部に対して、形態素解析を実行し、形態素解析により得られる品詞の列の組み合わせた構文木が、所定のパターンのものか否かを基にして、可変部が名詞句であるかを判定する。同様に、計算部１５４は、付加可変部に対して構文解析を実行し、動詞句であるか否かを判定する。例えば、構文解析は従来文献「長尾真、牧野武則編集、コンピュータで翻訳する、共立出版、ＩＳＢＮ４−３２０−０２７２１−３」に記載されている。

図８は、構文解析の一例を示す図である。図８に示すように「妹が昨日買った本を私が呼んだ。」を構文解析すると、構文木２０が生成される。構文木２０には、品詞２１〜２６が含まれ、各品詞が対応付けられている。

図９は、計算部の処理を説明するための図（２）である。図９では一例として、候補ＩＤ「６」のテンプレート候補に対して処理を実行する場合について説明する。

図９のステップＳ１０について説明する。計算部１５４は、可変部「私なお父さん」に対して構文解析を実行し、名詞句か否かを判定する。可変部「私なお父さん」は名詞句ではない。

計算部１５４は、可変部「私なお父さん」に、直後の助詞「は」を付加する。また、計算部１５４は、助詞「は」に対応する動詞を、代表動詞テーブル１４４から検出すると「考える」となる。計算部１５４は、可変部「私なお父さん」に助詞「は」と、動詞「考える」を付加した付加可変部「私なお父さんは考える」を生成する。計算部１５４は、付加可変部「私なお父さんは考える」に対して構文解析を実行し、動詞句か否かを判定する。付加可変部「私なお父さんは考える」は動詞句ではない。

図９のステップＳ１１について説明する。計算部１５４は、可変部「早くさやか」に対して構文解析を実行し、名詞句か否かを判定する。可変部「早くさやか」は名詞句ではない。

計算部１５４は、可変部「早くさやか」に、直後の助詞「と」を付加する。また、計算部１５４は、助詞「と」を付加する。また、計算部１５４は、助詞「と」に対応する動詞を、代表動詞テーブル１４４から検出すると「歩く」となる。計算部１５４は、可変部「早くさやか」に、助詞「と」、動詞「歩く」を付加した付加可変部「早くさやかと歩く」を生成する。

計算部１５４は、付加可変部「早くさやかと歩く」に対して構文解析を実行する。図１０は、計算部の処理を説明するための図（３）である。図１０に示すように、構文解析を実行すると、副詞「早く」と名詞「さやか」が、動詞「歩く」に対応付けられる。このような構文木のパターンは、動詞句といえる。

図９のステップＳ１２について説明する。計算部１５４は、可変部「追うため」に対して構文解析を実行し、名詞句か否かを判定する。可変部「追うため」は名詞句ではない。

計算部１５４は、可変部「追うため」に、直後の助詞「に」を付加する。また、計算部１５４は、助詞「に」に対応する動詞を、代表動詞テーブル１４４から検出すると「行く」となる。計算部１５４は、可変部「追うため」に、助詞「に」と、動詞「行く」とを付加した付加可変部「追うために行く」を生成する。

計算部１５４は、付加可変部「追うために行く」に対して構文解析を実行する。図１１は、計算部の処理を説明するための図（４）である。図１１に示すように、構文解析を実行すると、動詞「追う」と名詞「ため」とが対応付けられ、名詞「ため」と動詞「行く」とが対応付けられる。このような構文木のパターンは、動詞句といえる。

図９のステップＳ１３について説明する。計算部１５４は、可変部「５センチ外車」に対して構文解析を実行し、名詞句か否かを判定する。図１２は、計算部の処理を説明するための図である。図１２に示すように、構文解析を実行すると、名詞「５センチ」と名詞「外車」と連続したものとなる。このような構文木のパターンは、名詞句といえる。可変部が名詞句であったため、かかる可変部について、計算部１５４は、動詞句の判定処理を行わない。

図９のステップＳ１４について説明する。計算部１５４は、可変部「生んだ。」に対して構文解析を実行し、名詞句か否かを判定する。可変部「生んだ。」は名詞句ではない。

計算部１５４は、可変部「生んだ。」の直後を参照すると、助詞は存在しない。このため、計算部１５４は、付加可変部の生成を行わず、動詞句の判定処理を行わない。

図９のステップＳ１５について説明する。計算部１５４は、テキスト情報の各可変部の内、可変部「５センチ外車」が名詞句であり、可変部「追うため」および「早くさやか」に対応する付加可変部が、動詞句であると判定する。

計算部１５４が、スコアを算出する処理について説明する。計算部１４５は、テンプレート候補の可変部の数のうち、名詞句と判定された可変部の数と動詞句と判定された付加可変部の数との割合をスコアとして算出する。例えば、計算部１５４は、式（１）によりスコアを算出する。

スコア＝（名詞句と判定された可変部の数＋動詞句と判定された付加可変部の数）／（テンプレート候補の可変部の数）・・・（１）

図９に示した候補ＩＤ「６」のテンプレート候補を例に、計算部１５４が算出するスコアについて説明する。図９のテンプレート候補に含まれる可変部の数は「５」である。名詞句と判定された可変部の数は「１」である。動詞句と判定された付加可変部の数は「２」である。このため、計算部１５４は、スコアを算出し、算出結果が「０．６０」となる。計算部１５４は、テンプレート候補格納テーブル１４３について、候補ＩＤ「６」に対応するスコアに「０．６０」を登録する。

計算部１５４、妥当性「ＯＫ」となる他のテンプレート候補についても、上述した名詞句および動詞句を検出する処理、および、スコアを算出する処理を実行する。計算部１５４は、各テンプレート候補に対応するスコアを、テンプレート候補格納テーブル１４３に登録する。

図１３は、スコアを登録したテンプレート候補格納テーブルの一例を示す図である。図１３において、下線部１Ａの文字列は、該当する付加可変部が動詞句と判定されたものである。下線部１Ｂの文字列は、該当する可変部が名詞句と判定されたものである。

出力部１５５は、テンプレート候補格納テーブル１４３を参照し、テンプレート候補を助詞または助詞相当の文字で区切って、可変部毎に表示部１３０に出力する処理部である。出力部１５５は、テンプレート候補を、スコアの大きいものから順に、テンプレート候補を表示部１３０に表示させても良いし、スコアが一番大きいものから、ｎ番目に大きいものまでのテンプレートを出力しても良い。

図１４は、表示部の表示例を示す図である。図１４に示すように、出力部１５５は、表示部１３０に、テンプレート０〜４を表示する。例えば、出力部１５５は、ボタン２Ａが押下される度に、テンプレートを切り替えて出力しても良い。なお、出力部１５５は、その他のテンプレートを表示部１３０に表示させてもよい。

例えば、可変部に分解する前のテキスト情報を含む。テンプレート１は、候補ＩＤ「６」のテンプレート候補に対応する。テンプレート２は、候補ＩＤ「８」のテンプレート候補に対応する。テンプレート３、４に関する説明は省略する。各テンプレート１〜４は、可変部毎に区切ってテキスト情報の文字列を表示する。なお、出力部１５５は、名詞句に対応する可変部を強調表示させてもよい。また、出力部１５５は、動詞句と判定した付加可変部に対応する可変部を強調表示させても良い。

例えば、図１４の表示部１３０を参照した利用者は、入力部１２０を操作して、より適切なテンプレートを選択した後に、修正対象となる可変部を選択し、選択した可変部を修正する。または、利用者は、可変部を指定して、再度音声認識により、該当部分の可変部にテキスト情報を入力しても良い。

例えば、利用者は、入力部１２０を操作して、テンプレート１の可変部「私なお父と」を選択し、入力部１２０を操作して正しい文章「私の弟」を入力する。または、利用者は、入力部１２０を操作して、テンプレート１の可変部「私なお父と」を選択し、マイク１１０ａから、音声により「私の弟」を入力する。

ここで、図１４との比較のために、スコアの低いテンプレートを示す。図１５は、スコアの低いテンプレートの一例を示す図である。図１５に示すように、何れのテンプレートも、各可変部が適切ではない。このため、図１４のテンプレートと比較して、修正量が多くなってしまう。

次に、本実施例に係るテキスト編集装置１００の処理手順について説明する。図１６は、本実施例に係るテキスト編集装置の処理手順を示すフローチャートである。例えば、図１６に示す処理は、音声認識部１１０からテキスト情報を受け付けたことを契機にして実行される。

図１６に示すように、テキスト編集装置１００は、音声認識部１１０からテキスト情報を受け付ける（ステップＳ１０１）。テキスト編集装置１００は、助詞マッチングテーブルを生成する（ステップＳ１０２）。

テキスト編集装置１００は、テンプレート候補格納テーブル１４３にテンプレート候補を格納する（ステップＳ１０３）。テキスト編集装置１００は、妥当性を判定する（ステップＳ１０４）。

テキスト編集装置１００は、スコアを算出する（ステップＳ１０５）。テキスト編集装置１００は、スコアの大きいテンプレート候補を出力する（ステップＳ１０６）。

次に、テキスト編集装置１００が、助詞マッチングテーブル１４２を作成する処理について説明する。かかる処理は、図１６のステップ１０２の処理に対応する。図１７は、助詞マッチングテーブルを生成する処理手順を示すフローチャートである。

図１７に示すように、テキスト編集装置１００の検出部１５２は、ｉに１を設定し（ステップＳ１１１）、最後まで到達し、助詞は存在しない場合には（ステップＳ１１２，Ｙｅｓ）、処理を終了する。

一方、検出部１５２は、最後まで到達しておらず、助詞が存在する場合には（ステップＳ１１２，Ｎｏ）、ＩＤ＝ｉの助詞を選択する（ステップＳ１１３）。検出部１５２は、テキスト情報中の各文字について助詞と一致する位置にマークを記入する（ステップＳ１１４）。

検出部１５２は、ｉの値に１を加算した値により、ｉを更新し（ステップＳ１１５）、ステップＳ１１２に移行する。

次に、テキスト編集装置１００が、妥当性を判定する処理手順について説明する。かかる処理は、図１６のステップＳ１０４の処理に対応する。図１８は、妥当性を判定する処理手順を示すフローチャートである。

図１８に示すように、テキスト編集装置１００の計算部１５４は、ｉに０を設定し（ステップＳ１２１）、ｉの値に１を加算した値により、ｉを更新する（ステップＳ１２２）。

計算部１５４は、最後まで到達したためｉ番目の可変部が存在しない場合には（ステップＳ１２３，Ｙｅｓ）、妥当性をＯＫに設定する（ステップＳ１２４）。

一方、計算部１５４は、最後まで到達しておらずｉ番目の可変部が存在する場合には（ステップＳ１２３，Ｎｏ）、ｉ番目の可変部を選択する（ステップＳ１２５）。計算部１５４は、可変部内の内容がある場合には（ステップＳ１２６，Ｎｏ）、ステップＳ１２２に移行する。

一方、計算部１５４は、可変部内の内容が無しの場合には（ステップＳ１２６，Ｙｅｓ）、妥当性をＮＧに設定する（ステップＳ１２７）。

次に、テキスト編集装置１００が、スコアを計算する処理手順について説明する。かかる処理は、図１６のステップＳ１０５の処理に対応する。図１９は、スコアを計算する処理手順を示すフローチャートである。

図１９に示すように、テキスト編集装置１００の計算部１５４は、ｓ及びｉに０を設定し（ステップＳ１３１）、ｉの値に１を加算した値により、ｉを更新する（ステップＳ１３２）。

テキスト編集装置１００は、最後まで到達したためｉ番目の可変部が存在しない場合には（ステップＳ１３３、Ｙｅｓ）、スコアを算出し、テンプレート候補格納テーブル１４３に登録する（ステップＳ１３４）。ステップＳ１３４において、計算部１５４は、ｓ／ｉによって、スコアを算出する。

一方、計算部１５４は、最後まで到達しておらずｉ番目の可変部が存在する場合には（ステップＳ１３３，Ｎｏ）、ｉ番目の可変部を選択し、可変部を構文解析する（ステップＳ１３５）。

計算部１５４は、可変部が名詞句である場合には（ステップＳ１３６，Ｙｅｓ）、ｓの値に１を加算した値により、ｓを更新し（ステップＳ１３７）、ステップＳ１３２に移行する。

一方、計算部１５４は、可変部が名詞句でない場合には（ステップＳ１３６，Ｎｏ）、可変部に助詞と代表動詞とを加え、構文解析する（ステップＳ１３８）。計算部１５４は、付加可変部が動詞句の場合には（ステップＳ１３９，Ｙｅｓ）、ステップＳ１３７に移行する。これに対して、計算部１５４は、付加可変部が動詞句ではない場合には（ステップＳ１３９，Ｎｏ）、ステップＳ１３２に移行する。

次に、本実施例に係るテキスト編集装置１００の効果について説明する。テキスト編集装置１００は、テキスト情報１４１から助詞または助詞相当の文字を検出し、検出した助詞または助詞相当の文字を、助詞または助詞相当とみなすか否かにより場合分けした複数のテンプレート候補を生成する。テキスト編集装置１００は、助詞または助詞相当とみなした文字を除いた可変部に含まれる名詞句の割合に基づいて、テンプレート候補のスコアを計算する。テキスト編集装置１００は、各テンプレートのスコアに基づいて、複数のテンプレートを助詞または助詞相当の文字で区切って可変部単位で出力する。このため、各可変部の文字列が適切なものとなる可能性が高まると共に、訂正箇所が、可変部に絞られ、テキスト修正を容易にすることができる。

また、テキスト編集装置１００は、可変部が名詞句ではない場合には、可変部に、該可変部の直後の助詞または助詞相当の文字と、代表動詞テーブルの動詞とを付加した文字列が、動詞句か否かを判定し、スコアに反映させる。このため、より的確に文章らしいテンプレート候補のスコアを大きくすることができ、結果として、テキスト修正を容易にすることができる。

また、テキスト編集装置１００は、テンプレート候補のうち、可変部の内容が存在しないテンプレート候補を除外して、スコアを計算する。このため、処理負荷を軽減し、テキスト情報のテンプレートを表示するまでの処理を効率化することができる。

なお、図１４の説明では、音声による入力と、入力部１２０による入力により、可変部を修正する場合について説明したがこれに限定されるものではない。例えば、テキスト編集装置１００は、音声認識部１１０の音声認識結果を所定の文字数毎に保持しておき、修正対象となる可変部が選択された場合に、変換候補の文字を表示し、利用者に最適な文字を選択させても良い。

ところで、実施例では、テキスト編集装置１００が、音声認識、テキスト情報の編集を行ったが、各処理を複数の装置に分散し、各装置が連携して、処理を行っても良い。以下では、サーバ連携型１〜３について説明する。

サーバ連携型１について説明する。サーバ連携型１では、単一のサーバと端末装置とが連携して処理を実行する。図１において、サーバに音声認識部１１０の機能を持たせ、その他の機能を端末装置に持たせる。端末装置は、利用者の音声情報を、サーバに送信し、サーバは音声認識を行って、テキスト情報に変換する。端末装置は、サーバからテキスト情報を取得し、テキスト編集装置１００と同様にして、テンプレート候補を生成し、スコアに応じて、テンプレートを表示する。

サーバ連携型２について説明する。サーバ連携２では、単一のサーバと端末装置とが連携して処理を実行する。図１において、受付部１５１、検出部１５２、生成部１５３、計算部１５４の機能を、サーバに持たせ、その他の機能を端末装置に持たせる。端末装置は、利用者の音声情報をテキスト情報に変換して、サーバに送信する。サーバは、端末装置からテキスト情報を取得し、テキスト編集装置１００と同様にして、テンプレート候補を生成し、スコアを算出する。サーバは、テンプレート候補とスコアとを対応付けた情報を端末装置に送信する。端末装置は、スコアに応じて、テンプレートを表示する。

サーバ連携型３について説明する。サーバ連携３では、２つのサーバ１、サーバ２と、端末装置とが連携して処理を実行する。図１において、サーバ１に音声認識部１１０の機能を持たせる。サーバ２に、受付部１５１、検出部１５２、生成部１５３、計算部１５４の機能を持たせる。端末装置は、利用者の音声情報を、サーバ１に送信し、サーバ１は音声認識を行って、テキスト情報に変換する。サーバ１は、テキスト情報を、サーバ２に送信する。

サーバ２は、端末装置からテキスト情報を取得し、テキスト編集装置１００と同様にして、テンプレート候補を生成し、スコアを算出する。サーバ２は、テンプレート候補とスコアとを対応付けた情報を端末装置に送信する。端末装置は、スコアに応じて、テンプレートを表示する。

上記のように、各処理を複数の装置に分散し、各装置が連携して処理を行うことで、処理負荷を軽減させることができる。

次に、各実施例に示したテキスト編集装置１００と同様の機能を実現するテキスト編集プログラムを実行するコンピュータの一例を説明する。図２０は、テキスト編集プログラムを実行するコンピュータの一例を示す図である。

図２０に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、ユーザからのデータの入力を受け付ける入力装置２０２と、ディスプレイ２０３を有する。また、コンピュータ２００は、記憶媒体からプログラム等を読取る読み取り装置２０４と、ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置２０５とを有する。また、コンピュータ２００は、音声情報からテキスト情報を生成する音声認識装置２０６、マイク２０７を有する。また、コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０８と、ハードディスク装置２０９を有する。そして、各装置２０１〜２０９は、バス２１０に接続される。

ハードディスク装置２０９は、例えば、受付プログラム２０９ａ、検出プログラム２０９ｂ、生成プログラム２０９ｃ、計算プログラム２０９ｄ、出力プログラム２０９ｅを有する。ＣＰＵ２０１は、各プログラム２０９ａ〜２０９ｅを読み出して、ＲＡＭ２０８に展開する。

受付プログラム２０９ａは、受付プロセス２０８ａとして機能する。検出プログラム２０９ｂは、検出プロセス２０８ｂとして機能する。生成プログラム２０９ｃは、生成プロセス２０８ｃとして機能する。計算プログラム２０９ｄは、計算プロセス２０８ｄとして機能する。出力プログラム２０９ｅは、出力プロセス２０８ｅとして機能する。

例えば、受付プロセス２０８ａは、受付部１５１に対応する。検出プロセス２０８ｂは、検出部１５２に対応する。生成プロセス２０８ｃは、生成部１５３に対応する。計算プロセス２０８ｄは、計算部１５４に対応する。出力プロセス２０８ｅは、出力部１５５に対応する。

なお、各プログラム２０９ａ〜２０９ｅについては、必ずしも最初からハードディスク装置２０９に記憶させておかなくてもよい。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ２００がこれらから各プログラム２０９ａ〜２０９ｅを読み出して実行するようにしてもよい。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）テキスト情報に含まれる助詞または助詞相当の文字を検出する検出部と、
前記テキスト情報について、前記検出部が検出した助詞または助詞相当の各文字をそれぞれ助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けした複数のテンプレートを生成する生成部と、
前記複数のテンプレートの文字列において、助詞または助詞相当とみなした文字を除いた部分に含まれる名詞句の割合に基づいて、複数のテンプレートの優先度を計算する計算部と、
各テンプレートの優先度に基づいて、複数のテンプレートを助詞または助詞相当の文字で区切って出力する出力部と
を有することを特徴とするテキスト編集装置。

（付記２）前記計算部は、助詞または助詞相当とみなした文字を除いた部分で、かつ、名詞句ではない部分について、所定の動詞を付加し、付加した部分が動詞句であるか否かを判定し、判定結果に基づいて、前記複数のテンプレートの優先度を修正することを特徴とする付記１に記載のテキスト編集装置。

（付記３）前記複数のテンプレートのうち、助詞または助詞相当とみなした文字同士が隣接するテンプレートを除外する除外部を更に有し、前記計算部は、前記複数のテンプレートのうち、前記除外部に除外されていない残りのテンプレートについて、優先度を計算することを特徴とする付記１または２に記載のテキスト編集装置。

（付記４）コンピュータが実行するテキスト編集方法であって、
テキスト情報に含まれる助詞または助詞相当の文字を検出し、
前記テキスト情報について、助詞または助詞相当の各文字をそれぞれ助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けした複数のテンプレートを生成し、
前記複数のテンプレートの文字列において、助詞または助詞相当とみなした文字を除いた部分に含まれる名詞句の割合に基づいて、複数のテンプレートの優先度を計算し、
各テンプレートの優先度に基づいて、複数のテンプレートを助詞または助詞相当の文字で区切って出力する
各処理を実行することを特徴とするテキスト編集方法。

（付記５）前記優先度を計算する処理は、助詞または助詞相当とみなした文字を除いた部分で、かつ、名詞句ではない部分について、所定の動詞を付加し、付加した部分が動詞句であるか否かを判定し、判定結果に基づいて、前記複数のテンプレートの優先度を修正することを特徴とする付記４に記載のテキスト編集方法。

（付記６）前記複数のテンプレートのうち、助詞または助詞相当とみなした文字同士が隣接するテンプレートを除外する処理を更に実行し、前記優先度を計算する処理は、前記複数のテンプレートのうち、前記除外部に除外されていない残りのテンプレートについて、優先度を計算することを特徴とする付記４または５に記載のテキスト編集方法。

（付記７）コンピュータに、
テキスト情報に含まれる助詞または助詞相当の文字を検出し、
前記テキスト情報について、助詞または助詞相当の各文字をそれぞれ助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けした複数のテンプレートを生成し、
前記複数のテンプレートの文字列において、助詞または助詞相当とみなした文字を除いた部分に含まれる名詞句の割合に基づいて、複数のテンプレートの優先度を計算し、
各テンプレートの優先度に基づいて、複数のテンプレートを助詞または助詞相当の文字で区切って出力する
各処理を実行させることを特徴とするテキスト編集プログラム。

（付記８）前記優先度を計算する処理は、助詞または助詞相当とみなした文字を除いた部分で、かつ、名詞句ではない部分について、所定の動詞を付加し、付加した部分が動詞句であるか否かを判定し、判定結果に基づいて、前記複数のテンプレートの優先度を修正することを特徴とする付記７に記載のテキスト編集プログラム。

（付記９）前記複数のテンプレートのうち、助詞または助詞相当とみなした文字同士が隣接するテンプレートを除外する処理を更に実行し、前記優先度を計算する処理は、前記複数のテンプレートのうち、前記除外部に除外されていない残りのテンプレートについて、優先度を計算することを特徴とする付記７または８に記載のテキスト編集プログラム。

１００テキスト編集装置
１１０音声認識部
１１０ａマイク
１２０入力部
１３０表示部
１３５通信部
１４０記憶部
１５０制御部

Claims

テキスト情報に含まれる助詞または助詞相当の文字を検出する検出部と、
前記テキスト情報について、前記検出部が検出した助詞または助詞相当の各文字をそれぞれ助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けした複数のテンプレートを生成する生成部と、
前記複数のテンプレートの文字列において、助詞または助詞相当とみなした文字を除いた部分に含まれる名詞句の割合に基づいて、複数のテンプレートの優先度を計算する計算部と、
各テンプレートの優先度に基づいて、複数のテンプレートを助詞または助詞相当の文字で区切って出力する出力部と
を有することを特徴とするテキスト編集装置。
前記計算部は、助詞または助詞相当とみなした文字を除いた部分で、かつ、名詞句ではない部分を示す可変部を特定し、テンプレートの文字列に含まれる前記可変部の直後に存在する助詞を、前記可変部の直後に付加し、予め設定される助詞と動詞との組み合わせを定義した動詞テーブルと、前記可変部の直後に付加する助詞とを比較して、前記可変部の直後に付加する助詞の直後に付加する動詞を特定して付加し、付加した部分が動詞句であるか否かを判定し、判定結果に基づいて、前記複数のテンプレートの優先度を修正することを特徴とする請求項１に記載のテキスト編集装置。
前記複数のテンプレートのうち、助詞または助詞相当とみなした文字同士が隣接するテンプレートを除外する除外部を更に有し、前記計算部は、前記複数のテンプレートのうち、前記除外部に除外されていない残りのテンプレートについて、優先度を計算することを特徴とする請求項１または２に記載のテキスト編集装置。
コンピュータが実行するテキスト編集方法であって、
テキスト情報に含まれる助詞または助詞相当の文字を検出し、
前記テキスト情報について、助詞または助詞相当の各文字をそれぞれ助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けした複数のテンプレートを生成し、
前記複数のテンプレートの文字列において、助詞または助詞相当とみなした文字を除いた部分に含まれる名詞句の割合に基づいて、複数のテンプレートの優先度を計算し、
各テンプレートの優先度に基づいて、複数のテンプレートを助詞または助詞相当の文字で区切って出力する
各処理を実行することを特徴とするテキスト編集方法。
コンピュータに、
テキスト情報に含まれる助詞または助詞相当の文字を検出し、
前記テキスト情報について、助詞または助詞相当の各文字をそれぞれ助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けした複数のテンプレートを生成し、
前記複数のテンプレートの文字列において、助詞または助詞相当とみなした文字を除いた部分に含まれる名詞句の割合に基づいて、複数のテンプレートの優先度を計算し、
各テンプレートの優先度に基づいて、複数のテンプレートを助詞または助詞相当の文字で区切って出力する
各処理を実行させることを特徴とするテキスト編集プログラム。