JP2013127677A - テキスト編集装置、テキスト編集方法およびテキスト編集プログラム - Google Patents

テキスト編集装置、テキスト編集方法およびテキスト編集プログラム Download PDF

Info

Publication number
JP2013127677A
JP2013127677A JP2011276434A JP2011276434A JP2013127677A JP 2013127677 A JP2013127677 A JP 2013127677A JP 2011276434 A JP2011276434 A JP 2011276434A JP 2011276434 A JP2011276434 A JP 2011276434A JP 2013127677 A JP2013127677 A JP 2013127677A
Authority
JP
Japan
Prior art keywords
particle
particles
equivalent
templates
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011276434A
Other languages
English (en)
Other versions
JP5842591B2 (ja
Inventor
Masatake Sumiya
昌剛 角谷
Yuki Nagase
友樹 長瀬
Hide Fuji
秀 富士
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011276434A priority Critical patent/JP5842591B2/ja
Publication of JP2013127677A publication Critical patent/JP2013127677A/ja
Application granted granted Critical
Publication of JP5842591B2 publication Critical patent/JP5842591B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】テキスト情報の訂正を容易にする。
【解決手段】テキスト編集装置100は、テキスト情報141から助詞または助詞相当の文字を検出し、検出した助詞または助詞相当の文字を、助詞または助詞相当とみなすか否かにより場合分けした複数のテンプレート候補を生成する。テキスト編集装置100は、助詞または助詞相当とみなした文字を除いた可変部に含まれる名詞句の割合に基づいて、テンプレート候補のスコアを計算する。テキスト編集装置100は、各テンプレートのスコアに基づいて、複数のテンプレートを助詞または助詞相当の文字で区切って可変部単位で出力する。
【選択図】図1

Description

本発明は、テキスト編集装置等に関する。
近年、利用者は各種の入力装置を利用して、端末装置にテキスト情報を入力している。例えば、利用者は、キーボード等でテキスト情報を入力する場合もあれば、音声認識装置を利用して、音声をテキスト情報に変換し、端末装置にテキスト情報を入力する場合もある。特に、音声認識装置を利用すると、キーボードの操作が苦手な利用者であっても、容易にテキスト情報を端末装置に入力することが可能となる。
ここで、装置に入力されるテキスト情報には、入力誤りが存する場合があり、かかるテキストの入力誤りを訂正する各種の従来技術が存在する。例えば、入力装置から利用者が入力したテキストを逐次解析し、文法上の誤り等を検出して、利用者に通知する技術が存在する。また、入力されたテキスト情報に対して形態素解析などを実行し、解析結果を基にして、もっともらしい訂正結果を出力する技術が存在する。
特開2011−65384号公報 特開平5−233619号公報
しかしながら、上述した従来技術では、テキスト情報の入力誤りを訂正しづらいという問題があった。
例えば、音声認識装置を利用すると、ある程度まとまった文字数のテキスト情報が端末装置に一度に入力される。一般的に、入力される文字数が多くなることで、訂正されない入力誤りの発生確率が高くなる。このため、従来技術では対処できない入力誤りがテキスト情報に残ってしまう。また、入力誤りが連鎖して、まとまった単位で入力誤りが発生することも多く、利用者は、苦手であっても、キーボード等を用いてテキスト情報を修正することとなる。
例えば、利用者が「私の弟は早くさやかと会うために午前中会社を休んだ」と話した場合、テキスト情報は、図21に示すものとなる。図21は、入力誤りの一例を示す図である。図21のテキスト情報10の各文字11が、誤り箇所である。利用者は、誤り箇所を選択して、キーボードなどによる修正を行う。
開示の技術は、上記に鑑みてなされたものであって、テキスト情報の訂正を容易にすることができるテキスト編集装置、テキスト編集方法およびテキスト編集プログラムを提供することを目的とする。
開示のテキスト編集装置は、検出部と、生成部と、計算部と、出力部とを有する。検出部は、テキスト情報に含まれる助詞または助詞相当の文字を検出する。生成部は、テキスト情報について、検出部が検出した助詞または助詞相当の各文字をそれぞれ助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けした複数のテンプレートを生成する。計算部は、複数のテンプレートの文字列において、助詞または助詞相当とみなした文字を除いた部分に含まれる名詞句の割合に基づいて、複数のテンプレートの優先度を計算する。出力部は、各テンプレートの優先度に基づいて、複数のテンプレートを助詞または助詞相当の文字で区切って出力する。
開示のテキスト編集装置によれば、テキスト情報の訂正を容易にすることができるという効果を奏する。
図1は、本実施例に係るテキスト編集装置の構成を示す図である。 図2は、テキスト情報のデータ構造の一例を示す図である。 図3は、助詞マッチングテーブルのデータ構造の一例を示す図である。 図4は、テンプレート候補格納テーブルのデータ構造の一例を示す図である。 図5は、代表動詞テーブルのデータ構造の一例を示す図である。 図6は、検出部の処理を説明するための図である。 図7は、計算部の処理を説明するための図(1)である。 図8は、構文解析の一例を示す図である。 図9は、計算部の処理を説明するための図(2)である。 図10は、計算部の処理を説明するための図(3)である。 図11は、計算部の処理を説明するための図(4)である。 図12は、計算部の処理を説明するための図である。 図13は、スコアを登録したテンプレート候補格納テーブルの一例を示す図である。 図14は、表示部の表示例を示す図である。 図15は、スコアの低いテンプレートの一例を示す図である。 図16は、本実施例に係るテキスト編集装置の処理手順を示すフローチャートである。 図17は、助詞マッチングテーブルを生成する処理手順を示すフローチャートである。 図18は、妥当性を判定する処理手順を示すフローチャートである。 図19は、スコアを計算する処理手順を示すフローチャートである。 図20は、テキスト編集プログラムを実行するコンピュータの一例を示す図である。 図21は、入力誤りの一例を示す図である。
以下に、本願の開示するテキスト編集装置、テキスト編集方法およびテキスト編集プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
図1は、本実施例に係るテキスト編集装置の構成を示す図である。図1に示すように、テキスト編集装置100は、音声認識部110、入力部120、表示部130、通信部135、記憶部140、制御部150を有する。
音声認識部110は、マイク110aに接続される。音声認識部110は、マイク110aから音声情報を受け付け、この音声情報を文字として認識し、テキスト情報に変換する装置である。音声認識部110が、音声情報をテキスト情報に変換する処理は、従来の音声認識技術を用いればよい。音声認識部110は、テキスト情報を、制御部150に出力する。
入力部120は、各種の情報をテキスト編集装置100に入力する入力装置である。入力部120は、例えば、キーボードやマウス、タッチパネル等に対応する。表示部130は、テキスト編集装置100の処理結果を表示する表示装置である。例えば、表示部130は、ディスプレイやタッチパネルに対応する。
通信部135は、外部装置と通信を行う処理部である。例えば、通信部135は、ネットワークを介して、サーバとデータ通信を行う。通信部135は、外部装置等からネットワークを介してテキスト情報を取得しても良い。
記憶部140は、テキスト情報141、助詞マッチングテーブル142、テンプレート候補格納テーブル143、代表動詞テーブル144を記憶する。記憶部140は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、またはハードディスク、光ディスクなどの記憶装置に対応する。
テキスト情報141は、音声認識部110から取得するテキスト情報に対応する。例えば、テキスト情報141に含まれる文字列を、図2に示すものとする。図2は、テキスト情報のデータ構造の一例を示す図である。図2に示すように、テキスト情報141には、文字列「私なお父とは早くさやかと追うために5センチ外車を生んだ。」を含む。
助詞マッチングテーブル142は、テキスト情報141と、このテキスト情報141に含まれる助詞とを対応付けるテーブルである。図3は、助詞マッチングテーブルのデータ構造の一例を示す図である。
図3に示すように、助詞マッチングテーブル141は、助詞ID(Identification)、助詞を有する。また、助詞マッチングテーブル141の1行目には、テキスト情報141が文字毎に格納される。例えば、テキスト情報の「は」が助詞である場合には、助詞ID「1」、助詞「は」を含む行と、テキスト情報の「は」を含む列とが交差する領域(1、6)に印が格納される。助詞マッチングテーブル141に、印を入れる処理は、後述する。
テンプレート候補格納テーブル143は、テキスト情報141から生成される複数のテンプレート候補を有する。図4は、テンプレート候補格納テーブルのデータ構造の一例を示す図である。図4に示すように、テンプレート候補格納テーブル143は、候補ID、テンプレート候補、妥当性、スコアを対応付ける。このうち、妥当性は、該当するテンプレート候補が妥当であるか否かを示す情報である。スコアは、各テンプレート候補に対して付与され、スコアが高いテンプレート候補ほど、優先度が高いテンプレートとなる。
代表動詞テーブル144は、助詞と動詞との組みを有する。図5は、代表動詞テーブルのデータ構造の一例を示す図である。図5において、「:」の前が助詞に対応し、「:」の後が動詞に対応する。例えば、図5の1行目では、助詞「と」と、動詞「歩く」との組みが登録されている。
制御部150は、受付部151、検出部152、生成部153、計算部154、出力部155を有する。制御部150は、例えば、ASIC(Application Specific Integrated Circuit)や、FPGA(Field Programmable Gate Array)などの集積装置に対応する。また、制御部120は、例えば、CPUやMPU(Micro Processing Unit)等の電子回路に対応する。
受付部151は、音声認識部110からテキスト情報を受け付け、受け付けたテキスト情報141を、記憶部140に記憶させる。
検出部152は、テキスト情報141に含まれる助詞または助詞相当の文字を検出する処理部である。具体的に、検出部152の処理について説明する。まず、検出部152は、助詞マッチングテーブル142の「テキスト情報」に、テキスト情報141の文字列を格納する。
検出部152は、助詞ID「1」の助詞から順に、テキスト情報の文字列に対応する助詞が存在するか否かを判定する。検出部152は、対応する助詞が存在する場合には、助詞マッチングテーブル142の該当する領域に、印を格納する。
図6は、検出部の処理を説明するための図である。図6において、検出部152は、助詞ID「1」の助詞「は」が、テキスト情報に含まれるか否かを判定する。テキスト情報の6文字目に、「は」が存在する。このため、検出部152は、助詞ID「1」、助詞「は」を含む行と、テキスト情報の「は」を含む列とが交差する領域(1、6)に印を格納する。
検出部152は、助詞ID「2」の助詞「が」が、テキスト情報に含まれるか否かを判定する。テキスト情報に「が」は含まれないので、検出部152は次の助詞に移行する。
検出部152は、助詞ID「3」の助詞「を」が、テキスト情報に含まれるか否かを判定する。テキスト情報の24文字目に「を」が存在する。このため、検出部152は、助詞ID「3」、助詞「を」を含む行と、テキスト情報の「を」を含む列とが交差する領域(3、14)に印を格納する。
検出部152は、助詞ID「4」の助詞「に」が、テキスト情報に含まれるか否かを判定する。テキスト情報の17文字目に「に」が存在する。このため、検出部152は、助詞ID「4」、助詞「に」を含む行と、テキスト情報の「に」を含む列とが交差する領域(4、17)に印を格納する。
検出部152は、助詞ID「5」の助詞「で」が、テキスト情報に含まれるか否かを判定する。テキスト情報に「で」は含まれないので、検出部152は次の助詞に移行する。
検出部152は、助詞ID「6」の助詞「や」が、テキスト情報に含まれるか否かを判定する。テキスト情報の10文字目に「や」が存在する。このため、検出部152は、助詞ID「6」、助詞「や」を含む行と、テキスト情報の「や」を含む列とが交差する領域(6、10)に印を格納する。
検出部152は、助詞ID「7」の助詞「へ」が、テキスト情報に含まれるか否かを判定する。テキスト情報に「へ」は含まれないので、検出部152は次の助詞に移行する。
検出部152は、助詞ID「8」の助詞「と」が、テキスト情報に含まれるか否かを判定する。テキスト情報の5文字目および12文字目に「と」が存在する。このため、検出部152は、助詞ID「8」、助詞「と」を含む行と、テキスト情報の5文字目の「と」を含む列との交差する領域(8、5)に印を格納する。また、検出部152は、助詞ID「8」、助詞「と」を含む行と、テキスト情報の12文字目の「と」を含む列との交差する領域(8、12)に印を格納する。
上記の処理を実行することで検出部152は、助詞を検出する。なお、図6の例では、助詞を検出する場合について説明したが、同様に助詞相当の文字を検出することも可能である。ここで、助詞および助詞相当の文字とは、格助詞、並立助詞、終助詞、間投助詞、副助詞、係助詞、接続助詞、準体助詞の他、例えば、「における」「のための」等の助詞と同様の役割をする句表現も含む。
生成部153は、検出部152が検出した助詞または助詞相当の各文字をそれぞれ助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けした複数のテンプレート候補を生成する処理部である。助詞または助詞相当の文字毎に、助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けするため、テキスト情報にn個の助詞または助詞相当の文字が含まれている場合には、2個のテンプレート候補が生成される。
本実施例では一例として、生成部153は、助詞または助詞相当とみなす文字に囲まれる文字を、括弧で囲みテンプレート候補を生成する。なお、助詞または助詞相当とみなす文字に囲まれる文字が存在しない場合には、空を括弧で囲む。例えば、テキスト情報が「私なお父とは早くさやかと追うために5センチ外車を生んだ。」とし、5文字目「と」、6文字目「は」、10文字目「や」、12文字目「と」、17文字目「に」、24文字目「を」を助詞または助詞相当とみなす。そうすると、生成されるテンプレート候補は「(私なお父)と()は(早くさ)や(か)と(追うため)に(5センチ外車)を(生んだ。)」となる。以下の説明において、括弧で囲まれた文字を適宜、可変部と表記する。
生成部153は、助詞または助詞相当の各文字をそれぞれ助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けした全てのパターンのテンプレートを生成し、テンプレート候補格納テーブル143に格納する。生成部153は、テンプレート候補をテンプレート候補格納テーブル143に格納する場合に、一意にテンプレート候補を識別する候補IDと対応付ける。テンプレート候補格納テーブル143に候補IDとテンプレート候補が格納された段階では、妥当性、スコアには、何も登録されない。
計算部154は、各テンプレート候補の優先度を示すスコアを計算する処理部である。計算部154は、計算部および除外部に対応するものである。以下において、計算部154の処理を具体的に説明する。計算部154は、妥当性を判定する処理、名詞句および動詞句を検出する処理、スコアを算出する処理を順に実行する。
計算部154が妥当性を判定する処理について説明する。計算部154は、テンプレート候補格納テーブル143を基にして、各テンプレート候補について、妥当性が「OK」であるか妥当性が「NG」であるかを判定する。
図7は、計算部の処理を説明するための図(1)である。計算部154は、テンプレート格納テーブル143について、可変部に文字が含まれていないテンプレート候補の妥当性を「NG」にし、可変部に文字を含むテンプレート候補の妥当性を「OK」にする。図7に示す例では、候補ID「1」、「5」のテンプレート候補に、文字か含まれない可変部を含む。このため、計算部154は、候補ID「1」、「5」の妥当性を「NG」に設定する。妥当性が「NG」となるテンプレート候補は、助詞または助詞相当とみなした文字が、明らかに、助詞または助詞相当ではないことを示す。助詞または助詞相当の文字が連続して文字列に含まれることは無いためである。
計算部154が、名詞句および動詞句を検出する処理について説明する。計算部154は、可変部を構文解析し、名詞句であるか否かを判定する。計算部154は、可変部が名詞句ではない場合には、可変部に、該可変部の直後の助詞または助詞相当の文字と、代表動詞テーブルの動詞とを付加した文字列が、動詞句か否かを判定する。以下の説明において、可変部に、該可変部の直後の助詞または助詞相当の文字と、代表動詞テーブルの動詞とを付加した文字列を適宜、付加可変部と表記する。
計算部154は、テンプレート格納テーブル143について、妥当性が「OK」となるテンプレート候補に含まれる各可変部について上記処理を実行する。計算部154は、各可変部について、可変部が名詞句となる場合、または、付加可変部が動詞句となる場合には、カウント値sに1を加算する。カウント値sの初期値を0とする。
計算部154が実行する構文解析は、従来の構文解析と同様である。計算部154は、可変部に対して、形態素解析を実行し、形態素解析により得られる品詞の列の組み合わせた構文木が、所定のパターンのものか否かを基にして、可変部が名詞句であるかを判定する。同様に、計算部154は、付加可変部に対して構文解析を実行し、動詞句であるか否かを判定する。例えば、構文解析は従来文献「長尾真、牧野武則 編集、コンピュータで翻訳する、共立出版、ISBN4−320−02721−3」に記載されている。
図8は、構文解析の一例を示す図である。図8に示すように「妹が昨日買った本を私が呼んだ。」を構文解析すると、構文木20が生成される。構文木20には、品詞21〜26が含まれ、各品詞が対応付けられている。
図9は、計算部の処理を説明するための図(2)である。図9では一例として、候補ID「6」のテンプレート候補に対して処理を実行する場合について説明する。
図9のステップS10について説明する。計算部154は、可変部「私なお父さん」に対して構文解析を実行し、名詞句か否かを判定する。可変部「私なお父さん」は名詞句ではない。
計算部154は、可変部「私なお父さん」に、直後の助詞「は」を付加する。また、計算部154は、助詞「は」に対応する動詞を、代表動詞テーブル144から検出すると「考える」となる。計算部154は、可変部「私なお父さん」に助詞「は」と、動詞「考える」を付加した付加可変部「私なお父さんは考える」を生成する。計算部154は、付加可変部「私なお父さんは考える」に対して構文解析を実行し、動詞句か否かを判定する。付加可変部「私なお父さんは考える」は動詞句ではない。
図9のステップS11について説明する。計算部154は、可変部「早くさやか」に対して構文解析を実行し、名詞句か否かを判定する。可変部「早くさやか」は名詞句ではない。
計算部154は、可変部「早くさやか」に、直後の助詞「と」を付加する。また、計算部154は、助詞「と」を付加する。また、計算部154は、助詞「と」に対応する動詞を、代表動詞テーブル144から検出すると「歩く」となる。計算部154は、可変部「早くさやか」に、助詞「と」、動詞「歩く」を付加した付加可変部「早くさやかと歩く」を生成する。
計算部154は、付加可変部「早くさやかと歩く」に対して構文解析を実行する。図10は、計算部の処理を説明するための図(3)である。図10に示すように、構文解析を実行すると、副詞「早く」と名詞「さやか」が、動詞「歩く」に対応付けられる。このような構文木のパターンは、動詞句といえる。
図9のステップS12について説明する。計算部154は、可変部「追うため」に対して構文解析を実行し、名詞句か否かを判定する。可変部「追うため」は名詞句ではない。
計算部154は、可変部「追うため」に、直後の助詞「に」を付加する。また、計算部154は、助詞「に」に対応する動詞を、代表動詞テーブル144から検出すると「行く」となる。計算部154は、可変部「追うため」に、助詞「に」と、動詞「行く」とを付加した付加可変部「追うために行く」を生成する。
計算部154は、付加可変部「追うために行く」に対して構文解析を実行する。図11は、計算部の処理を説明するための図(4)である。図11に示すように、構文解析を実行すると、動詞「追う」と名詞「ため」とが対応付けられ、名詞「ため」と動詞「行く」とが対応付けられる。このような構文木のパターンは、動詞句といえる。
図9のステップS13について説明する。計算部154は、可変部「5センチ外車」に対して構文解析を実行し、名詞句か否かを判定する。図12は、計算部の処理を説明するための図である。図12に示すように、構文解析を実行すると、名詞「5センチ」と名詞「外車」と連続したものとなる。このような構文木のパターンは、名詞句といえる。可変部が名詞句であったため、かかる可変部について、計算部154は、動詞句の判定処理を行わない。
図9のステップS14について説明する。計算部154は、可変部「生んだ。」に対して構文解析を実行し、名詞句か否かを判定する。可変部「生んだ。」は名詞句ではない。
計算部154は、可変部「生んだ。」の直後を参照すると、助詞は存在しない。このため、計算部154は、付加可変部の生成を行わず、動詞句の判定処理を行わない。
図9のステップS15について説明する。計算部154は、テキスト情報の各可変部の内、可変部「5センチ外車」が名詞句であり、可変部「追うため」および「早くさやか」に対応する付加可変部が、動詞句であると判定する。
計算部154が、スコアを算出する処理について説明する。計算部145は、テンプレート候補の可変部の数のうち、名詞句と判定された可変部の数と動詞句と判定された付加可変部の数との割合をスコアとして算出する。例えば、計算部154は、式(1)によりスコアを算出する。
スコア=(名詞句と判定された可変部の数+動詞句と判定された付加可変部の数)/(テンプレート候補の可変部の数)・・・(1)
図9に示した候補ID「6」のテンプレート候補を例に、計算部154が算出するスコアについて説明する。図9のテンプレート候補に含まれる可変部の数は「5」である。名詞句と判定された可変部の数は「1」である。動詞句と判定された付加可変部の数は「2」である。このため、計算部154は、スコアを算出し、算出結果が「0.60」となる。計算部154は、テンプレート候補格納テーブル143について、候補ID「6」に対応するスコアに「0.60」を登録する。
計算部154、妥当性「OK」となる他のテンプレート候補についても、上述した名詞句および動詞句を検出する処理、および、スコアを算出する処理を実行する。計算部154は、各テンプレート候補に対応するスコアを、テンプレート候補格納テーブル143に登録する。
図13は、スコアを登録したテンプレート候補格納テーブルの一例を示す図である。図13において、下線部1Aの文字列は、該当する付加可変部が動詞句と判定されたものである。下線部1Bの文字列は、該当する可変部が名詞句と判定されたものである。
出力部155は、テンプレート候補格納テーブル143を参照し、テンプレート候補を助詞または助詞相当の文字で区切って、可変部毎に表示部130に出力する処理部である。出力部155は、テンプレート候補を、スコアの大きいものから順に、テンプレート候補を表示部130に表示させても良いし、スコアが一番大きいものから、n番目に大きいものまでのテンプレートを出力しても良い。
図14は、表示部の表示例を示す図である。図14に示すように、出力部155は、表示部130に、テンプレート0〜4を表示する。例えば、出力部155は、ボタン2Aが押下される度に、テンプレートを切り替えて出力しても良い。なお、出力部155は、その他のテンプレートを表示部130に表示させてもよい。
例えば、可変部に分解する前のテキスト情報を含む。テンプレート1は、候補ID「6」のテンプレート候補に対応する。テンプレート2は、候補ID「8」のテンプレート候補に対応する。テンプレート3、4に関する説明は省略する。各テンプレート1〜4は、可変部毎に区切ってテキスト情報の文字列を表示する。なお、出力部155は、名詞句に対応する可変部を強調表示させてもよい。また、出力部155は、動詞句と判定した付加可変部に対応する可変部を強調表示させても良い。
例えば、図14の表示部130を参照した利用者は、入力部120を操作して、より適切なテンプレートを選択した後に、修正対象となる可変部を選択し、選択した可変部を修正する。または、利用者は、可変部を指定して、再度音声認識により、該当部分の可変部にテキスト情報を入力しても良い。
例えば、利用者は、入力部120を操作して、テンプレート1の可変部「私なお父と」を選択し、入力部120を操作して正しい文章「私の弟」を入力する。または、利用者は、入力部120を操作して、テンプレート1の可変部「私なお父と」を選択し、マイク110aから、音声により「私の弟」を入力する。
ここで、図14との比較のために、スコアの低いテンプレートを示す。図15は、スコアの低いテンプレートの一例を示す図である。図15に示すように、何れのテンプレートも、各可変部が適切ではない。このため、図14のテンプレートと比較して、修正量が多くなってしまう。
次に、本実施例に係るテキスト編集装置100の処理手順について説明する。図16は、本実施例に係るテキスト編集装置の処理手順を示すフローチャートである。例えば、図16に示す処理は、音声認識部110からテキスト情報を受け付けたことを契機にして実行される。
図16に示すように、テキスト編集装置100は、音声認識部110からテキスト情報を受け付ける(ステップS101)。テキスト編集装置100は、助詞マッチングテーブルを生成する(ステップS102)。
テキスト編集装置100は、テンプレート候補格納テーブル143にテンプレート候補を格納する(ステップS103)。テキスト編集装置100は、妥当性を判定する(ステップS104)。
テキスト編集装置100は、スコアを算出する(ステップS105)。テキスト編集装置100は、スコアの大きいテンプレート候補を出力する(ステップS106)。
次に、テキスト編集装置100が、助詞マッチングテーブル142を作成する処理について説明する。かかる処理は、図16のステップ102の処理に対応する。図17は、助詞マッチングテーブルを生成する処理手順を示すフローチャートである。
図17に示すように、テキスト編集装置100の検出部152は、iに1を設定し(ステップS111)、最後まで到達し、助詞は存在しない場合には(ステップS112,Yes)、処理を終了する。
一方、検出部152は、最後まで到達しておらず、助詞が存在する場合には(ステップS112,No)、ID=iの助詞を選択する(ステップS113)。検出部152は、テキスト情報中の各文字について助詞と一致する位置にマークを記入する(ステップS114)。
検出部152は、iの値に1を加算した値により、iを更新し(ステップS115)、ステップS112に移行する。
次に、テキスト編集装置100が、妥当性を判定する処理手順について説明する。かかる処理は、図16のステップS104の処理に対応する。図18は、妥当性を判定する処理手順を示すフローチャートである。
図18に示すように、テキスト編集装置100の計算部154は、iに0を設定し(ステップS121)、iの値に1を加算した値により、iを更新する(ステップS122)。
計算部154は、最後まで到達したためi番目の可変部が存在しない場合には(ステップS123,Yes)、妥当性をOKに設定する(ステップS124)。
一方、計算部154は、最後まで到達しておらずi番目の可変部が存在する場合には(ステップS123,No)、i番目の可変部を選択する(ステップS125)。計算部154は、可変部内の内容がある場合には(ステップS126,No)、ステップS122に移行する。
一方、計算部154は、可変部内の内容が無しの場合には(ステップS126,Yes)、妥当性をNGに設定する(ステップS127)。
次に、テキスト編集装置100が、スコアを計算する処理手順について説明する。かかる処理は、図16のステップS105の処理に対応する。図19は、スコアを計算する処理手順を示すフローチャートである。
図19に示すように、テキスト編集装置100の計算部154は、s及びiに0を設定し(ステップS131)、iの値に1を加算した値により、iを更新する(ステップS132)。
テキスト編集装置100は、最後まで到達したためi番目の可変部が存在しない場合には(ステップS133、Yes)、スコアを算出し、テンプレート候補格納テーブル143に登録する(ステップS134)。ステップS134において、計算部154は、s/iによって、スコアを算出する。
一方、計算部154は、最後まで到達しておらずi番目の可変部が存在する場合には(ステップS133,No)、i番目の可変部を選択し、可変部を構文解析する(ステップS135)。
計算部154は、可変部が名詞句である場合には(ステップS136,Yes)、sの値に1を加算した値により、sを更新し(ステップS137)、ステップS132に移行する。
一方、計算部154は、可変部が名詞句でない場合には(ステップS136,No)、可変部に助詞と代表動詞とを加え、構文解析する(ステップS138)。計算部154は、付加可変部が動詞句の場合には(ステップS139,Yes)、ステップS137に移行する。これに対して、計算部154は、付加可変部が動詞句ではない場合には(ステップS139,No)、ステップS132に移行する。
次に、本実施例に係るテキスト編集装置100の効果について説明する。テキスト編集装置100は、テキスト情報141から助詞または助詞相当の文字を検出し、検出した助詞または助詞相当の文字を、助詞または助詞相当とみなすか否かにより場合分けした複数のテンプレート候補を生成する。テキスト編集装置100は、助詞または助詞相当とみなした文字を除いた可変部に含まれる名詞句の割合に基づいて、テンプレート候補のスコアを計算する。テキスト編集装置100は、各テンプレートのスコアに基づいて、複数のテンプレートを助詞または助詞相当の文字で区切って可変部単位で出力する。このため、各可変部の文字列が適切なものとなる可能性が高まると共に、訂正箇所が、可変部に絞られ、テキスト修正を容易にすることができる。
また、テキスト編集装置100は、可変部が名詞句ではない場合には、可変部に、該可変部の直後の助詞または助詞相当の文字と、代表動詞テーブルの動詞とを付加した文字列が、動詞句か否かを判定し、スコアに反映させる。このため、より的確に文章らしいテンプレート候補のスコアを大きくすることができ、結果として、テキスト修正を容易にすることができる。
また、テキスト編集装置100は、テンプレート候補のうち、可変部の内容が存在しないテンプレート候補を除外して、スコアを計算する。このため、処理負荷を軽減し、テキスト情報のテンプレートを表示するまでの処理を効率化することができる。
なお、図14の説明では、音声による入力と、入力部120による入力により、可変部を修正する場合について説明したがこれに限定されるものではない。例えば、テキスト編集装置100は、音声認識部110の音声認識結果を所定の文字数毎に保持しておき、修正対象となる可変部が選択された場合に、変換候補の文字を表示し、利用者に最適な文字を選択させても良い。
ところで、実施例では、テキスト編集装置100が、音声認識、テキスト情報の編集を行ったが、各処理を複数の装置に分散し、各装置が連携して、処理を行っても良い。以下では、サーバ連携型1〜3について説明する。
サーバ連携型1について説明する。サーバ連携型1では、単一のサーバと端末装置とが連携して処理を実行する。図1において、サーバに音声認識部110の機能を持たせ、その他の機能を端末装置に持たせる。端末装置は、利用者の音声情報を、サーバに送信し、サーバは音声認識を行って、テキスト情報に変換する。端末装置は、サーバからテキスト情報を取得し、テキスト編集装置100と同様にして、テンプレート候補を生成し、スコアに応じて、テンプレートを表示する。
サーバ連携型2について説明する。サーバ連携2では、単一のサーバと端末装置とが連携して処理を実行する。図1において、受付部151、検出部152、生成部153、計算部154の機能を、サーバに持たせ、その他の機能を端末装置に持たせる。端末装置は、利用者の音声情報をテキスト情報に変換して、サーバに送信する。サーバは、端末装置からテキスト情報を取得し、テキスト編集装置100と同様にして、テンプレート候補を生成し、スコアを算出する。サーバは、テンプレート候補とスコアとを対応付けた情報を端末装置に送信する。端末装置は、スコアに応じて、テンプレートを表示する。
サーバ連携型3について説明する。サーバ連携3では、2つのサーバ1、サーバ2と、端末装置とが連携して処理を実行する。図1において、サーバ1に音声認識部110の機能を持たせる。サーバ2に、受付部151、検出部152、生成部153、計算部154の機能を持たせる。端末装置は、利用者の音声情報を、サーバ1に送信し、サーバ1は音声認識を行って、テキスト情報に変換する。サーバ1は、テキスト情報を、サーバ2に送信する。
サーバ2は、端末装置からテキスト情報を取得し、テキスト編集装置100と同様にして、テンプレート候補を生成し、スコアを算出する。サーバ2は、テンプレート候補とスコアとを対応付けた情報を端末装置に送信する。端末装置は、スコアに応じて、テンプレートを表示する。
上記のように、各処理を複数の装置に分散し、各装置が連携して処理を行うことで、処理負荷を軽減させることができる。
次に、各実施例に示したテキスト編集装置100と同様の機能を実現するテキスト編集プログラムを実行するコンピュータの一例を説明する。図20は、テキスト編集プログラムを実行するコンピュータの一例を示す図である。
図20に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、ユーザからのデータの入力を受け付ける入力装置202と、ディスプレイ203を有する。また、コンピュータ200は、記憶媒体からプログラム等を読取る読み取り装置204と、ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置205とを有する。また、コンピュータ200は、音声情報からテキスト情報を生成する音声認識装置206、マイク207を有する。また、コンピュータ200は、各種情報を一時記憶するRAM208と、ハードディスク装置209を有する。そして、各装置201〜209は、バス210に接続される。
ハードディスク装置209は、例えば、受付プログラム209a、検出プログラム209b、生成プログラム209c、計算プログラム209d、出力プログラム209eを有する。CPU201は、各プログラム209a〜209eを読み出して、RAM208に展開する。
受付プログラム209aは、受付プロセス208aとして機能する。検出プログラム209bは、検出プロセス208bとして機能する。生成プログラム209cは、生成プロセス208cとして機能する。計算プログラム209dは、計算プロセス208dとして機能する。出力プログラム209eは、出力プロセス208eとして機能する。
例えば、受付プロセス208aは、受付部151に対応する。検出プロセス208bは、検出部152に対応する。生成プロセス208cは、生成部153に対応する。計算プロセス208dは、計算部154に対応する。出力プロセス208eは、出力部155に対応する。
なお、各プログラム209a〜209eについては、必ずしも最初からハードディスク装置209に記憶させておかなくてもよい。例えば、コンピュータ200に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ200がこれらから各プログラム209a〜209eを読み出して実行するようにしてもよい。
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)テキスト情報に含まれる助詞または助詞相当の文字を検出する検出部と、
前記テキスト情報について、前記検出部が検出した助詞または助詞相当の各文字をそれぞれ助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けした複数のテンプレートを生成する生成部と、
前記複数のテンプレートの文字列において、助詞または助詞相当とみなした文字を除いた部分に含まれる名詞句の割合に基づいて、複数のテンプレートの優先度を計算する計算部と、
各テンプレートの優先度に基づいて、複数のテンプレートを助詞または助詞相当の文字で区切って出力する出力部と
を有することを特徴とするテキスト編集装置。
(付記2)前記計算部は、助詞または助詞相当とみなした文字を除いた部分で、かつ、名詞句ではない部分について、所定の動詞を付加し、付加した部分が動詞句であるか否かを判定し、判定結果に基づいて、前記複数のテンプレートの優先度を修正することを特徴とする付記1に記載のテキスト編集装置。
(付記3)前記複数のテンプレートのうち、助詞または助詞相当とみなした文字同士が隣接するテンプレートを除外する除外部を更に有し、前記計算部は、前記複数のテンプレートのうち、前記除外部に除外されていない残りのテンプレートについて、優先度を計算することを特徴とする付記1または2に記載のテキスト編集装置。
(付記4)コンピュータが実行するテキスト編集方法であって、
テキスト情報に含まれる助詞または助詞相当の文字を検出し、
前記テキスト情報について、助詞または助詞相当の各文字をそれぞれ助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けした複数のテンプレートを生成し、
前記複数のテンプレートの文字列において、助詞または助詞相当とみなした文字を除いた部分に含まれる名詞句の割合に基づいて、複数のテンプレートの優先度を計算し、
各テンプレートの優先度に基づいて、複数のテンプレートを助詞または助詞相当の文字で区切って出力する
各処理を実行することを特徴とするテキスト編集方法。
(付記5)前記優先度を計算する処理は、助詞または助詞相当とみなした文字を除いた部分で、かつ、名詞句ではない部分について、所定の動詞を付加し、付加した部分が動詞句であるか否かを判定し、判定結果に基づいて、前記複数のテンプレートの優先度を修正することを特徴とする付記4に記載のテキスト編集方法。
(付記6)前記複数のテンプレートのうち、助詞または助詞相当とみなした文字同士が隣接するテンプレートを除外する処理を更に実行し、前記優先度を計算する処理は、前記複数のテンプレートのうち、前記除外部に除外されていない残りのテンプレートについて、優先度を計算することを特徴とする付記4または5に記載のテキスト編集方法。
(付記7)コンピュータに、
テキスト情報に含まれる助詞または助詞相当の文字を検出し、
前記テキスト情報について、助詞または助詞相当の各文字をそれぞれ助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けした複数のテンプレートを生成し、
前記複数のテンプレートの文字列において、助詞または助詞相当とみなした文字を除いた部分に含まれる名詞句の割合に基づいて、複数のテンプレートの優先度を計算し、
各テンプレートの優先度に基づいて、複数のテンプレートを助詞または助詞相当の文字で区切って出力する
各処理を実行させることを特徴とするテキスト編集プログラム。
(付記8)前記優先度を計算する処理は、助詞または助詞相当とみなした文字を除いた部分で、かつ、名詞句ではない部分について、所定の動詞を付加し、付加した部分が動詞句であるか否かを判定し、判定結果に基づいて、前記複数のテンプレートの優先度を修正することを特徴とする付記7に記載のテキスト編集プログラム。
(付記9)前記複数のテンプレートのうち、助詞または助詞相当とみなした文字同士が隣接するテンプレートを除外する処理を更に実行し、前記優先度を計算する処理は、前記複数のテンプレートのうち、前記除外部に除外されていない残りのテンプレートについて、優先度を計算することを特徴とする付記7または8に記載のテキスト編集プログラム。
100 テキスト編集装置
110 音声認識部
110a マイク
120 入力部
130 表示部
135 通信部
140 記憶部
150 制御部

Claims (5)

  1. テキスト情報に含まれる助詞または助詞相当の文字を検出する検出部と、
    前記テキスト情報について、前記検出部が検出した助詞または助詞相当の各文字をそれぞれ助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けした複数のテンプレートを生成する生成部と、
    前記複数のテンプレートの文字列において、助詞または助詞相当とみなした文字を除いた部分に含まれる名詞句の割合に基づいて、複数のテンプレートの優先度を計算する計算部と、
    各テンプレートの優先度に基づいて、複数のテンプレートを助詞または助詞相当の文字で区切って出力する出力部と
    を有することを特徴とするテキスト編集装置。
  2. 前記計算部は、助詞または助詞相当とみなした文字を除いた部分で、かつ、名詞句ではない部分について、所定の動詞を付加し、付加した部分が動詞句であるか否かを判定し、判定結果に基づいて、前記複数のテンプレートの優先度を修正することを特徴とする請求項1に記載のテキスト編集装置。
  3. 前記複数のテンプレートのうち、助詞または助詞相当とみなした文字同士が隣接するテンプレートを除外する除外部を更に有し、前記計算部は、前記複数のテンプレートのうち、前記除外部に除外されていない残りのテンプレートについて、優先度を計算することを特徴とする請求項1または2に記載のテキスト編集装置。
  4. コンピュータが実行するテキスト編集方法であって、
    テキスト情報に含まれる助詞または助詞相当の文字を検出し、
    前記テキスト情報について、助詞または助詞相当の各文字をそれぞれ助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けした複数のテンプレートを生成し、
    前記複数のテンプレートの文字列において、助詞または助詞相当とみなした文字を除いた部分に含まれる名詞句の割合に基づいて、複数のテンプレートの優先度を計算し、
    各テンプレートの優先度に基づいて、複数のテンプレートを助詞または助詞相当の文字で区切って出力する
    各処理を実行することを特徴とするテキスト編集方法。
  5. コンピュータに、
    テキスト情報に含まれる助詞または助詞相当の文字を検出し、
    前記テキスト情報について、助詞または助詞相当の各文字をそれぞれ助詞または助詞相当とみなす場合と助詞または助詞相当とみなさない場合とに場合分けした複数のテンプレートを生成し、
    前記複数のテンプレートの文字列において、助詞または助詞相当とみなした文字を除いた部分に含まれる名詞句の割合に基づいて、複数のテンプレートの優先度を計算し、
    各テンプレートの優先度に基づいて、複数のテンプレートを助詞または助詞相当の文字で区切って出力する
    各処理を実行させることを特徴とするテキスト編集プログラム。
JP2011276434A 2011-12-16 2011-12-16 テキスト編集装置、テキスト編集方法およびテキスト編集プログラム Expired - Fee Related JP5842591B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011276434A JP5842591B2 (ja) 2011-12-16 2011-12-16 テキスト編集装置、テキスト編集方法およびテキスト編集プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011276434A JP5842591B2 (ja) 2011-12-16 2011-12-16 テキスト編集装置、テキスト編集方法およびテキスト編集プログラム

Publications (2)

Publication Number Publication Date
JP2013127677A true JP2013127677A (ja) 2013-06-27
JP5842591B2 JP5842591B2 (ja) 2016-01-13

Family

ID=48778188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011276434A Expired - Fee Related JP5842591B2 (ja) 2011-12-16 2011-12-16 テキスト編集装置、テキスト編集方法およびテキスト編集プログラム

Country Status (1)

Country Link
JP (1) JP5842591B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123805A (ja) * 1994-10-20 1996-05-17 Canon Inc 音声認識方法とその装置
JP2009110485A (ja) * 2007-11-01 2009-05-21 Konica Minolta Medical & Graphic Inc 情報処理システム、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123805A (ja) * 1994-10-20 1996-05-17 Canon Inc 音声認識方法とその装置
JP2009110485A (ja) * 2007-11-01 2009-05-21 Konica Minolta Medical & Graphic Inc 情報処理システム、及びプログラム

Also Published As

Publication number Publication date
JP5842591B2 (ja) 2016-01-13

Similar Documents

Publication Publication Date Title
US11164568B2 (en) Speech recognition method and apparatus, and storage medium
US8504374B2 (en) Method for recognizing and interpreting patterns in noisy data sequences
KR101364774B1 (ko) 음성 인식의 오류 수정 방법 및 장치
US20070299664A1 (en) Automatic Text Correction
CN112417102B (zh) 一种语音查询方法、装置、服务器和可读存储介质
WO2017061027A1 (ja) 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム
JP2018040906A (ja) 辞書更新装置およびプログラム
JP2008216341A (ja) 誤り傾向学習音声認識装置及びコンピュータプログラム
CN109299471B (zh) 一种文本匹配的方法、装置及终端
CN110738997B (zh) 一种信息修正方法、装置、电子设备及存储介质
WO2014036827A1 (zh) 一种文本校正方法及用户设备
JP2014202832A (ja) 編集装置、方法、及びプログラム
KR101836996B1 (ko) 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법
JP5234232B2 (ja) 同義表現判定装置、方法及びプログラム
US9460067B2 (en) Automatic sentence punctuation
US8219905B2 (en) Automatically detecting keyboard layout in order to improve the quality of spelling suggestions
CN105373527B (zh) 一种省略恢复方法及问答系统
KR20180078569A (ko) 텍스트 기반의 상황 분류 장치 및 방법
US20210026461A1 (en) Independent inputting device with self-learning function
US11222180B2 (en) Dialogue method, dialogue system, and program
JP5842591B2 (ja) テキスト編集装置、テキスト編集方法およびテキスト編集プログラム
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
CN107203512B (zh) 用于从用户的自然语言输入中提取关键元素的方法
KR20160085100A (ko) 하이브리드 번역 장치 및 그 방법
Zukerman et al. Improving the understanding of spoken referring expressions through syntactic-semantic and contextual-phonetic error-correction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140805

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150428

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150721

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150924

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151102

R150 Certificate of patent or registration of utility model

Ref document number: 5842591

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees