JP5553033B2 - 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム - Google Patents
文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム Download PDFInfo
- Publication number
- JP5553033B2 JP5553033B2 JP2011010727A JP2011010727A JP5553033B2 JP 5553033 B2 JP5553033 B2 JP 5553033B2 JP 2011010727 A JP2011010727 A JP 2011010727A JP 2011010727 A JP2011010727 A JP 2011010727A JP 5553033 B2 JP5553033 B2 JP 5553033B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- sentence
- relationship
- subsequent
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000006870 function Effects 0.000 claims description 56
- 238000000034 method Methods 0.000 claims description 29
- 238000004458 analytical method Methods 0.000 description 50
- 230000000295 complement effect Effects 0.000 description 44
- 238000011156 evaluation Methods 0.000 description 11
- 238000007796 conventional method Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 208000025174 PANDAS Diseases 0.000 description 2
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 2
- 240000004718 Panda Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 239000002547 new drug Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
例えば、文章の意味ベクトルと意味辞書に記述された単語の意味ベクトルとの類似度を比較して次の単語を選別する発明が提案されている(特許文献1参照)。
例えば、単語の使用頻度を分析することで文書の分野を特定し、当該分野に合わせて入力されると予測される文字列を変える発明が提案されている(特許文献2参照)。
例えば、文字列を意味関係毎に分類した意味候補と共起関係毎に分類した用例候補を混ぜて次の単語を選別する発明が提案されている(特許文献3参照)。
なお、N−gramについては、例えば、「http://www.shuiren.org/chuden/teach/n-gram/index-j.html」、「http://ja.wikipedia.org/wiki/%E5%85%A8%E6%96%87%E6%A4%9C%E7%B4%A2」、「“確率的言語モデル”,東京大学出版会」などに開示されている。
例えば、利用者が「私と彼は公園で」という文を入力済みの状態でその後を入力しようとしているとする。このとき、N−gramを利用した入力補完では、図2(a)、(b)に例示するような補完候補が提示される。図2(a)には、バイグラムによる補完候補を例示してあり、同図(b)には、トライグラムによる補完候補を例示してある。図2(a)、(b)において、枠で囲まれた部分が補完候補の選出に際して参照した形態素であり、バイグラムでは「で」、トライグラムでは「公園」及び「で」が参照されている。また、各補完候補の右側には、それぞれの候補語のスコア(本例では、既存の文における出現頻度)を例示してある。
なお、構文解析及び意味解析については、例えば、「“形態素構文解析について”,内元清貴 馬青,郵政省 通信総合研究所」、「“意味文脈解析”,村田真樹 井佐原均,郵政省 通信総合研究所」、「http://ja.wikipedia.org/wiki/%E6%A7%8B%E6%96%87%E8%A7%A3%E6%9E%90」などに開示されている。
本例の文章入力支援システムは、新聞の記事やWeb等から収集した大量の既存の文を格納した大規模コーパス11と、大規模コーパス11に格納されている大量の既存の文に基づいて補完候補の提示用の参照情報を作成する参照情報作成部20と、参照情報作成部20により作成された参照情報を記憶する各種スコアDB12と、利用者による操作入力に基づいて作成中の文について、これまでの入力内容に基づいて各種スコアDB12を検索して得られる補完候補を提示する文章入力支援部30と、を備えた構成となっている。
例えば、「私と彼は公園で遊ぶ」という文を構文解析及び意味解析すると、図3に例示するような文構造を特定することができる。図3(a)は構文解析の結果を概念的に示しており、同図(b)は意味解析の結果を概念的に示している。
図3において、各ノード(枠で囲った単位)から伸びる矢印は、ノード間の係り受けの関係を表している。例えば、「私→遊ぶ」は、「私」が「遊ぶ」に係り関係があることを表しており、換言すれば、「遊ぶ」に対する係り関係を「私」が有していることを表している。すなわち、「私→遊ぶ」は、「私」を係り元とし、「遊ぶ」を係り先とした係り関係を表している。
また、図3(b)によれば、“「私」と「遊ぶ」が(主語−述語)の関係”という意味役割で繋がる関係(意味役割の関係)であることが意味解析により特定されている。
なお、構文解析及び意味解析の結果や表現方法には種々の手法があり、図3は一例に過ぎない。
まず、テキスト取得部31が、作成中(編集中)の文「私と彼が公園で見た」を取得し、テキスト分割部32が、テキスト取得部31により得られた文を形態素解析して形態素単位の語(文字列)に分割し、構文・意味解析部33が、テキスト分割部32により得られた各語の係り関係及び意味役割を解析する。
その後、補完候補評価部34が、構文・意味解析部23の結果(文字入力位置の前の語に対する他の語の係り関係及び意味役割の関係)に基づいて各種スコアDB12を参照して、補完入力候補となる候補語を検索すると共に各候補語のスコアを算出し、補完候補提示部36が、補完候補評価部34により得られた候補語をスコア順に提示する。なお、補完候補文生成部35にて、補完候補評価部34により得られた候補語に基づいて候補文を生成し、補完候補提示部36では、補完候補評価部34により得られた候補語の提示に代えて(又は候補語と共に)、補完候補文生成部35により得られた候補文を提示するようにしてもよい。図4(a)には、補完候補評価部34及び補完候補文生成部35により得られた候補語及び候補文を補完候補として提示した様子を例示してある。図4(a)の例では、テキスト入力部41に表示されている現在作成中の文に対し、その補完候補が子ウィンドウ42内に提示されている。
そして、補完候補提示部36により提示された候補語(又は候補文)の何れかが利用者に選択された場合に、補完候補挿入部37が、当該選択された候補語(又は候補文)を、作成中の文における文字入力位置の次に挿入(追加)する。図4(b)には、選択された候補語(又は候補文)を挿入した結果を例示してある。
図5(b)における「role(R,A,B)」は、語A(係り先)に対して語B(係り元)が意味役割Rで繋がることを示す関係情報である。意味役割には、「sb(主語)」や「ob(目的語)」などがある。「*」は「任意」を意味しており、係り受けがあるという意味(構文解析の結果)である。例えば、「role(*,公園,私)」は、“[公園]に対して[私]が何らかの関係を持っている”ということを意味している。なお、本提案に係る文章入力支援は、意味解析を行わずに構文解析の結果のみでも適用可能である。
ここで、入力途中の文のように不完全な文を解析した場合には、従来の構文解析及び意味解析では解析が適切に行えない可能性があるが、その場合、例えば、文中に存在する形態素がお互いに「*(任意)」の関係で結ばれるとして処理してもよい。以下では、上記の例のように解析が適切に行えたと仮定して説明する。
ここでは、バイグラムモデルを用いて説明する。バイグラムモデルを適用する場合、補完候補評価手段34では、文字入力位置の前の語「見た」に対する係り関係(及び意味役割の関係)を用いて補完候補の語(候補語)を各種スコアDB12から検索する。
つまり、文字入力位置の前の語「見た」に続く語の候補(候補語)として、「公園」との関係(係り関係や意味役割の関係)に基づいて「。」、「犬」、「風景」の各語が検索され、「私」との関係に基づいて「。」、「子供」、「戦争」の各語が検索され、「彼」との関係に基づいて「。」、「風景」、「もの」の各語が検索されている。
ここで、係り関係(及び意味役割の関係)の合致とは、係り元の語と係り先の語とが完全に一致する態様の他、活用が異なるが同じ述語であれば一致と見做す態様や、異なる語であっても同義語であれば一致と見做す態様など、一致度の条件を或る程度緩和した態様も含む概念である。
例えば、トライグラムモデルでは、過去に作成された既存の文について、語A1が後続の語A2に対して係り関係等を有し且つ語A2が後続の語A3に対して係り関係等を有し且つ語A3が後続の語A4に対して係り関係等を有する場合において、作成中の文について、語B1が後続の語B2に対して係り関係等を有し且つ語B2が後続の文字入力位置の前の語B3に対して係り関係等を有する場合に、語B1及び語B2間の関係(B1→B2)と語A1及び語A2間の関係(A1→A2)が合致し且つ語B2及び語B3間の関係(B2→B3)と語A2及び語A3間の関係(A2→A3)が合致するときは、語A3及び語A4間の関係(A3→A4)から得られる語A4を補完候補として特定する。
例えば、共起情報を利用する場合、過去に作成された既存の文について、語C1が後続の語C2に対して係り関係等を有し且つ語C1及び語C2と共起し易い語としてC3がある場合において、作成中の文について、語D1が後続の語D2に対して係り関係等を有する場合に、語D1及び語D2間の関係(D1→D2)と語C1及び語C2間の関係(C1→C2)が合致するときは、語C1及び語C2から得られる語C3を補完候補として特定する。
第1のスコアリング例では、以下に例示するようなスコア要素の1以上を用いた計算式によりスコアリングを行う。
(要素1)接続頻度:N−gramモデル(バイグラム、トライグラムなど)、共起情報
例えば、共起情報に関するスコア要素として、出現数、相互情報量、Pointwise Mutual Information、Symmetric Conditional Porobabilityのいずれかを用い、N−gramに関するスコア要素として、出現数を用いる。
(要素2)接続頻度(ユニグラムなど)、重要度(tf−idfなど):候補の語、候補の意味役割、接続元の語、接続元の意味役割
接続元「role(R,B,A)」→候補「role(L,C,B)」とした場合(すなわち、先行語をA、基準語をB、後続語をC、基準語Bに対する先行語Aの意味役割をR、後続語Cに対する基準語Bの意味役割をL、とした場合)に、以下のものを用いる。
例えば、候補に関するスコア要素として、Cの出現頻度を用い、接続元に関するスコア要素として、Aの出現頻度及びBの出現頻度を用い、候補の意味役割に関するスコア要素として、role(L,C,B)の出現頻度及びLの重要度(例えば、「sb」:0.7、「ob」:0.4、「eid」:0.1など)の少なくとも一方を用い、接続元の意味役割に関するスコア要素として、role(R,B,A)及びRの重要度(Lの重要度と同様)の少なくとも一方を用い、N−gramに関するスコア要素として、出現頻度(例えば、通常の文字又は単語のN−gramモデルをスコアの一部として使用)を用いる。
また、例えば、現在入力中の文に主語がない場合に、候補の「sb」の重みを高くするようにする。
(要素3)距離:現在の文字入力位置(編集位置)の語と各語の距離
例えば、“私と彼は公園で”という文においては、「私」と「公園」の間の距離(文字数)は3であり、これらの語に係るスコア要素として、0.3(距離の逆数)を用い、「彼」と「公園」の間の距離(文字数)は1であり、これらの語に係るスコア要素として、1.0(距離の逆数)を用いる。
図6(a)には、前述したように、文字入力位置の前の語との関係情報を検索キーとした場合について、検索キーに合致する接続元の関係情報に対応付けられた接続先の関係情報(候補)と、当該接続元の関係情報及び接続先の関係情報により特定される一連の係り関係(及び意味役割の関係)が大規模コーパス11中の既存文に出現した回数(以下、バイグラムスコアという)を例示してあり、同図(b)には、検索キーに合致する接続元の関係情報の出現頻度を100分率で例示してある。図6(b)によれば、「role(*,見る,公園)」、「role(*,見る,私)」、「role(*,見る,彼)」の出現頻度の割合が、それぞれ、0.7、0.1、0.2となっている。
本例のスコアリングの説明では、作成中の文の例として「私と彼が公園で見た」を用いる。この場合、文字入力位置の前の語「見た」について、「私→見た」に係る関係情報「role(sb,見る,私)」、「彼→見た」に係る関係情報「role(sb,見る,彼)」、「公園→見た」に係る関係情報「role(で,見る,公園)」が得られる。以下では、係り関係を「role(*,B,A)」と表記し、意味役割の関係を「role(R,B,A)」と表記する。また、「sb」、「ob」、「で」などを意味関係といい、意味役割の関係の一部を表現するものとして扱う。
<ベース1;共起アプローチ>
(要素1−1)接続元と候補語間の係り受けの相互情報量(固有名詞などから続く候補語の重みを上げる)
例えば、role(*,見た,私)→role(*,パンダ,見た)。
(要素1−2)接続元と候補語間の意味役割の相互情報量
例えば、role(sb,見た,私)→role(ob,パンダ,見た)。
<ベース2;N−gramアプローチ>
(要素1−3)係り受けのN−gram
例えば、role(*,見た,私)→role(*,犬,見た)。
(要素1−4)意味役割のN−gram
例えば、role(sb,見た,私)→role(ob,犬,見た)。
(要素2)意味関係の繋がり易さ(バイグラム/トライグラム/共起)(「主語の後には目的語が続き易い」などの意味関係自体の繋がり易さを利用)
例えば、「sb」→「ob」、「sb」→「で」。
(要素3−1)接続元となる語の出現頻度(上位の候補語がほぼ同数であるために票が散ってしまう場合に、元の語や意味役割の頻度が多ければ優先する)
例えば、role(sb,見た,私)の「私」の出現頻度。
(要素3−2)接続元となる意味役割の出現頻度
例えば、role(sb,見た,私)の「role(sb,見た,私)」の出現頻度。
(要素4−1)現在入力中の文の構文解析及び意味解析の結果から、足りない格の重みを上げる(足りないものがある場合に候補自体の優先度を変える。後述する句点(。)のスコアの低減とは別の目的である。)
例えば、「ヲ格」が無ければ「ヲ格」の重みを上げる。
(要素4−2)現在入力中の文の構文解析及び意味解析の結果から、足りない意味関係の重みを上げる
例えば、「sb」が無ければ「sb」の重みを上げる。
(要素5)直前の単語のN−gram(従来通りのN−gramのスコアを考慮する。)
(要素6)入力履歴(直前に確定した候補の優先順位を上げる)
(要素7)距離
例えば、「私と彼が公園で見た」なら、「公園→見た」から続く候補の重みを上げる。
ベース(必須項目)として、(要素1−1)、(要素1−2)、(要素1−3)、(要素1−4)、(要素1−1)×(要素1−3)、(要素1−1)×(要素1−4)、(要素1−2)×(要素1−3)、(要素1−2)×(要素1−4)の何れかを用いる。
オプション1(任意項目)として、(要素2)を用いる。
オプション2(任意項目)として、(要素3−1)、(要素3−2)、(要素3−1)×(要素3−2)の何れかを用いる。
オプション3(任意項目)として、(要素4−1)、(要素4−2)、(要素4−1)×(要素4−2)の何れかを用いる。
オプション4(任意項目)として、(要素5)を用いる。
オプション5(任意項目)として、(要素6)を用いる。
オプション6(任意項目)として、(要素7)を用いる。
すなわち、各スコア要素に基づいて、スコア=ベース(×オプション1)(×オプション2)(×オプション3)(×オプション4)(×オプション5)(×オプション6)を算出する。
現在入力中の文が未完成と推定される場合には、候補としての句点(。)のスコアを調整して、句点の提示順を下げる処理を行う。以下では、句点のスコアを調整するにあたり、現在入力中の文について、格(又は意味役割)の有無のチェックと、入力文字数のカウントとを実施し、その結果に応じて句点のスコアを下げる調整について説明する。
本例のスコアリングでは、図9に例示するスコア要素に加え、句点のスコアの調整に係るスコア要素を用いる。
図9(a)は係り関係及び意味役割の関係についてのバイグラムスコア(例えば、コーパスでの出現回数)の例であり、同図(b)は接続元の意味役割の接続頻度(例えば、ユニグラムやパープレキシティ)の例であり、同図(c)は接続元の意味役割の重要度(例えば、tf−idf値)の例であり、同図(d)は単語間の距離(例えば、単語間の距離の逆数)の例である。なお、図9(a)〜(c)では、各関係情報の右側にスコアを示してある。また、図9(d)では、各関係情報の右側に単語間の距離を示してあり、更に右側にスコア(距離の逆数)を示してある。
句点のスコアの調整に係るスコア要素としては、図8(a)を用いて説明した格の有無に関するスコア要素(score1)と、同図(b)を用いて説明した現在入力中の文の長さに関するスコア要素(score2)とを用いる。
例えば、図11に例示するように、「私と彼が公園で見た」について、「role(root,null_pro,見る)」、「role(ob,風景,見る)」、「role(ob,子供,見る)」、「role(ている,犬,見る)」の各関係情報が検索された場合に、「。」、「風景」、「子供」、「犬」の各候補語をそのまま提示するのではなく、例えば、文字入力位置の前の語「見た」を前方に付加した候補文を生成して提示する。なお、候補文の生成については、例えば、その意味役割がどのような文章から生成されたかを調べて統計的に多いものを採用するようにしてもよく、意味役割から一意に文を変換するような定型文や規則を用意するようにしてもよい。また、このとき、関係情報における係り元の語(基準語)の意味役割に応じて、文字入力位置の前の語「見た」を変形させた文字列を付加するようにしてもよい。すなわち、図11の4番目の候補に例示するように、候補語「犬」について、「見た」を該当する意味役割「ている」に合わせて変形した文字列「見ている」を生成し、その後に候補語「犬」を続けた候補文を生成する。
なお、候補語を提示するか、候補文を提示するかは、予め設定しておいてもよく、利用者によりシステムの利用開始時に選択させるようにしてもよく、本システムの利用者や運用形態などに応じて任意に設定することができる。
このような構成によれば、例えば、「私と背の低い彼が長閑な公園で見た」といった修飾語が多く含まれる文では、「見た」と係り関係を有する「私」、「彼」、「公園」の各語が「見た」から離れた位置に存在するが、このような場合でも、文字入力位置の前の語からの距離とは無関係に、これらの語を用いた検索を行うことができる。
1.係り関係及び意味役割に対してN−gramモデルや共起情報を利用すること
1.1.語と語の間の関係や意味的な繋がりを重要視して、補完候補を特定できる。
1.2.係り受けを用いるため、参照する語の出現位置(距離)に関係ない。
2.ランキングを行い、複数の候補を統合すること
2.1.複数の係り受けからそれぞれ独立に補完候補が得られ、これらを統合することで文脈(利用者の意図)を考慮した補完候補を提示できる。
2.2.文の長さや格(意味役割)の有無をチェックし、句点(。)のスコアを操作する。
図12(a)には従来手法による文章入力支援の様子を例示してあり、同図(b)には本提案に係る文章入力支援の様子を例示してある。
例えば、作成中の文「私と背の低い彼が長閑な公園で見た」について、従来手法では「見」と「た」を用いた検索が行われ、その結果、「。」、「風景」、「子供」の各候補語が提示されているのに対し、本提案手法では、「見(た)」と「私」、「彼」、「公園」との係り関係を用いた検索が行われ、その結果、「た。」、「た風景」、「ている子供」の各候補語が提示されている。このように、本提案手法によれば、文脈を考慮した補完候補の提示が行われる。
本提案は、以下の2点で共起モデルに対して優位性がある。
(優位性1)共起モデルはインデックスサイズが大きい。
(優位性2)共起モデルは補完候補にゴミ(候補として不適切な語)が多い。
例えば、「私と彼が長閑な公園で見た犬はオムツをした子供を追い掛け回していました」の場合、共起モデルでは、「私」、「彼」、「長閑な」、「公園」、「見」、「犬」、「オムツ」、「し」、「子供」、「追い掛け回し」の10個の形態素に基づいてインデックスが作成されることになり、インデックスサイズ=10C2=(10×9)/(2×1)=45個となる(ちなみに、通常のバイグラムモデルだと21個)。一方、本提案手法では、上記例文における係り受け「私−彼」、「私−公園」、「彼−公園」、「長閑な−公園」、「私−見る」、「彼−見る」、「公園−見る」、「見る−犬」、「オムツ−する」、「オムツ−子供」、「する−子供」、「犬−子供」、「犬−追い掛け回す」、「子供−追いかけまわす」からバイグラムモデルを構築すると、インデックスサイズは14個となる。
共起モデルによる補完では、上記の例文をコーパスとしたとき、現在入力中の文が「私と彼が長閑な公園で見た」の場合に、補完候補として、1:「私」、2:「彼」、3:「長閑な」、4:「公園」、5:「見る」、6:「犬」、7:「オムツ」、8:「する」、9:「子供」、10:「追い掛け回す」が提示される。しかしながら、補完候補としては、2、6、9以外は人の目で見て明らかにおかしいと判断できる。なお、「動詞の後に動詞を続けない」などのルールを定めておくことで幾つか除外できるが、どのようなルールを用意するかが非常に難しいという問題がある。一方、本提案手法では、係り受けが無いものは補完候補として提示されないので、「見た」との間で係り関係を有する「私−見る」、「彼−見る」、「公園−見る」、「見る−犬」のうち、「見た」が係り関係にある「見る−犬」に基づいて「犬」が提示されることになる。ここでは、説明のためにコーパスを上記の例文のみとしたので、「子供」が候補から外れてしまっているが、コーパスを充実させることでこの問題はある程度回避することができる。
従来手法におけるN−gramデータの作成方法には次のような課題がある。例えば、図13(a)に例示するように、コーパスとして「私は公園で遊ぶ」と「私は公園で犬と遊ぶ」の2つの文が与えられたとき、バイグラムデータは同図(b)のようになる。すなわち、コーパスのデータはどちらも「公園で遊ぶ」という基本構造を持っているが、2番目の文には「犬と」が入っているため、「公園で」に続く候補語は「遊ぶ」と「犬」が同じ順位で表れることになる。あるべき姿としては、図13(a)のコーパスを利用するなら、「遊ぶ」の方が「犬」よりも優先順位としては高く設定されて欲しい。しかしながら、連続する語の情報を扱うN−gramでは、この課題を解決できない。
一方、本提案手法では、語と語の間の係り受けの情報を利用するため、図13(a)の例において、バイグラムデータは同図(c)のようになる。このため、「公園で」に続く候補語は従来手法と同じ「遊ぶ」と「犬」だが、優先順は「遊ぶ」の方が高く設定される。このように、係り受けの情報を利用することで、語と語の間の距離に関係なくN−gramモデルを構築できるため、従来手法よりも自然文らしい候補を提示することが可能となる。
文章作成において、或る程度文章の書き方(テンプレート)が決まっているような分野においては、よく使われるテンプレートを予め定義することができる。テンプレートを利用することで、これまで説明した提案手法に比べ、より長い文章を一気に入力(補完)することができる。
図14(a)には、これまで説明した提案手法による入力支援の例を概念的に示しており、同図(b)には、テンプレートを用いた入力支援の例を概念的に示している。すなわち、現在入力中の文における文字入力位置の前の語「見(た)」に対する他の語「私」、「彼女」、「公園」との係り関係のパターンに基づいて、その後に続くテンプレートを候補として提示するものである。
図15(a)には、定型的な文が用いられる傾向にある分野(例えば、医療分野)の既存の文に基づいて予め生成されたテンプレートを例示してある。このテンプレートを利用するために、図15(b)に例示するように、各テンプレートを導くパターンを定義する。例えば、テンプレート1の場合、1.1はテンプレート1に出現する意味役割であり、1.2はその意味役割のN−gramである。本例では、一例としてバイグラムモデルを用いている。現在入力中の文が1.1又は1.2のパターンを満たした場合、テンプレート1を補完候補として提示する。なお、パターンを満たしたか否かの判断は、「パターンの完全一致」でも「パターンの一部を含む」でも構わない。以下では、「パターン先頭からの一致」という条件でパターンを満たしたか否かの判断を行う。
このような構成によれば、より長い補完候補の提示を行うことができる。また、或る程度、テンプレートや定型文を多用する分野において効果的である。
本例のコンピュータは、各種演算処理を行うCPU(Central Processing Unit)61、CPU61の作業領域となるRAM(Random Access Memory)62や基本的な制御プログラムを記録したROM(Read Only Memory)63等の主記憶装置、本発明の一実施形態に係るプログラムや各種データを記憶するHDD(Hard Disk Drive)64等の補助記憶装置、各種情報を表示出力するための表示装置及び操作者により入力操作に用いられる操作ボタンやタッチパネル等の入力機器とのインタフェースである入出力I/F65、他の装置との間で有線又は無線により通信を行うインタフェースである通信I/F66、等のハードウェア資源を有している。
そして、本発明の一実施形態に係るプログラムを補助記憶装置64等から読み出してRAM62に展開し、これをCPU61により実行させることで、上述した各機能部をコンピュータ上に実現している。
また、本例のようなソフトウェア構成により各機能部を実現する態様に限られず、それぞれの機能部を専用のハードウェア資源で実現するようにしてもよい。
21:テキスト取得部、 22:テキスト分割部、 23:構文・意味解析部、 24:各種スコア算出部、
31:テキスト取得部、 32:テキスト分割部、 33:構文・意味解析部、 34:補完候補評価部、 35:補完候補文生成部、 36:補完候補提示部、 37:補完候補挿入部
Claims (10)
- コンピュータに、
利用者による操作入力に基づいて作成中の文を解析して、当該文における文字入力位置の前の語に対する他の語の係り関係を特定する特定機能と、
既存の文毎にその文に含まれる複数の語について、基準となる基準語と、当該基準語に対する係り関係がある先行語と、当該基準語が係り関係にある後続語とを特定した一連の係り関係を保持する係り受け情報を記憶する記憶手段から、前記特定機能により特定された係り関係に合致する係り関係を基準語と先行語との間で有する係り受け情報における後続語を検索する検索機能と、
前記検索機能により検索された後続語を利用者に対して提示する提示機能と、
を実現させるためのプログラム。 - 前記係り受け情報には、基準語に対する先行語の意味役割が保持されており、
前記特定機能は、文字入力位置の前の語に対する他の語の係り関係を特定すると共に、当該他の語の意味役割を特定し、
前記検索機能は、前記特定機能により特定された係り関係及び意味役割に合致する係り関係及び意味役割を基準語と先行語との間で有する係り受け情報における後続語を検索する、
ことを特徴とする請求項1に記載のプログラム。 - 前記係り受け情報には、先行語及び基準語及び後続語に関する一連の係り関係について、既存の文における一連の係り関係の出現度合が保持されており、
前記検索機能は、該当する係り受け情報における後続語を検索すると共に、当該係り受け情報における出現度合を検索し、
前記提示機能は、前記検索機能により検索された後続語を、当該後続語と共に検索された出現度合が高い順に提示する、
ことを特徴とする請求項1又は請求項2に記載のプログラム。 - 前記特定機能は、作成中の文に含まれる各語の格又は意味役割を特定し、
前記提示機能は、前記検索機能により後続語として句点が検索された場合において、文として存在すべき格又は意味役割の語が作成中の文に存在しない場合には、当該句点に係る出現度合を減じる、
ことを特徴とする請求項3に記載のプログラム。 - 前記提示機能は、前記検索機能により後続語として句点が検索された場合において、入力中の文の文字数が閾値未満の場合には、当該句点に係る出現度合を減じる、
ことを特徴とする請求項3に記載のプログラム。 - 前記係り受け情報には、後続語に対する基準語の意味役割が保持されており、
前記検索機能は、該当する係り受け情報における後続語を検索すると共に、当該係り受け情報における基準語の意味役割を検索し、
前記提示機能は、前記検索機能により検索された後続語を、当該後続語と共に検索された意味役割に応じた文字列を前方に付加した態様で提示する、
ことを特徴とする請求項1乃至請求項5のいずれか1項に記載のプログラム。 - コンピュータに、
既存の文毎にその文を解析して、当該文に含まれる複数の語について、基準となる基準語と、当該基準語に対する係り関係がある先行語と、当該基準語が係り関係にある後続語とを特定する特定機能と、
利用者による操作入力に基づいて作成中の文において、当該文における文字入力位置の前の語に対する他の語の係り関係に合致する係り関係が先行語との間にある基準語について、当該基準語が係り関係にある後続語を利用者に対して提示する文章入力支援処理のために、前記特定機能により特定された先行語及び基準語及び後続語に関する一連の係り関係を保持する係り受け情報を記憶手段に記憶させる記憶機能と、
を実現させるためのプログラム。 - 既存の文毎にその文を解析して、当該文に含まれる複数の語について、基準となる基準語と、当該基準語に対する係り関係がある先行語と、当該基準語が係り関係にある後続語とを特定する第1特定手段と、前記第1特定手段により特定された先行語及び基準語及び後続語に関する一連の係り関係を保持する係り受け情報を記憶する記憶手段と、を有する参照情報作成部と、
利用者による操作入力に基づいて作成中の文を解析して、当該文における文字入力位置の前の語に対する他の語の係り関係を特定する第2特定手段と、前記第2特定手段により特定された係り関係に合致する係り関係を基準語と先行語との間で有する係り受け情報における後続語を前記記憶手段から検索する検索手段と、前記検索手段により検索された後続語を利用者に対して提示する提示手段と、を有する文章入力支援部と、
を備えたことを特徴とする文章入力支援システム。 - 利用者による操作入力に基づいて作成中の文を解析して、当該文における文字入力位置の前の語に対する他の語の係り関係を特定する特定手段と、
既存の文毎にその文に含まれる複数の語について、基準となる基準語と、当該基準語に対する係り関係がある先行語と、当該基準語が係り関係にある後続語とを特定した一連の係り関係を保持する係り受け情報を記憶する記憶手段から、前記特定手段により特定された係り関係に合致する係り関係を基準語と先行語との間で有する係り受け情報における後続語を検索する検索手段と、
前記検索手段により検索された後続語を利用者に対して提示する提示手段と、
を備えたことを特徴とする文章入力支援装置。 - 既存の文毎にその文を解析して、当該文に含まれる複数の語について、基準となる基準語と、当該基準語に対する係り関係がある先行語と、当該基準語が係り関係にある後続語とを特定する特定手段と、
利用者による操作入力に基づいて作成中の文において、当該文における文字入力位置の前の語に対する他の語の係り関係に合致する係り関係が先行語との間にある基準語について、当該基準語が係り関係にある後続語を利用者に対して提示する文章入力支援処理のために、前記特定機能により特定された先行語及び基準語及び後続語に関する一連の係り関係を保持する係り受け情報を記憶する記憶手段と、
を備えたことを特徴とする参照情報作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011010727A JP5553033B2 (ja) | 2011-01-21 | 2011-01-21 | 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011010727A JP5553033B2 (ja) | 2011-01-21 | 2011-01-21 | 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012150759A JP2012150759A (ja) | 2012-08-09 |
JP5553033B2 true JP5553033B2 (ja) | 2014-07-16 |
Family
ID=46792931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011010727A Expired - Fee Related JP5553033B2 (ja) | 2011-01-21 | 2011-01-21 | 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5553033B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2018190128A1 (ja) | 2017-04-11 | 2020-02-27 | ソニー株式会社 | 情報処理装置および情報処理方法 |
CN110244860B (zh) * | 2018-03-08 | 2024-02-02 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和电子设备 |
CN114822483A (zh) * | 2021-01-19 | 2022-07-29 | 美的集团(上海)有限公司 | 数据增强方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4105841B2 (ja) * | 2000-07-11 | 2008-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体 |
JP2007334534A (ja) * | 2006-06-14 | 2007-12-27 | Ntt Data Corp | 文字列入力装置、文字列入力方法、および、プログラム |
-
2011
- 2011-01-21 JP JP2011010727A patent/JP5553033B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012150759A (ja) | 2012-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Saggion et al. | Automatic text simplification | |
US10496756B2 (en) | Sentence creation system | |
US8271453B1 (en) | Paraphrase acquisition | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
EP0889417A2 (en) | Text genre identification | |
JP6676109B2 (ja) | 発話文生成装置とその方法とプログラム | |
WO2009123260A1 (ja) | 共起辞書作成システムおよびスコアリングシステム | |
JP2007047974A (ja) | 情報抽出装置および情報抽出方法 | |
JP6830971B2 (ja) | 文章生成のためのデータを生成するシステム及び方法 | |
JP5553033B2 (ja) | 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム | |
Malandrakis et al. | Sail: Sentiment analysis using semantic similarity and contrast features | |
US6973423B1 (en) | Article and method of automatically determining text genre using surface features of untagged texts | |
Gawryjolek | Automated annotation and visualization of rhetorical figures | |
JP5269399B2 (ja) | 構造化文書検索装置、方法およびプログラム | |
JP2008233964A (ja) | 構文・意味解析結果ランキングモデル作成方法および装置、プログラム並びに記録媒体 | |
Watanabe et al. | A latent discriminative model for compositional entailment relation recognition using natural logic | |
JP2009199280A (ja) | 部分構文木プロファイルを用いた類似性検索システム | |
JP4341077B2 (ja) | 文書処理装置、文書処理方法、および、文書処理プログラム | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
RU2635213C1 (ru) | Способ суммаризации текста и используемые для его реализации устройство и машиночитаемый носитель информации | |
JP2004334382A (ja) | 構造化文書要約装置、プログラムおよび記録媒体 | |
Pretkalnina et al. | Dependency parsing representation effects on the accuracy of semantic applications―an example of an inflective language. | |
JP4049141B2 (ja) | 文書処理装置、文書処理方法、および、文書処理プログラム | |
Israel et al. | Semantic analysis for focused multi-document summarization (fMDS) of text | |
JP4336404B2 (ja) | 情報検索装置及びその方法、コンピュータ可読メモリ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140421 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140430 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140513 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5553033 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |