JP5553033B2 - 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム - Google Patents

文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム Download PDF

Info

Publication number
JP5553033B2
JP5553033B2 JP2011010727A JP2011010727A JP5553033B2 JP 5553033 B2 JP5553033 B2 JP 5553033B2 JP 2011010727 A JP2011010727 A JP 2011010727A JP 2011010727 A JP2011010727 A JP 2011010727A JP 5553033 B2 JP5553033 B2 JP 5553033B2
Authority
JP
Japan
Prior art keywords
word
sentence
relationship
subsequent
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011010727A
Other languages
English (en)
Other versions
JP2012150759A (ja
Inventor
圭悟 服部
基行 鷹合
洋平 山根
博 増市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2011010727A priority Critical patent/JP5553033B2/ja
Publication of JP2012150759A publication Critical patent/JP2012150759A/ja
Application granted granted Critical
Publication of JP5553033B2 publication Critical patent/JP5553033B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラムに関する。
コンピュータを用いて文書を作成する文書作成装置には、一例として、利用者によるタイプ入力の負荷を軽減するために、入力中の文について、次に利用者により挿入されるであろう単語を予測して補完候補として利用者に提示し、補完候補の中から利用者に選択された単語を文に挿入する入力支援機能を備えたものがある。
ここで、上記のような文書作成装置における入力支援機能に関し、従前より種々の発明が提案されている。
例えば、文章の意味ベクトルと意味辞書に記述された単語の意味ベクトルとの類似度を比較して次の単語を選別する発明が提案されている(特許文献1参照)。
例えば、単語の使用頻度を分析することで文書の分野を特定し、当該分野に合わせて入力されると予測される文字列を変える発明が提案されている(特許文献2参照)。
例えば、文字列を意味関係毎に分類した意味候補と共起関係毎に分類した用例候補を混ぜて次の単語を選別する発明が提案されている(特許文献3参照)。
特開平07−271774号公報 特開平11−003331号公報 特開2000−187661号公報
本発明は、利用者による操作入力に基づく作成中の文について、その続きに入力されることが予測される候補を提示するに際し、文が有する係り受け関係の情報を用いて候補となる語を提示可能な技術を提案することを目的とする。
請求項1に係る本発明は、コンピュータに、利用者による操作入力に基づいて作成中の文を解析して、当該文における文字入力位置の前の語に対する他の語の係り関係を特定する特定機能と、既存の文毎にその文に含まれる複数の語について、基準となる基準語と、当該基準語に対する係り関係がある先行語と、当該基準語が係り関係にある後続語とを特定した一連の係り関係を保持する係り受け情報を記憶する記憶手段から、前記特定機能により特定された係り関係に合致する係り関係を基準語と先行語との間で有する係り受け情報における後続語を検索する検索機能と、前記検索機能により検索された後続語を利用者に対して提示する提示機能と、を実現させるためのプログラムである。
請求項2に係る本発明は、請求項1に本発明において、前記係り受け情報には、基準語に対する先行語の意味役割が保持されており、前記特定機能は、文字入力位置の前の語に対する他の語の係り関係を特定すると共に、当該他の語の意味役割を特定し、前記検索機能は、前記特定機能により特定された係り関係及び意味役割に合致する係り関係及び意味役割を基準語と先行語との間で有する係り受け情報における後続語を検索する、ことを特徴とするプログラムである。
請求項3に係る本発明は、請求項1、2に係る本発明において、前記係り受け情報には、先行語及び基準語及び後続語に関する一連の係り関係について、既存の文における一連の係り関係の出現度合が保持されており、前記検索機能は、該当する係り受け情報における後続語を検索すると共に、当該係り受け情報における出現度合を検索し、前記提示機能は、前記検索機能により検索された後続語を、当該後続語と共に検索された出現度合が高い順に提示する、ことを特徴とするプログラムである。
請求項4に係る本発明は、請求項3に係る本発明において、前記特定機能は、作成中の文に含まれる各語の格又は意味役割を特定し、前記提示機能は、前記検索機能により後続語として句点が検索された場合において、文として存在すべき格又は意味役割の語が作成中の文に存在しない場合には、当該句点に係る出現度合を減じる、ことを特徴とするプログラムである。
請求項5に係る本発明は、請求項3に係る本発明において、前記提示機能は、前記検索機能により後続語として句点が検索された場合において、入力中の文の文字数が閾値未満の場合には、当該句点に係る出現度合を減じる、ことを特徴とするプログラムである。
請求項6に係る本発明は、請求項1〜5に係る本発明において、前記係り受け情報には、後続語に対する基準語の意味役割が保持されており、前記検索機能は、該当する係り受け情報における後続語を検索すると共に、当該係り受け情報における基準語の意味役割を検索し、前記提示機能は、前記検索機能により検索された後続語を、当該後続語と共に検索された意味役割に応じた文字列を前方に付加した態様で提示する、ことを特徴とするプログラムである。
請求項7に係る本発明は、コンピュータに、既存の文毎にその文を解析して、当該文に含まれる複数の語について、基準となる基準語と、当該基準語に対する係り関係がある先行語と、当該基準語が係り関係にある後続語とを特定する特定機能と、利用者による操作入力に基づいて作成中の文において、当該文における文字入力位置の前の語に対する他の語の係り関係に合致する係り関係が先行語との間にある基準語について、当該基準語が係り関係にある後続語を利用者に対して提示する文章入力支援処理のために、前記特定機能により特定された先行語及び基準語及び後続語に関する一連の係り関係を保持する係り受け情報を記憶手段に記憶させる記憶機能と、を実現させるためのプログラムである。
請求項8に係る本発明は、既存の文毎にその文を解析して、当該文に含まれる複数の語について、基準となる基準語と、当該基準語に対する係り関係がある先行語と、当該基準語が係り関係にある後続語とを特定する第1特定手段と、前記第1特定手段により特定された先行語及び基準語及び後続語に関する一連の係り関係を保持する係り受け情報を記憶する記憶手段と、を有する参照情報作成部と、利用者による操作入力に基づいて作成中の文を解析して、当該文における文字入力位置の前の語に対する他の語の係り関係を特定する第2特定手段と、前記第2特定手段により特定された係り関係に合致する係り関係を基準語と先行語との間で有する係り受け情報における後続語を前記記憶手段から検索する検索手段と、前記検索手段により検索された後続語を利用者に対して提示する提示手段と、を有する文章入力支援部と、を備えたことを特徴とする文章入力支援システムである。
請求項9に係る本発明は、利用者による操作入力に基づいて作成中の文を解析して、当該文における文字入力位置の前の語に対する他の語の係り関係を特定する特定手段と、既存の文毎にその文に含まれる複数の語について、基準となる基準語と、当該基準語に対する係り関係がある先行語と、当該基準語が係り関係にある後続語とを特定した一連の係り関係を保持する係り受け情報を記憶する記憶手段から、前記特定手段により特定された係り関係に合致する係り関係を基準語と先行語との間で有する係り受け情報における後続語を検索する検索手段と、前記検索手段により検索された後続語を利用者に対して提示する提示手段と、を備えたことを特徴とする文章入力支援装置である。
請求項10に係る本発明は、既存の文毎にその文を解析して、当該文に含まれる複数の語について、基準となる基準語と、当該基準語に対する係り関係がある先行語と、当該基準語が係り関係にある後続語とを特定する特定手段と、利用者による操作入力に基づいて作成中の文において、当該文における文字入力位置の前の語に対する他の語の係り関係に合致する係り関係が先行語との間にある基準語について、当該基準語が係り関係にある後続語を利用者に対して提示する文章入力支援処理のために、前記特定機能により特定された先行語及び基準語及び後続語に関する一連の係り関係を保持する係り受け情報を記憶する記憶手段と、を備えたことを特徴とする参照情報作成装置である。
請求項1、7〜10に係る本発明によれば、利用者による操作入力に基づいて作成中の文について、その続きに入力されることが予測される候補を提示するに際し、候補となる語を係り受け関係の情報に基づいて提示し、入力を支援することができる。
請求項2に係る本発明によれば、作成中の文の意味内容を踏まえた候補となる語を提示することができる。
請求項3に係る本発明によれば、候補となる語の提示順を過去の事例に基づいて調整することができる。
請求項4、5に係る本発明によれば、作成中の文が未完成と推定される場合には、候補としての句点の提示順を下げることができる。
請求項6に係る本発明によれば、候補となる語を提示するとともに当該候補となる語の意味役割に基づく情報をも提示することができる。
本発明の一実施形態に係る文章入力支援システムの機能ブロックを例示する図である。 N−gramを利用した入力補完技術の例を示す図である。 構文解析及び意味解析の例を示す図である。 補完候補の提示例を示す図である。 構文解析及び意味解析の例を示す図である。 スコア要素の例を示す図である。 スコアリングの例を示す図である。 句点のスコアの調整例を示す図である。 スコア要素の例を示す図である。 スコアリングの例を示す図である。 候補文の生成例を示す図である。 従来手法との比較例を示す図である。 補完候補のロバスト性を説明する図である。 テンプレートを用いた文章入力支援の例を示す図である。 テンプレートの例を示す図である。 補完候補(テンプレート)の提示例を示す図である。 文章入力支援システムに係るコンピュータのハードウェア構成を例示する図である。
本発明の実施例として具体的な説明に先立って、公知の技術であるN−gramを利用した入力補完について説明する。N−gramを利用した入力補完では、作成中の文における末尾からN−1個の文字(又は単語)に基づいて、当該N−1個の文字(又は単語)が出現した既存の文においてその次に出現したN個目の文字(又は単語)を出現頻度順に補完候補として選び出す。この方法では、Nが大きくなるほどインデックスサイズが肥大化するため、バイグラム(N=2)やトライグラム(N=3)が用いられることが多い。しかしながら、自然文には機能語(助詞や接続詞)が多く、機能語を含めたバイグラムやトライグラムでは利用者がどのようなトピックの文を入力しているかを把握し難く、利用者の意図を反映させた補完候補の提示は困難であることが知られている。
なお、N−gramについては、例えば、「http://www.shuiren.org/chuden/teach/n-gram/index-j.html」、「http://ja.wikipedia.org/wiki/%E5%85%A8%E6%96%87%E6%A4%9C%E7%B4%A2」、「“確率的言語モデル”,東京大学出版会」などに開示されている。
N−gramを利用した入力補完について、より具体的に説明する。
例えば、利用者が「私と彼は公園で」という文を入力済みの状態でその後を入力しようとしているとする。このとき、N−gramを利用した入力補完では、図2(a)、(b)に例示するような補完候補が提示される。図2(a)には、バイグラムによる補完候補を例示してあり、同図(b)には、トライグラムによる補完候補を例示してある。図2(a)、(b)において、枠で囲まれた部分が補完候補の選出に際して参照した形態素であり、バイグラムでは「で」、トライグラムでは「公園」及び「で」が参照されている。また、各補完候補の右側には、それぞれの候補語のスコア(本例では、既存の文における出現頻度)を例示してある。
一般に、「公園で」に続いて入力される語は、主語に「私」や「彼」のような『人』を取る場合と「犬」や「猫」のような『動物』を取る場合とで、使われ易い語が異なると考えられる。しかしながら、図2の例では、「私」や「彼」といった語は現在の編集位置(文字入力位置)から遠い位置にあるため、補完候補を選び出す際に参照されていない。「私」や「彼」といった語を参照範囲に含めるためには、N>3にする必要があるが、Nを増大させると、参照用のN−gramのデータのインデックス数(異なり語彙数)は肥大化してしまう。
また、Nを大きくすると、N−1までの文字(又は単語)がかなり限定されることになるため、提示できる補完候補に柔軟性が無くなる。更に、例えば、「私と背の低い彼は長閑な公園で...」のように文中に多くの修飾語があるような場合には、語を補完したい位置と「私」や「彼」といった語との距離が大きく離れてしまう。このため、これらを参照できるようなNを設定することは現実的ではない。また、スパースネスの問題で、単純にNの値を大きくしてもN−gramモデルの精度は向上しないことが分かっている。
そこで、本発明の実施例では、利用者による操作入力に基づいて作成中の文について構文解析(及び意味解析)を行い、その結果に基づいて補完候補を検索するように構成することで、現在の文字入力位置(編集位置)から離れた位置に存在する語であっても文字入力位置の前の語(例えば、直前の語)に係わりを持つ語であれば、その語を利用した検索を行えるようにして、作成中の文の文脈に沿った補完候補を効果的に選び出せるようにする手法を提案する。
なお、構文解析及び意味解析については、例えば、「“形態素構文解析について”,内元清貴 馬青,郵政省 通信総合研究所」、「“意味文脈解析”,村田真樹 井佐原均,郵政省 通信総合研究所」、「http://ja.wikipedia.org/wiki/%E6%A7%8B%E6%96%87%E8%A7%A3%E6%9E%90」などに開示されている。
図1には、本提案に係る文章入力支援システムの機能ブロックを例示してある。
本例の文章入力支援システムは、新聞の記事やWeb等から収集した大量の既存の文を格納した大規模コーパス11と、大規模コーパス11に格納されている大量の既存の文に基づいて補完候補の提示用の参照情報を作成する参照情報作成部20と、参照情報作成部20により作成された参照情報を記憶する各種スコアDB12と、利用者による操作入力に基づいて作成中の文について、これまでの入力内容に基づいて各種スコアDB12を検索して得られる補完候補を提示する文章入力支援部30と、を備えた構成となっている。
本例の参照情報作成部20は、大規模コーパス11から文単位のテキスト(文字列)を取得するテキスト取得部21と、テキスト取得部21により得られたテキストを形態素解析して形態素単位の語に分割するテキスト分割部22と、テキスト分割部22により得られた各語の係り関係及び意味役割を解析する構文・意味解析部23と、構文・意味解析部23の結果に基づいて参照情報(係り受け及び意味役割の接続頻度の情報、語や意味役割の重要度など)を生成して各種スコアDB12に格納する各種スコア算出部24と、を有している。
本例の文章入力支援部30は、作成中(編集中)の文を取得するテキスト取得部31と、テキスト取得部31により得られた文を形態素解析して形態素単位の語(文字列)に分割するテキスト分割部32と、テキスト分割部32により得られた各語の係り関係及び意味役割を解析する構文・意味解析部33と、構文・意味解析部23の結果に基づいて各種スコアDB12を参照して、補完入力候補となる候補語を検索すると共に各候補語のスコアを算出する補完候補評価部34と、補完候補評価部34により得られた候補語に基づいて候補文を生成する補完候補文生成部35と、補完候補評価部34により得られた候補語(又は、補完候補文生成部35により得られた候補文)をスコア順に提示する補完候補提示部36と、補完候補提示部36により提示された候補語(又は候補文)の中から利用者に選択された候補語(又は候補文)を作成中の文に挿入(追加)する補完候補挿入部37と、を有している。
まず、構文解析及び意味解析について説明する。
例えば、「私と彼は公園で遊ぶ」という文を構文解析及び意味解析すると、図3に例示するような文構造を特定することができる。図3(a)は構文解析の結果を概念的に示しており、同図(b)は意味解析の結果を概念的に示している。
図3において、各ノード(枠で囲った単位)から伸びる矢印は、ノード間の係り受けの関係を表している。例えば、「私→遊ぶ」は、「私」が「遊ぶ」に係り関係があることを表しており、換言すれば、「遊ぶ」に対する係り関係を「私」が有していることを表している。すなわち、「私→遊ぶ」は、「私」を係り元とし、「遊ぶ」を係り先とした係り関係を表している。
また、図3(b)によれば、“「私」と「遊ぶ」が(主語−述語)の関係”という意味役割で繋がる関係(意味役割の関係)であることが意味解析により特定されている。
なお、構文解析及び意味解析の結果や表現方法には種々の手法があり、図3は一例に過ぎない。
次に、本例の文章入力支援システムによる文章入力支援の動作を説明する。
まず、テキスト取得部31が、作成中(編集中)の文「私と彼が公園で見た」を取得し、テキスト分割部32が、テキスト取得部31により得られた文を形態素解析して形態素単位の語(文字列)に分割し、構文・意味解析部33が、テキスト分割部32により得られた各語の係り関係及び意味役割を解析する。
その後、補完候補評価部34が、構文・意味解析部23の結果(文字入力位置の前の語に対する他の語の係り関係及び意味役割の関係)に基づいて各種スコアDB12を参照して、補完入力候補となる候補語を検索すると共に各候補語のスコアを算出し、補完候補提示部36が、補完候補評価部34により得られた候補語をスコア順に提示する。なお、補完候補文生成部35にて、補完候補評価部34により得られた候補語に基づいて候補文を生成し、補完候補提示部36では、補完候補評価部34により得られた候補語の提示に代えて(又は候補語と共に)、補完候補文生成部35により得られた候補文を提示するようにしてもよい。図4(a)には、補完候補評価部34及び補完候補文生成部35により得られた候補語及び候補文を補完候補として提示した様子を例示してある。図4(a)の例では、テキスト入力部41に表示されている現在作成中の文に対し、その補完候補が子ウィンドウ42内に提示されている。
そして、補完候補提示部36により提示された候補語(又は候補文)の何れかが利用者に選択された場合に、補完候補挿入部37が、当該選択された候補語(又は候補文)を、作成中の文における文字入力位置の次に挿入(追加)する。図4(b)には、選択された候補語(又は候補文)を挿入した結果を例示してある。
例えば、利用者が「私と彼が公園で見た」までを入力済みの状態でその後を入力しようとしているとする。このとき、入力済みの部分を構文・意味解析部33により構文解析及び意味解析した結果は、図5のようになる。図5(a)は構文解析及び意味解析の結果を概念的に示したものであり、同図(b)は解析結果を関数表現した例であり、同図(c)は関数表現した(b)の意味役割を簡略化した表現(係り受け表現)である。
図5(b)における「role(R,A,B)」は、語A(係り先)に対して語B(係り元)が意味役割Rで繋がることを示す関係情報である。意味役割には、「sb(主語)」や「ob(目的語)」などがある。「*」は「任意」を意味しており、係り受けがあるという意味(構文解析の結果)である。例えば、「role(*,公園,私)」は、“[公園]に対して[私]が何らかの関係を持っている”ということを意味している。なお、本提案に係る文章入力支援は、意味解析を行わずに構文解析の結果のみでも適用可能である。
ここで、入力途中の文のように不完全な文を解析した場合には、従来の構文解析及び意味解析では解析が適切に行えない可能性があるが、その場合、例えば、文中に存在する形態素がお互いに「*(任意)」の関係で結ばれるとして処理してもよい。以下では、上記の例のように解析が適切に行えたと仮定して説明する。
本提案の特徴1は、上記の係り関係(及び意味役割の関係)に対してN−gramや共起情報を計算することである。
ここでは、バイグラムモデルを用いて説明する。バイグラムモデルを適用する場合、補完候補評価手段34では、文字入力位置の前の語「見た」に対する係り関係(及び意味役割の関係)を用いて補完候補の語(候補語)を各種スコアDB12から検索する。
なお、各種スコアDB12には、参照情報として、大規模コーパス11中の既存文に含まれる或る語を基準語とし、当該文に含まれる他の語で且つ基準語に対する係り関係がある語を先行語とし、当該文に含まれる他の語で且つ基準語が係り関係にある語を後続語として特定した一連の係り関係(及び意味役割の関係)の情報と、大規模コーパス11中の既存文における当該一連の係り関係(及び意味役割の関係)の出現頻度(出現の度合(程度)を示す情報の一例)などの各種スコアの情報と、を含む係り受け情報が格納されているものとする。本例では、一連の係り関係(及び意味役割の関係)の情報として、先行語と基準語との関係を示す接続元の関係情報と、基準語と後続語との関係を示す接続先の関係情報とを対応付けた情報を保持している。接続元の関係情報には、基準語(係り先)に対する先行語(係り元)の意味役割が保持されている。また、接続先の関係情報には、後続語(係り先)に対する基準語(係り元)の意味役割が保持されている。
図5(a)、(b)によれば、文字入力位置の前の語「見た」に対する係り関係を有する語は、「公園」、「私」、「彼」の3つであり、補完候補評価手段34は、これらの語との係り関係(及び意味役割の関係)である「role(*,見る,公園)」、「role(*,見る,私)」、「role(*,見る,彼)」の各関係情報を検索キーに用いた検索を行う。この結果、上記の各関係情報に続く関係情報の候補として、例えば、図6(a)に例示する関係情報が検索される。
図6(a)では、検索キー「role(*,見る,公園)」に合致する接続元の関係情報に対応付けられた接続先の関係情報として「role(*,null_pro,見る)」、「role(*,犬,見る)」、「role(*,風景,見る)」が候補として検索され、検索キー「role(*,見る,私)」に合致する接続元の関係情報に対応付けられた接続先の関係情報として「role(*,null_pro,見る)」、「role(*,子供,見る)」、「role(*,戦争,見る)」が検索され、検索キー「role(*,見る,彼)」に合致する接続元の関係情報に対応付けられた接続先の関係情報として「role(*,null_pro,見る)」、「role(*,風景,見る)」、「role(*,もの,見る)」が検索されている。なお、“null_pro”は句点(。)を意味している。
つまり、文字入力位置の前の語「見た」に続く語の候補(候補語)として、「公園」との関係(係り関係や意味役割の関係)に基づいて「。」、「犬」、「風景」の各語が検索され、「私」との関係に基づいて「。」、「子供」、「戦争」の各語が検索され、「彼」との関係に基づいて「。」、「風景」、「もの」の各語が検索されている。
また、図6(a)では、候補(関係情報)の右側に、各候補と共に各種スコアDB12から検索されたスコアを示してある。各候補のスコアは、それぞれの候補の妥当性を示すものである。本例では、候補のスコアとして、検索キーに合致する接続元の関係情報及び対応する接続先の関係情報により特定される一連の係り関係(及び意味役割の関係)が大規模コーパス11中の既存文に出現した回数(出現頻度)を用いているが、例えば、パープレキシティ(例えば、「http://www.phontron.com/ja/notes/word.php?id=82」を参照)などの他の種別の値を用いてもよい。なお、「*」には、「sb」や「ob」などの具体的な意味役割(意味解析の結果)を入れて候補を検索してもよいし、「*(任意)」の関係(構文解析の結果)で候補を検索してもよい。
このように、本提案手法では、過去に作成された既存の文について、語A1が後続の語A2に対して係り関係(及び意味役割の関係)を有し且つ語A2が後続の語A3に対して係り関係等を有する場合において、作成中の文について、語B1が後続の文字入力位置の前の語B2に対して係り関係等を有する場合に、語B1及び語B2間の関係(B1→B2)と語A1及び語A2間の関係(A1→A2)が合致するときは、語A2及び語A3間の関係(A2→A3)から得られる語A3を補完候補として特定する。
ここで、係り関係(及び意味役割の関係)の合致とは、係り元の語と係り先の語とが完全に一致する態様の他、活用が異なるが同じ述語であれば一致と見做す態様や、異なる語であっても同義語であれば一致と見做す態様など、一致度の条件を或る程度緩和した態様も含む概念である。
なお、上記のような係り関係(及び意味役割の関係)のバイグラムモデルではなく、N>2のN−gramモデルや共起情報を採用してもよい。
例えば、トライグラムモデルでは、過去に作成された既存の文について、語A1が後続の語A2に対して係り関係等を有し且つ語A2が後続の語A3に対して係り関係等を有し且つ語A3が後続の語A4に対して係り関係等を有する場合において、作成中の文について、語B1が後続の語B2に対して係り関係等を有し且つ語B2が後続の文字入力位置の前の語B3に対して係り関係等を有する場合に、語B1及び語B2間の関係(B1→B2)と語A1及び語A2間の関係(A1→A2)が合致し且つ語B2及び語B3間の関係(B2→B3)と語A2及び語A3間の関係(A2→A3)が合致するときは、語A3及び語A4間の関係(A3→A4)から得られる語A4を補完候補として特定する。
例えば、共起情報を利用する場合、過去に作成された既存の文について、語C1が後続の語C2に対して係り関係等を有し且つ語C1及び語C2と共起し易い語としてC3がある場合において、作成中の文について、語D1が後続の語D2に対して係り関係等を有する場合に、語D1及び語D2間の関係(D1→D2)と語C1及び語C2間の関係(C1→C2)が合致するときは、語C1及び語C2から得られる語C3を補完候補として特定する。
本提案の特徴2は、上記の処理により得られた各候補を統合し、順序付けして利用者に提示することである。順序付けには、上記の係り関係(及び意味役割の関係)に関するバイグラムモデルのスコア(出現頻度)だけでなく、様々なスコアを組み合わせて用いることができる。最終的に利用者に提示する補完候補は、予め定められた基準に基づいてスコアリングされ、スコアリング結果に沿った順序で提示される。
スコアリングについて幾つかの例を挙げて説明する。
第1のスコアリング例では、以下に例示するようなスコア要素の1以上を用いた計算式によりスコアリングを行う。
(要素1)接続頻度:N−gramモデル(バイグラム、トライグラムなど)、共起情報
例えば、共起情報に関するスコア要素として、出現数、相互情報量、Pointwise Mutual Information、Symmetric Conditional Porobabilityのいずれかを用い、N−gramに関するスコア要素として、出現数を用いる。
(要素2)接続頻度(ユニグラムなど)、重要度(tf−idfなど):候補の語、候補の意味役割、接続元の語、接続元の意味役割
接続元「role(R,B,A)」→候補「role(L,C,B)」とした場合(すなわち、先行語をA、基準語をB、後続語をC、基準語Bに対する先行語Aの意味役割をR、後続語Cに対する基準語Bの意味役割をL、とした場合)に、以下のものを用いる。
例えば、候補に関するスコア要素として、Cの出現頻度を用い、接続元に関するスコア要素として、Aの出現頻度及びBの出現頻度を用い、候補の意味役割に関するスコア要素として、role(L,C,B)の出現頻度及びLの重要度(例えば、「sb」:0.7、「ob」:0.4、「eid」:0.1など)の少なくとも一方を用い、接続元の意味役割に関するスコア要素として、role(R,B,A)及びRの重要度(Lの重要度と同様)の少なくとも一方を用い、N−gramに関するスコア要素として、出現頻度(例えば、通常の文字又は単語のN−gramモデルをスコアの一部として使用)を用いる。
また、例えば、現在入力中の文に主語がない場合に、候補の「sb」の重みを高くするようにする。
(要素3)距離:現在の文字入力位置(編集位置)の語と各語の距離
例えば、“私と彼は公園で”という文においては、「私」と「公園」の間の距離(文字数)は3であり、これらの語に係るスコア要素として、0.3(距離の逆数)を用い、「彼」と「公園」の間の距離(文字数)は1であり、これらの語に係るスコア要素として、1.0(距離の逆数)を用いる。
第2のスコアリング例について、図6及び図7を参照して説明する。
図6(a)には、前述したように、文字入力位置の前の語との関係情報を検索キーとした場合について、検索キーに合致する接続元の関係情報に対応付けられた接続先の関係情報(候補)と、当該接続元の関係情報及び接続先の関係情報により特定される一連の係り関係(及び意味役割の関係)が大規模コーパス11中の既存文に出現した回数(以下、バイグラムスコアという)を例示してあり、同図(b)には、検索キーに合致する接続元の関係情報の出現頻度を100分率で例示してある。図6(b)によれば、「role(*,見る,公園)」、「role(*,見る,私)」、「role(*,見る,彼)」の出現頻度の割合が、それぞれ、0.7、0.1、0.2となっている。
図7(a)には、単純加算(バイグラムスコアを利用)によるスコアリングを例示してある。本例では、検索キー毎に得られた複数の関係情報について、内容が同じ関係情報毎に、そのバイグラムスコアを合計している。図7(a)によれば、例えば、「role(*,風景,見る)」のスコアとして、検索キー「role(*,見る,公園)」により得られた関係情報のバイグラムスコア(=56,400)と、検索キー「role(*,見る,私)」により得られた関係情報のバイグラムスコア(=0)と、検索キー「role(*,見る,彼)」により得られた関係情報のバイグラムスコア(=425,000)との合計値(=481,400)が求められている。本例によれば、各候補語が、「。」、「風景」、「子供」の順に提示されることになる。
図7(b)には、接続元の関係情報の出現頻度とバイグラムスコアの積によるスコアリングを例示してある。本例では、検索キー毎に得られた複数の関係情報について、内容が同じ関係情報毎に、各関係情報のバイグラムスコアに当該関係情報(接続先の関係情報)対応付けられた関係情報(接続元の関係情報)の出現頻度を乗じた値を合計している。図7(b)によれば、例えば、「role(*,風景,見る)」のスコアとして、検索キー「role(*,見る,公園)」により得られた関係情報のバイグラムスコア(=56,400)にその接続元の関係情報の出現頻度(=0.7)を乗じた値と、検索キー「role(*,見る,私)」により得られた関係情報のバイグラムスコア(=0)にその接続元の関係情報の出現頻度(=0.1)とを乗じた値と、検索キー「role(*,見る,彼)」により得られた関係情報のバイグラムスコア(=425,000)にその接続元の関係情報の出現頻度(=0.2)を乗じた値との合計値(=124,480)が求められている。本例によれば、各候補語が、「。」、「風景」、「犬」の順に提示されることになる。
第3のスコアリング例について説明する。
本例のスコアリングの説明では、作成中の文の例として「私と彼が公園で見た」を用いる。この場合、文字入力位置の前の語「見た」について、「私→見た」に係る関係情報「role(sb,見る,私)」、「彼→見た」に係る関係情報「role(sb,見る,彼)」、「公園→見た」に係る関係情報「role(で,見る,公園)」が得られる。以下では、係り関係を「role(*,B,A)」と表記し、意味役割の関係を「role(R,B,A)」と表記する。また、「sb」、「ob」、「で」などを意味関係といい、意味役割の関係の一部を表現するものとして扱う。
本例のスコアリングでは、スコア要素として以下の要素を用いる。
<ベース1;共起アプローチ>
(要素1−1)接続元と候補語間の係り受けの相互情報量(固有名詞などから続く候補語の重みを上げる)
例えば、role(*,見た,私)→role(*,パンダ,見た)。
(要素1−2)接続元と候補語間の意味役割の相互情報量
例えば、role(sb,見た,私)→role(ob,パンダ,見た)。
<ベース2;N−gramアプローチ>
(要素1−3)係り受けのN−gram
例えば、role(*,見た,私)→role(*,犬,見た)。
(要素1−4)意味役割のN−gram
例えば、role(sb,見た,私)→role(ob,犬,見た)。
<特徴があるスコア>
(要素2)意味関係の繋がり易さ(バイグラム/トライグラム/共起)(「主語の後には目的語が続き易い」などの意味関係自体の繋がり易さを利用)
例えば、「sb」→「ob」、「sb」→「で」。
(要素3−1)接続元となる語の出現頻度(上位の候補語がほぼ同数であるために票が散ってしまう場合に、元の語や意味役割の頻度が多ければ優先する)
例えば、role(sb,見た,私)の「私」の出現頻度。
(要素3−2)接続元となる意味役割の出現頻度
例えば、role(sb,見た,私)の「role(sb,見た,私)」の出現頻度。
(要素4−1)現在入力中の文の構文解析及び意味解析の結果から、足りない格の重みを上げる(足りないものがある場合に候補自体の優先度を変える。後述する句点(。)のスコアの低減とは別の目的である。)
例えば、「ヲ格」が無ければ「ヲ格」の重みを上げる。
(要素4−2)現在入力中の文の構文解析及び意味解析の結果から、足りない意味関係の重みを上げる
例えば、「sb」が無ければ「sb」の重みを上げる。
<従来技術のスコア>
(要素5)直前の単語のN−gram(従来通りのN−gramのスコアを考慮する。)
(要素6)入力履歴(直前に確定した候補の優先順位を上げる)
(要素7)距離
例えば、「私と彼が公園で見た」なら、「公園→見た」から続く候補の重みを上げる。
上記の各スコア要素を用いたスコアリングの計算式を例示する。
ベース(必須項目)として、(要素1−1)、(要素1−2)、(要素1−3)、(要素1−4)、(要素1−1)×(要素1−3)、(要素1−1)×(要素1−4)、(要素1−2)×(要素1−3)、(要素1−2)×(要素1−4)の何れかを用いる。
オプション1(任意項目)として、(要素2)を用いる。
オプション2(任意項目)として、(要素3−1)、(要素3−2)、(要素3−1)×(要素3−2)の何れかを用いる。
オプション3(任意項目)として、(要素4−1)、(要素4−2)、(要素4−1)×(要素4−2)の何れかを用いる。
オプション4(任意項目)として、(要素5)を用いる。
オプション5(任意項目)として、(要素6)を用いる。
オプション6(任意項目)として、(要素7)を用いる。
すなわち、各スコア要素に基づいて、スコア=ベース(×オプション1)(×オプション2)(×オプション3)(×オプション4)(×オプション5)(×オプション6)を算出する。
第4のスコアリング例を説明するに先立って、候補としての句点(。)のスコアの調整について説明する。
現在入力中の文が未完成と推定される場合には、候補としての句点(。)のスコアを調整して、句点の提示順を下げる処理を行う。以下では、句点のスコアを調整するにあたり、現在入力中の文について、格(又は意味役割)の有無のチェックと、入力文字数のカウントとを実施し、その結果に応じて句点のスコアを下げる調整について説明する。
図8(a)には、格(又は意味役割)の有無に応じて句点のスコアに乗じる係数p1(1未満)を例示してある。すなわち、該当する格(又は意味役割)の語が現在入力中の文に存在しない場合には、候補として検索された句点のスコアに係数p1を乗じてスコアを減じる。例えば、現在入力中の文が「私と彼が公園で見た」には「ヲ格」が存在しないので、句点のスコアに該当する係数p1(=0.3)を乗じる。各格(又は意味役割)の係数としては、新聞コーパスなどで一文あたり出現する格(又は意味役割)の出現頻度を用いてもよい。具体的には、例えば、一文あたりに「ガ格」が90%以上の確率で存在するなら、現在入力中の文に「ガ格」がない場合は句点のスコアに乗じる係数p1として0.1(=1−0.9)を用いるようにする。
図8(b)には、現在入力中の文の長さ(文字数)に応じて句点のスコアに乗じる係数p2(1未満)を決定する手法を例示してある。本例では、文字数に関する閾値Tと、係数p2の算出式(p2=1−(T−N)/T)とを用いる。なお、係数p2の算出式におけるNは入力文字数であり、入力文字数Nが閾値未満の場合(N<T)の場合に、本算出式を用いて係数p2を算出する。例えば、T=25の場合において、「私と彼が公園で見た」までが入力済みの場合(すなわち、N=9の場合)には、p2=1−(25−9)/25=0.36となる。
図8(c)には、句点のスコアの調整結果を例示してある。すなわち、role(*,null_pro,見る)のスコアは、検索により得られたスコア(=1,055,800)に係数p1(=0.3)と係数p2(=0.36)を乗じた値(=114,026)となり、本来であれば1番目に提示されるところが2番目に下げられている。
第4のスコアリング例について説明する。
本例のスコアリングでは、図9に例示するスコア要素に加え、句点のスコアの調整に係るスコア要素を用いる。
図9(a)は係り関係及び意味役割の関係についてのバイグラムスコア(例えば、コーパスでの出現回数)の例であり、同図(b)は接続元の意味役割の接続頻度(例えば、ユニグラムやパープレキシティ)の例であり、同図(c)は接続元の意味役割の重要度(例えば、tf−idf値)の例であり、同図(d)は単語間の距離(例えば、単語間の距離の逆数)の例である。なお、図9(a)〜(c)では、各関係情報の右側にスコアを示してある。また、図9(d)では、各関係情報の右側に単語間の距離を示してあり、更に右側にスコア(距離の逆数)を示してある。
句点のスコアの調整に係るスコア要素としては、図8(a)を用いて説明した格の有無に関するスコア要素(score1)と、同図(b)を用いて説明した現在入力中の文の長さに関するスコア要素(score2)とを用いる。
そして、図10に例示するように、[バイグラムスコア]×[接続元の意味役割の接続頻度]×[接続元の意味役割の重要度]×[単語間の距離の逆数]の合計値をスコアとして算出する。なお、句点については、[バイグラムスコア]×[接続元の意味役割の接続頻度]×[接続元の意味役割の重要度]×[単語間の距離の逆数]×[score1]×[score2]の合計値をスコアとして算出する。
次に、検索された関係情報(接続先の関係情報)から得られた候補語及び当該関係情報における係り元の語(基準語)の意味役割から候補文を生成し、補完候補として提示する処理について説明する。
例えば、図11に例示するように、「私と彼が公園で見た」について、「role(root,null_pro,見る)」、「role(ob,風景,見る)」、「role(ob,子供,見る)」、「role(ている,犬,見る)」の各関係情報が検索された場合に、「。」、「風景」、「子供」、「犬」の各候補語をそのまま提示するのではなく、例えば、文字入力位置の前の語「見た」を前方に付加した候補文を生成して提示する。なお、候補文の生成については、例えば、その意味役割がどのような文章から生成されたかを調べて統計的に多いものを採用するようにしてもよく、意味役割から一意に文を変換するような定型文や規則を用意するようにしてもよい。また、このとき、関係情報における係り元の語(基準語)の意味役割に応じて、文字入力位置の前の語「見た」を変形させた文字列を付加するようにしてもよい。すなわち、図11の4番目の候補に例示するように、候補語「犬」について、「見た」を該当する意味役割「ている」に合わせて変形した文字列「見ている」を生成し、その後に候補語「犬」を続けた候補文を生成する。
なお、候補語を提示するか、候補文を提示するかは、予め設定しておいてもよく、利用者によりシステムの利用開始時に選択させるようにしてもよく、本システムの利用者や運用形態などに応じて任意に設定することができる。
以上のように、本提案に係る文章入力支援では、作成中の文に含まれる各語の係り関係及び意味役割を構文・意味解析部33により解析した結果に基づいて、補完候補評価部34が、各種スコアDB12を参照して補完入力候補となる候補語を検索すると共に各候補語のスコアを算出し、(必要に応じて、補完候補文生成部35が、補完候補評価部34により得られた候補語に基づいて候補文を生成し)、補完候補提示部36が、検索により得られた候補語(又は候補文)をスコア順に提示するようにしている。
このような構成によれば、例えば、「私と背の低い彼が長閑な公園で見た」といった修飾語が多く含まれる文では、「見た」と係り関係を有する「私」、「彼」、「公園」の各語が「見た」から離れた位置に存在するが、このような場合でも、文字入力位置の前の語からの距離とは無関係に、これらの語を用いた検索を行うことができる。
本提案手法の特徴としては、以下のような特徴が挙げられる。
1.係り関係及び意味役割に対してN−gramモデルや共起情報を利用すること
1.1.語と語の間の関係や意味的な繋がりを重要視して、補完候補を特定できる。
1.2.係り受けを用いるため、参照する語の出現位置(距離)に関係ない。
2.ランキングを行い、複数の候補を統合すること
2.1.複数の係り受けからそれぞれ独立に補完候補が得られ、これらを統合することで文脈(利用者の意図)を考慮した補完候補を提示できる。
2.2.文の長さや格(意味役割)の有無をチェックし、句点(。)のスコアを操作する。
次に、従来手法による文章入力支援と、本提案に係る文章入力支援とを比較する。
図12(a)には従来手法による文章入力支援の様子を例示してあり、同図(b)には本提案に係る文章入力支援の様子を例示してある。
例えば、作成中の文「私と背の低い彼が長閑な公園で見た」について、従来手法では「見」と「た」を用いた検索が行われ、その結果、「。」、「風景」、「子供」の各候補語が提示されているのに対し、本提案手法では、「見(た)」と「私」、「彼」、「公園」との係り関係を用いた検索が行われ、その結果、「た。」、「た風景」、「ている子供」の各候補語が提示されている。このように、本提案手法によれば、文脈を考慮した補完候補の提示が行われる。
次に、単語間の距離に依存しない、共起モデルを使った場合の補完と比較する。
本提案は、以下の2点で共起モデルに対して優位性がある。
(優位性1)共起モデルはインデックスサイズが大きい。
(優位性2)共起モデルは補完候補にゴミ(候補として不適切な語)が多い。
(優位性1)について
例えば、「私と彼が長閑な公園で見た犬はオムツをした子供を追い掛け回していました」の場合、共起モデルでは、「私」、「彼」、「長閑な」、「公園」、「見」、「犬」、「オムツ」、「し」、「子供」、「追い掛け回し」の10個の形態素に基づいてインデックスが作成されることになり、インデックスサイズ=10=(10×9)/(2×1)=45個となる(ちなみに、通常のバイグラムモデルだと21個)。一方、本提案手法では、上記例文における係り受け「私−彼」、「私−公園」、「彼−公園」、「長閑な−公園」、「私−見る」、「彼−見る」、「公園−見る」、「見る−犬」、「オムツ−する」、「オムツ−子供」、「する−子供」、「犬−子供」、「犬−追い掛け回す」、「子供−追いかけまわす」からバイグラムモデルを構築すると、インデックスサイズは14個となる。
(優位性2)について
共起モデルによる補完では、上記の例文をコーパスとしたとき、現在入力中の文が「私と彼が長閑な公園で見た」の場合に、補完候補として、1:「私」、2:「彼」、3:「長閑な」、4:「公園」、5:「見る」、6:「犬」、7:「オムツ」、8:「する」、9:「子供」、10:「追い掛け回す」が提示される。しかしながら、補完候補としては、2、6、9以外は人の目で見て明らかにおかしいと判断できる。なお、「動詞の後に動詞を続けない」などのルールを定めておくことで幾つか除外できるが、どのようなルールを用意するかが非常に難しいという問題がある。一方、本提案手法では、係り受けが無いものは補完候補として提示されないので、「見た」との間で係り関係を有する「私−見る」、「彼−見る」、「公園−見る」、「見る−犬」のうち、「見た」が係り関係にある「見る−犬」に基づいて「犬」が提示されることになる。ここでは、説明のためにコーパスを上記の例文のみとしたので、「子供」が候補から外れてしまっているが、コーパスを充実させることでこの問題はある程度回避することができる。
以上のように、共起モデルによる入力補完は、コーパスを充実させ、共起した回数(頻度)などで重要度を与えることで、補完候補の質を高めることができる。しかしながら、コーパスを充実させれば、当然ながらインデックスサイズは膨大になり、提示される補完候補にゴミ(候補として不適切な語)が大量に表れることになる。また、例えば、入力済みの単語全部と共起するような語を補完候補として提示するとした場合も、補完候補の検討に不適切な単語(上記の例における「長閑な」など)も含んでしまうことから、補完候補にノイズが乗りやすい。一方、本提案手法では、コーパスを充実させてもインデックスサイズを抑えることができ、また、直接関係ない単語を補完候補の検討から外すことができるため、共起モデルによる入力補完と比べてインデックスサイズや質の面で優位性がある。
なお、これまでは日本語の文についての文章入力支援について説明したが、本提案手法は言語非依存であり、構文・意味解析ができる言語であれば、日本語と同様に補完候補を提示できる。
次に、補完候補のロバスト性について説明する。
従来手法におけるN−gramデータの作成方法には次のような課題がある。例えば、図13(a)に例示するように、コーパスとして「私は公園で遊ぶ」と「私は公園で犬と遊ぶ」の2つの文が与えられたとき、バイグラムデータは同図(b)のようになる。すなわち、コーパスのデータはどちらも「公園で遊ぶ」という基本構造を持っているが、2番目の文には「犬と」が入っているため、「公園で」に続く候補語は「遊ぶ」と「犬」が同じ順位で表れることになる。あるべき姿としては、図13(a)のコーパスを利用するなら、「遊ぶ」の方が「犬」よりも優先順位としては高く設定されて欲しい。しかしながら、連続する語の情報を扱うN−gramでは、この課題を解決できない。
一方、本提案手法では、語と語の間の係り受けの情報を利用するため、図13(a)の例において、バイグラムデータは同図(c)のようになる。このため、「公園で」に続く候補語は従来手法と同じ「遊ぶ」と「犬」だが、優先順は「遊ぶ」の方が高く設定される。このように、係り受けの情報を利用することで、語と語の間の距離に関係なくN−gramモデルを構築できるため、従来手法よりも自然文らしい候補を提示することが可能となる。
次に、本提案手法の変形例について説明する。
文章作成において、或る程度文章の書き方(テンプレート)が決まっているような分野においては、よく使われるテンプレートを予め定義することができる。テンプレートを利用することで、これまで説明した提案手法に比べ、より長い文章を一気に入力(補完)することができる。
図14(a)には、これまで説明した提案手法による入力支援の例を概念的に示しており、同図(b)には、テンプレートを用いた入力支援の例を概念的に示している。すなわち、現在入力中の文における文字入力位置の前の語「見(た)」に対する他の語「私」、「彼女」、「公園」との係り関係のパターンに基づいて、その後に続くテンプレートを候補として提示するものである。
図15を参照して具体的に説明する。
図15(a)には、定型的な文が用いられる傾向にある分野(例えば、医療分野)の既存の文に基づいて予め生成されたテンプレートを例示してある。このテンプレートを利用するために、図15(b)に例示するように、各テンプレートを導くパターンを定義する。例えば、テンプレート1の場合、1.1はテンプレート1に出現する意味役割であり、1.2はその意味役割のN−gramである。本例では、一例としてバイグラムモデルを用いている。現在入力中の文が1.1又は1.2のパターンを満たした場合、テンプレート1を補完候補として提示する。なお、パターンを満たしたか否かの判断は、「パターンの完全一致」でも「パターンの一部を含む」でも構わない。以下では、「パターン先頭からの一致」という条件でパターンを満たしたか否かの判断を行う。
まず、現在入力中の文について構文解析及び意味解析を行い、解析結果として得られた係り関係及び意味役割の関係がどのテンプレートに該当するか検索する。例えば、「新薬の投薬は」という文を解析して「role(の,B(投薬),A(新薬))」という関係情報が得られた場合には、テンプレート1とテンプレート2が該当する。この結果、図16に例示するように、テキスト入力部51に表示されている現在作成中の文に対し、その補完候補(本例では、テンプレート1の後半部分)が子ウィンドウ52内に提示されている。その後、利用者により補完候補のテンプレートが選択されると、そのテンプレート(入力済みの部分に続く部分)を現在入力中の文に代入する。このとき、まだ現れていない単語(CやD)については、(1)空欄として利用者に入力を促す、(2)CやDによく入力される単語を自動的に設定する、(3)これまで提案した係り関係や意味役割の関係などのN−gramによる入力補完を行う、などの何れかを用いて設定する。
このような構成によれば、より長い補完候補の提示を行うことができる。また、或る程度、テンプレートや定型文を多用する分野において効果的である。
ここで、上述した文章入力支援システムは、参照情報作成部20として動作する参照情報作成装置と、文章入力支援部30として動作する文章入力支援装置とを別体の装置に設け、参照情報作成装置により作成された辞書を各文章入力支援装置に配布するように構成しているが、これに限定するものではなく、例えば、各文章入力支援装置が参照情報作成装置に保持されている辞書を参照する構成としてもよく、参照情報作成部20と文章入力支援部30とを一体の装置に設けた構成としてもよい。
図17には、本提案に係る文章入力支援システムにおいて、参照情報作成部20として動作する参照情報作成装置のコンピュータ、及び、文章入力支援部30として動作する文章入力支援装置のコンピュータのハードウェア構成を例示してある。
本例のコンピュータは、各種演算処理を行うCPU(Central Processing Unit)61、CPU61の作業領域となるRAM(Random Access Memory)62や基本的な制御プログラムを記録したROM(Read Only Memory)63等の主記憶装置、本発明の一実施形態に係るプログラムや各種データを記憶するHDD(Hard Disk Drive)64等の補助記憶装置、各種情報を表示出力するための表示装置及び操作者により入力操作に用いられる操作ボタンやタッチパネル等の入力機器とのインタフェースである入出力I/F65、他の装置との間で有線又は無線により通信を行うインタフェースである通信I/F66、等のハードウェア資源を有している。
そして、本発明の一実施形態に係るプログラムを補助記憶装置64等から読み出してRAM62に展開し、これをCPU61により実行させることで、上述した各機能部をコンピュータ上に実現している。
なお、本発明の一実施形態に係るプログラムは、例えば、当該プログラムを記憶したCD−ROM等の外部記憶媒体から読み込む形式や、通信網等を介して受信する形式などにより、本例に係るコンピュータに設定される。
また、本例のようなソフトウェア構成により各機能部を実現する態様に限られず、それぞれの機能部を専用のハードウェア資源で実現するようにしてもよい。
11:大規模コーパス、 12:各種スコアDB、 20:参照情報作成部、 30:文章入力支援部
21:テキスト取得部、 22:テキスト分割部、 23:構文・意味解析部、 24:各種スコア算出部、
31:テキスト取得部、 32:テキスト分割部、 33:構文・意味解析部、 34:補完候補評価部、 35:補完候補文生成部、 36:補完候補提示部、 37:補完候補挿入部

Claims (10)

  1. コンピュータに、
    利用者による操作入力に基づいて作成中の文を解析して、当該文における文字入力位置の前の語に対する他の語の係り関係を特定する特定機能と、
    既存の文毎にその文に含まれる複数の語について、基準となる基準語と、当該基準語に対する係り関係がある先行語と、当該基準語が係り関係にある後続語とを特定した一連の係り関係を保持する係り受け情報を記憶する記憶手段から、前記特定機能により特定された係り関係に合致する係り関係を基準語と先行語との間で有する係り受け情報における後続語を検索する検索機能と、
    前記検索機能により検索された後続語を利用者に対して提示する提示機能と、
    を実現させるためのプログラム。
  2. 前記係り受け情報には、基準語に対する先行語の意味役割が保持されており、
    前記特定機能は、文字入力位置の前の語に対する他の語の係り関係を特定すると共に、当該他の語の意味役割を特定し、
    前記検索機能は、前記特定機能により特定された係り関係及び意味役割に合致する係り関係及び意味役割を基準語と先行語との間で有する係り受け情報における後続語を検索する、
    ことを特徴とする請求項1に記載のプログラム。
  3. 前記係り受け情報には、先行語及び基準語及び後続語に関する一連の係り関係について、既存の文における一連の係り関係の出現度合が保持されており、
    前記検索機能は、該当する係り受け情報における後続語を検索すると共に、当該係り受け情報における出現度合を検索し、
    前記提示機能は、前記検索機能により検索された後続語を、当該後続語と共に検索された出現度合が高い順に提示する、
    ことを特徴とする請求項1又は請求項2に記載のプログラム。
  4. 前記特定機能は、作成中の文に含まれる各語の格又は意味役割を特定し、
    前記提示機能は、前記検索機能により後続語として句点が検索された場合において、文として存在すべき格又は意味役割の語が作成中の文に存在しない場合には、当該句点に係る出現度合を減じる、
    ことを特徴とする請求項3に記載のプログラム。
  5. 前記提示機能は、前記検索機能により後続語として句点が検索された場合において、入力中の文の文字数が閾値未満の場合には、当該句点に係る出現度合を減じる、
    ことを特徴とする請求項3に記載のプログラム。
  6. 前記係り受け情報には、後続語に対する基準語の意味役割が保持されており、
    前記検索機能は、該当する係り受け情報における後続語を検索すると共に、当該係り受け情報における基準語の意味役割を検索し、
    前記提示機能は、前記検索機能により検索された後続語を、当該後続語と共に検索された意味役割に応じた文字列を前方に付加した態様で提示する、
    ことを特徴とする請求項1乃至請求項5のいずれか1項に記載のプログラム。
  7. コンピュータに、
    既存の文毎にその文を解析して、当該文に含まれる複数の語について、基準となる基準語と、当該基準語に対する係り関係がある先行語と、当該基準語が係り関係にある後続語とを特定する特定機能と、
    利用者による操作入力に基づいて作成中の文において、当該文における文字入力位置の前の語に対する他の語の係り関係に合致する係り関係が先行語との間にある基準語について、当該基準語が係り関係にある後続語を利用者に対して提示する文章入力支援処理のために、前記特定機能により特定された先行語及び基準語及び後続語に関する一連の係り関係を保持する係り受け情報を記憶手段に記憶させる記憶機能と、
    を実現させるためのプログラム。
  8. 既存の文毎にその文を解析して、当該文に含まれる複数の語について、基準となる基準語と、当該基準語に対する係り関係がある先行語と、当該基準語が係り関係にある後続語とを特定する第1特定手段と、前記第1特定手段により特定された先行語及び基準語及び後続語に関する一連の係り関係を保持する係り受け情報を記憶する記憶手段と、を有する参照情報作成部と、
    利用者による操作入力に基づいて作成中の文を解析して、当該文における文字入力位置の前の語に対する他の語の係り関係を特定する第2特定手段と、前記第2特定手段により特定された係り関係に合致する係り関係を基準語と先行語との間で有する係り受け情報における後続語を前記記憶手段から検索する検索手段と、前記検索手段により検索された後続語を利用者に対して提示する提示手段と、を有する文章入力支援部と、
    を備えたことを特徴とする文章入力支援システム。
  9. 利用者による操作入力に基づいて作成中の文を解析して、当該文における文字入力位置の前の語に対する他の語の係り関係を特定する特定手段と、
    既存の文毎にその文に含まれる複数の語について、基準となる基準語と、当該基準語に対する係り関係がある先行語と、当該基準語が係り関係にある後続語とを特定した一連の係り関係を保持する係り受け情報を記憶する記憶手段から、前記特定手段により特定された係り関係に合致する係り関係を基準語と先行語との間で有する係り受け情報における後続語を検索する検索手段と、
    前記検索手段により検索された後続語を利用者に対して提示する提示手段と、
    を備えたことを特徴とする文章入力支援装置。
  10. 既存の文毎にその文を解析して、当該文に含まれる複数の語について、基準となる基準語と、当該基準語に対する係り関係がある先行語と、当該基準語が係り関係にある後続語とを特定する特定手段と、
    利用者による操作入力に基づいて作成中の文において、当該文における文字入力位置の前の語に対する他の語の係り関係に合致する係り関係が先行語との間にある基準語について、当該基準語が係り関係にある後続語を利用者に対して提示する文章入力支援処理のために、前記特定機能により特定された先行語及び基準語及び後続語に関する一連の係り関係を保持する係り受け情報を記憶する記憶手段と、
    を備えたことを特徴とする参照情報作成装置。
JP2011010727A 2011-01-21 2011-01-21 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム Expired - Fee Related JP5553033B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011010727A JP5553033B2 (ja) 2011-01-21 2011-01-21 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011010727A JP5553033B2 (ja) 2011-01-21 2011-01-21 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2012150759A JP2012150759A (ja) 2012-08-09
JP5553033B2 true JP5553033B2 (ja) 2014-07-16

Family

ID=46792931

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011010727A Expired - Fee Related JP5553033B2 (ja) 2011-01-21 2011-01-21 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5553033B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2018190128A1 (ja) 2017-04-11 2020-02-27 ソニー株式会社 情報処理装置および情報処理方法
CN110244860B (zh) * 2018-03-08 2024-02-02 北京搜狗科技发展有限公司 一种输入方法、装置和电子设备
CN114822483A (zh) * 2021-01-19 2022-07-29 美的集团(上海)有限公司 数据增强方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4105841B2 (ja) * 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
JP2007334534A (ja) * 2006-06-14 2007-12-27 Ntt Data Corp 文字列入力装置、文字列入力方法、および、プログラム

Also Published As

Publication number Publication date
JP2012150759A (ja) 2012-08-09

Similar Documents

Publication Publication Date Title
Saggion et al. Automatic text simplification
US10496756B2 (en) Sentence creation system
US8271453B1 (en) Paraphrase acquisition
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
EP0889417A2 (en) Text genre identification
JP6676109B2 (ja) 発話文生成装置とその方法とプログラム
WO2009123260A1 (ja) 共起辞書作成システムおよびスコアリングシステム
JP2007047974A (ja) 情報抽出装置および情報抽出方法
JP6830971B2 (ja) 文章生成のためのデータを生成するシステム及び方法
JP5553033B2 (ja) 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム
Malandrakis et al. Sail: Sentiment analysis using semantic similarity and contrast features
US6973423B1 (en) Article and method of automatically determining text genre using surface features of untagged texts
Gawryjolek Automated annotation and visualization of rhetorical figures
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JP2008233964A (ja) 構文・意味解析結果ランキングモデル作成方法および装置、プログラム並びに記録媒体
Watanabe et al. A latent discriminative model for compositional entailment relation recognition using natural logic
JP2009199280A (ja) 部分構文木プロファイルを用いた類似性検索システム
JP4341077B2 (ja) 文書処理装置、文書処理方法、および、文書処理プログラム
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
RU2635213C1 (ru) Способ суммаризации текста и используемые для его реализации устройство и машиночитаемый носитель информации
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
Pretkalnina et al. Dependency parsing representation effects on the accuracy of semantic applications―an example of an inflective language.
JP4049141B2 (ja) 文書処理装置、文書処理方法、および、文書処理プログラム
Israel et al. Semantic analysis for focused multi-document summarization (fMDS) of text
JP4336404B2 (ja) 情報検索装置及びその方法、コンピュータ可読メモリ

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140513

R150 Certificate of patent or registration of utility model

Ref document number: 5553033

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees