JP5630138B2 - Sentence creation program and sentence creation apparatus - Google Patents
Sentence creation program and sentence creation apparatus Download PDFInfo
- Publication number
- JP5630138B2 JP5630138B2 JP2010180772A JP2010180772A JP5630138B2 JP 5630138 B2 JP5630138 B2 JP 5630138B2 JP 2010180772 A JP2010180772 A JP 2010180772A JP 2010180772 A JP2010180772 A JP 2010180772A JP 5630138 B2 JP5630138 B2 JP 5630138B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- value
- extension
- word
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、文作成プログラム及び文作成装置に関する。 The present invention relates to a sentence creation program and a sentence creation apparatus.
単純な文型の文と語句とが入力されると、その単純な文型の文よりも複雑な構文の文を作成する技術が提案されている。 There has been proposed a technique for creating a sentence having a more complex syntax than a simple sentence type sentence when a simple sentence type sentence and a phrase are input.
これに関連する技術として、特許文献1には、文章の本文が入力されているときに、本文と切り離して入力される修飾文節を受け付け、これらの本文と修飾文節とを構文解析して、修飾文節が修飾可能な候補語句を本文から複数抽出し、修飾文節と最も良く適合する候補語句を被修飾語句として選択し、選択された被修飾語句を修飾するために修飾文節の最適の挿入位置と活用形等を決定して本文中に挿入する文作成装置が開示されている。
As a technology related to this,
本発明の目的は、入力される文字列が文を構成しない場合において、文字列から文を作成する文作成プログラム及び文作成装置を提供することにある。 An object of the present invention is to provide a sentence creation program and a sentence creation apparatus for creating a sentence from a character string when an input character string does not constitute a sentence.
[1]コンピュータを、
文字列を受け付ける受付手段と、
前記受付手段が受け付けた文字列を単語に分割する分割手段と、
前記分割手段が分割した単語を予め定めた方法で拡張して拡張文字列を生成する拡張手段と、
前記拡張手段が用いた前記予め定められた方法に予め対応付けられた意味保存率の値を用いて、前記拡張文字列毎に第1の値を計算し、当該第1の値によって前記拡張手段が拡張した前記拡張文字列の意味と前記受け付けた文字列の意味とが一致する度合いを推定する第1の推定手段と、
前記第1の値に基づいて前記拡張文字列を生成した前記拡張手段が用いた方法の妥当性を評価する評価手段と、
前記評価手段の評価結果に基づいて前記拡張文字列を前記受け付けた文字列から作成された文の候補として出力する出力手段として機能させるための文作成プログラム。
[1]
A receiving means for receiving a character string;
Dividing means for dividing the character string received by the receiving means into words;
Expansion means for expanding the word divided by the dividing means by a predetermined method to generate an extended character string;
A first value is calculated for each extended character string using a value of a semantic preservation rate that is associated in advance with the predetermined method used by the extension means, and the extension means is calculated based on the first value. First estimating means for estimating a degree of coincidence between the meaning of the extended character string expanded by and the meaning of the accepted character string;
An evaluation means for evaluating the validity of the method used by the extension means that generated the extension character string based on the first value;
A sentence creation program for functioning as output means for outputting the extended character string as a sentence candidate created from the accepted character string based on the evaluation result of the evaluation means.
[2]前記拡張手段は、前記予め定められた方法として、前記分割手段が分割した単語の間に対する単語の挿入、前記分割した単語の活用形の変更又は前記分割した単語の同義語への入れ替えを用いて若しくはこれらの予め定められた方法の組み合わせに含まれる複数の予め定められた方法を順番に用いて前記拡張文字列を生成する前記[1]に記載の文作成プログラム。 [2] As the predetermined method, the extension means inserts a word between the words divided by the dividing means, changes the utilization form of the divided words, or replaces the divided words with synonyms. The sentence creation program according to [1], in which the extended character string is generated by using a plurality of predetermined methods included in a combination of these predetermined methods in order.
[3]前記拡張手段は、前記予め定められた方法の組み合わせに用いられる前記予め定められた方法の数又は前記組み合わせの数に上限を定める前記[2]に記載の文作成プログラム。 [3] The sentence creation program according to [2], wherein the expansion unit sets an upper limit on the number of the predetermined methods used for the combination of the predetermined methods or the number of the combinations.
[4]前記第1の推定手段は、前記拡張手段が組み合わせた前記組み合わせに含まれる前記予め定められた方法に予め対応付けられた意味保存率の値をそれぞれ用いて前記第1の値を推定する前記[2]又は[3]に記載の文作成プログラム。 [4] The first estimation means estimates the first value by using each value of the semantic preservation rate previously associated with the predetermined method included in the combination combined by the extension means. The sentence creation program according to [2] or [3].
[5]前記拡張文字列を構文解析して第2の値を計算し、当該第2の値によって前記拡張文字列の構文としての尤もらしさを推定する第2の推定手段としてさらに前記コンピュータを機能させるものであって、
前記評価手段は、前記第1の値及び前記第2の値に基づいて前記拡張文字列を生成した前記拡張手段が用いた方法の妥当性を評価する前記[1]から[4]のいずれかに記載の文作成プログラム。
[ 5 ] The extended character string is parsed to calculate a second value, and the computer is further functioned as second estimation means for estimating the likelihood of the extended character string as the syntax based on the second value. Which
The evaluation means evaluates the validity of the method used by the extension means that generates the extended character string based on the first value and the second value, and any one of [1] to [ 4 ] The sentence creation program described in.
[6]前記拡張文字列と前記文字列との文字数の差又は前記拡張手段が用いた前記拡張する方法の数に基づいて第3の値を計算し、当該第3の値によって前記拡張文字列の編集に要する処理コストを推定する第3の推定手段としてさらに前記コンピュータを機能させるものであって、
前記評価手段は、前記第1の値、前記第2の値及び前記第3の値に基づいて前記拡張文字列を生成した前記拡張手段が用いた方法の妥当性を評価する前記[5]に記載の文作成プログラム。
[ 6 ] A third value is calculated based on a difference in the number of characters between the extended character string and the character string or the number of the extension methods used by the extension means, and the extended character string is calculated based on the third value. And further causing the computer to function as a third estimating means for estimating the processing cost required for the editing,
Said evaluating means, said first value, to [5] to evaluate the validity of the second value and wherein said expansion means is used that generated the extension string based on said third value The sentence creation program described.
[7]前記分割手段は、前記受付手段が受け付けた文字列を単語に分割し、当該分割した単語が予め用意された単語辞書に含まれる単語に一部一致するとき、当該一致した単語で前記分割した単語を置き換える前記[1]から[6]のいずれかに記載の文作成プログラム。 [ 7 ] The dividing unit divides the character string received by the receiving unit into words, and when the divided word partially matches a word included in a word dictionary prepared in advance, The sentence creation program according to any one of [1] to [ 6 ], wherein the divided words are replaced.
[8]文字列を受け付ける受付手段と、
前記受付手段が受け付けた文字列を単語に分割する分割手段と、
前記分割手段が分割した単語を予め定めた方法で拡張して拡張文字列を生成する拡張手段と、
前記拡張手段が用いた前記予め定められた方法に予め対応付けられた意味保存率の値を用いて、前記拡張文字列毎に第1の値を計算し、当該第1の値によって前記拡張手段が拡張した前記拡張文字列の意味と前記受け付けた文字列の意味とが一致する度合いを推定する第1の推定手段と、
前記第1の値に基づいて前記拡張文字列を生成した前記拡張手段が用いた方法の妥当性を評価する評価手段と、
前記評価手段の評価結果に基づいて前記拡張文字列を前記受け付けた文字列から作成された文の候補として出力する出力手段とを有する文作成装置。
[ 8 ] Accepting means for receiving a character string;
Dividing means for dividing the character string received by the receiving means into words;
Expansion means for expanding the word divided by the dividing means by a predetermined method to generate an extended character string;
A first value is calculated for each extended character string using a value of a semantic preservation rate that is associated in advance with the predetermined method used by the extension means, and the extension means is calculated based on the first value. First estimating means for estimating a degree of coincidence between the meaning of the extended character string expanded by and the meaning of the accepted character string;
An evaluation means for evaluating the validity of the method used by the extension means that generated the extension character string based on the first value;
A sentence creation device comprising: output means for outputting the extended character string as a sentence candidate created from the accepted character string based on the evaluation result of the evaluation means.
請求項1又は8に係る発明によれば、入力される文字列が文を構成しない場合において、文字列から文を作成することができる。
According to the invention which concerns on
請求項2に係る発明によれば、予め定められた方法として、分割された単語の間に対する単語の挿入、前記分割された単語の活用形の変更、前記分割された単語の同義語への入れ替え又は及びこれらの組み合わせを用いることができる。
According to the invention according to
請求項3に係る発明によれば、拡張文字列を生成する数に上限を設けることができる。
According to the invention of
請求項4に係る発明によれば、予め定められた方法に基づいて求まる値を用いて第1の値を計算することができる。 According to the fourth aspect of the invention, the first value can be calculated using a value obtained based on a predetermined method.
請求項5に係る発明によれば、構文としての尤もらしさを考慮して前記拡張文字列を生成した前記拡張手段が用いた方法の妥当性を評価することができる。
According to the invention of
請求項6に係る発明によれば、編集に要する処理コストを考慮して前記拡張文字列を生成した前記拡張手段が用いた方法の妥当性を評価することができる。 According to the sixth aspect of the invention, it is possible to evaluate the validity of the method used by the extension means that generates the extension character string in consideration of the processing cost required for editing.
請求項7に係る発明によれば、不完全な単語を受け付けたときにも文字列から文を作成することができる。
According to the seventh aspect of the present invention, a sentence can be created from a character string even when an incomplete word is received.
(文作成装置の構成)
図1は、文作成装置の構成例を示すブロック図である。
(Configuration of sentence creation device)
FIG. 1 is a block diagram illustrating a configuration example of a sentence creation device.
文作成装置1は、CPU等から構成され各部を制御するとともに各種のプログラムを実行する制御部10と、HDD(Hard Disk Drive)やフラッシュメモリ等の記憶媒体から構成され情報を記憶する記憶部11と、キーボードやマウス等の操作部12と、液晶ディスプレイ等の表示部13とを備える。また、文作成装置1は、例えば、パーソナルコンピュータやPDA、携帯電話等の電子機器であり、受け付けた文字列から文を作成するものである。なお、文作成装置1は、操作部12や表示部13を備えないサーバ装置のようなものでもよく、その場合はネットワーク等により接続された端末装置の操作部や表示部がそれらの機能を代替する。
The
制御部10は、後述する文作成プログラム110を実行することで、文字列受付手段100、文字列分割手段101、文字列拡張手段102、意味保存率推定手段103、尤もらしさ推定手段104、拡張文字列評価手段105及び文候補出力手段106等として機能する。
The
文字列受付手段100は、操作部12の操作に応じて入力される文字列をテキスト情報等で受け付けてもよく、予め用意された文字列を取得してもよい。なお、図示しない通信部を介して外部から受け付けるものであってもよい。
The character
文字列分割手段101は、文字列受付手段100が受け付けた文字列を単語等に分割する。文字列分割手段101は、入力された文字列を分割するための具体的な手段として、入力された文字列に含まれるスペース等の特定の記号を認識して分割してもよいし、文字列に形態素解析等を行って分割してもよい。
The character
文字列拡張手段102は、文字列分割手段101によって分割された文字列の各単語の間に対する単語や助詞の挿入、各単語の交換、各単語の活用形の変更、各単語の削除、各単語の順序の変更等の拡張の方法のいずれかを1回又は任意の拡張の方法を組み合わせてそれらの方法を順番に実行して文字列を拡張する。以降、拡張された文字列を「拡張文字列」という。なお、文字列拡張手段102は、拡張の方法を変えて複数の拡張文字列を生成する。また、文字列拡張手段102は、実行する拡張の方法の組み合わせに用いられる方法の数に予め定めた上限値を定めても良いし、拡張の方法の組み合わせの数に上限値を定めても良い。また、後述する拡張文字列全体の意味保存率が予め定めた下限値を下回るまで、一回または任意の拡張の方法を組み合わせてもよい。
The character string expansion means 102 inserts words and particles between words of the character string divided by the character string dividing
意味保存率推定手段103は、文字列拡張手段102が文字列を拡張した結果生成された拡張文字列が入力された文字列に対してどの程度意味を保存しているか、つまり、意味の同一性の程度を示す「意味保存率」を推定する。拡張文字列全体の意味保存率は、後述する意味保存率情報111に基づいて文字列拡張手段102が実行する拡張の方法のそれぞれに予め定量的に定められた意味保存率から計算され、例えば、拡張方法のそれぞれに定められた意味保存率の積から求められる。
The meaning storage
尤もらしさ推定手段104は、拡張文字列がその言語の文として構文がどの程度尤もらしいか示す「尤もらしさ」を推定する。尤もらしさは、確率言語モデルに基づいて計算してもよいし、構文解析器による構文解析に基づいて計算してもよい。本実施の形態においては、bi−gramによる確率言語モデルを用いて計算する。
The
拡張文字列評価手段105は、意味保存率推定手段103が推定した意味保存率及び尤もらしさ推定手段104が推定した尤もらしさに基づいて拡張文字列の評価値を計算する。 The extended character string evaluation means 105 calculates an evaluation value of the extended character string based on the meaning preservation ratio estimated by the meaning preservation ratio estimation means 103 and the likelihood estimated by the likelihood estimation means 104.
文候補出力手段106は、拡張文字列評価手段105によって計算された評価値に基づいて複数の拡張文字列から文候補を出力する。
The sentence
記憶部11は、制御部10を上述した各手段100〜106として動作させる文作成プログラム110と、文字列拡張手段102が文字列を拡張する各方法に予め定められた意味保存率を定義する意味保存率情報111と、文候補出力手段106が出力した文候補情報112とを記憶する。
The storage unit 11 is a
図2は、意味保存率情報111の一例を示す概略図である。
FIG. 2 is a schematic diagram illustrating an example of the semantic
意味保存率情報111は、各拡張方法を識別するための拡張ID欄111aと、各拡張方法の具体的内容を示す拡張方法欄111bと、予め定められた各拡張方法の意味保存率を示す意味保存率欄111cとを有する。
The meaning
(文作成装置の動作)
以下に、文作成装置1の動作例を図1〜図7を参照しつつ、(1)文字列拡張動作、(2)拡張文字列評価動作に分けて説明する。
(Operation of sentence creation device)
Hereinafter, an operation example of the
(1)文字列拡張動作
まず、利用者は、文作成装置1の操作部12を操作して、所望の文字列を入力する。
(1) Character String Expansion Operation First, the user operates the
図7は、文作成装置1の動作例を示すフローチャートである。
FIG. 7 is a flowchart illustrating an operation example of the
文字列受付手段100は、操作部12の操作に応じて入力される文字列をテキスト情報等で受け付ける(S1)。
The character
図3は、文作成装置1に入力された入力文字列を示す概略図である。
FIG. 3 is a schematic diagram showing an input character string input to the
入力文字列100Aは、例えば、「子供 書く 本」という内容であり、「子供」と「書く」と「本」との間には、それぞれスペースが挿入されている。
The
次に、文字列分割手段101は、文字列受付手段100が受け付けた入力文字列100Aを、入力された文字列に含まれるスペースを認識して単語「子供」、「書く」、「本」に分割する(S2)。
Next, the character
図4(a)〜(g)は、文字列分割手段101によって分割された入力文字列100A及び文字列拡張手段102によって拡張された拡張文字列を例示する概略図である。
4A to 4G are schematic diagrams illustrating an input character string 100A divided by the character
図4(a)に示すように、文字列分割手段101によって、入力文字列100Aは、単語101a〜101cに分割される。
As shown in FIG. 4A, the character
次に、文字列拡張手段102は、文字列分割手段101によって分割された入力文字列100Aを拡張する(S3)。拡張する方法は複数存在し、拡張により、例えば、以下に示すような拡張文字列が得られる。
Next, the character
図4(b)に示すように、文字列拡張手段102は、入力文字列100Aの単語101aと101bとの間に「が」である助詞102aを挿入し、拡張文字列100Bを生成する。
As shown in FIG. 4B, the character
図4(c)に示すように、文字列拡張手段102は、入力文字列100Aの単語101aと101bとの間に「が」である助詞102bを挿入するとともに、「書く」である単語101bを活用した「書いた」である単語102cに入れ替えて拡張文字列100Cを生成する。
As shown in FIG. 4 (c), the character string expansion means 102 inserts the
図4(d)に示すように、文字列拡張手段102は、入力文字列100Aの単語101aと101bとの間に「に」である助詞102dを挿入するとともに、「書く」である単語101bを活用した「書いた」である単語102eに入れ替えて拡張文字列100Dを生成する。
As shown in FIG. 4D, the character
図4(e)に示すように、文字列拡張手段102は、入力文字列100Aの単語101aと101bとの間に「が」である助詞102fを挿入し、「書く」である単語101bを活用した「書いた」である単語102gに入れ替えるとともに、「本」である単語101cを同義語「書籍」である単語102hに入れ替えて拡張文字列100Eを生成する。
As shown in FIG. 4 (e), the character
図4(f)に示すように、文字列拡張手段102は、入力文字列100Aの単語101aと101bとの間に「が」である助詞102jを挿入し、「書く」である単語101bを活用した「書いた」である単語102kに入れ替えるとともに、「子供」である単語101aを同義語以外の語「大人」である単語102iに入れ替えて拡張文字列100Fを生成する。
As shown in FIG. 4 (f), the character
図4(g)に示すように、文字列拡張手段102は、入力文字列100Aの単語101aと101bとの間に「が」である助詞102l及び102mを挿入して拡張文字列100Gを生成する。
As shown in FIG. 4G, the character
次に、意味保存率推定手段103は、文字列拡張手段102が文字列を拡張した結果生成された拡張文字列100B〜100Gの入力文字列100Aに対する意味保存率を意味保存率情報111に基づいて推定する(S4)。
Next, the semantic storage
図4(b)に示すように、拡張文字列100Bは、「が」を挿入する方法により入力文字列100Aが拡張されているため、意味保存率情報111の拡張方法欄111bの「自立語以外の語の挿入」に該当し、意味保存率欄111cからα=0.95となる。また、他の方法は用いられていないため、拡張文字列100B全体の意味保存率はA=0.95となる。
As shown in FIG. 4B, since the input character string 100A is expanded by the method of inserting “ga” in the extended character string 100B, “other than independent words” is displayed in the
また、図4(c)に示すように、拡張文字列100Cは、「が」を挿入する方法及び別の活用形へ入れ替える方法により入力文字列100Aが拡張されているため、意味保存率情報111の拡張方法欄111bの「自立語以外の語の挿入」及び「活用後の別の活用形への入れ替え」に該当し、意味保存率欄111cからα=0.95及びα=0.95となる。これらの意味保存率の積から、拡張文字列100C全体の意味保存率はA=0.95×0.95=0.9025となる。
Further, as shown in FIG. 4C, the expanded
以上と同様の計算方法により、拡張文字列100D〜100Gの意味保存率Aが図4(d)〜(g)に示す値に求まる。
By the same calculation method as described above, the semantic preservation rate A of the
次に、尤もらしさ推定手段104は、拡張文字列100B〜100Gが文としてどの程度尤もらしいか示す「尤もらしさ」を推定する(S5)。 Next, the likelihood estimation means 104 estimates “likelihood” indicating how likely the extended character strings 100B to 100G are as sentences (S5).
図5(a)〜(g)は、文字列分割手段101によって分割された入力文字列100A及び文字列拡張手段102によって拡張された拡張文字列の尤もらしさを例示する概略図である。
5A to 5G are schematic diagrams illustrating the likelihood of the input character string 100A divided by the character
尤もらしさβは、bi−gramによる確率言語モデルを用いて計算され、例えば、図5(g)に示すように、拡張文字列100Gの尤もらしさは、「が」が連続して続く不自然な文であるためβ=0.000000001となり、図5(b)〜(f)に示す拡張文字列100B〜100Fの尤もらしさβに比べて小さい値となる。
The likelihood β is calculated using a bilingual probabilistic language model. For example, as shown in FIG. 5G, the likelihood of the
次に、拡張文字列評価手段105は、意味保存率推定手段103が推定した意味保存率A及び尤もらしさ推定手段104が推定した尤もらしさβの積から拡張文字列の評価値Xを計算する(S6)。 Next, the extended character string evaluation means 105 calculates the evaluation value X of the extended character string from the product of the semantic preservation ratio A estimated by the semantic preservation ratio estimation means 103 and the likelihood β estimated by the likelihood estimation means 104 ( S6).
図6は、(a)〜(f)は、拡張文字列評価手段105によって計算された拡張文字列の評価値を例示する概略図である。
FIGS. 6A to 6F are schematic views illustrating the evaluation value of the extended character string calculated by the extended character
図6(a)に示すように、拡張文字列100Bの評価値は、意味保存率A及び尤もらしさβの積から、X=A×β=0.95×0.006=0.0057と計算される。以上と同様の計算方法により、拡張文字列100C〜100Gの評価値が図6(b)〜(f)に示す値に求まる。
As shown in FIG. 6A, the evaluation value of the extended character string 100B is calculated as X = A × β = 0.95 × 0.006 = 0.0005 from the product of the semantic preservation rate A and the likelihood β. Is done. By the same calculation method as described above, the evaluation values of the
文候補出力手段106は、拡張文字列評価手段105によって計算された評価値に基づいて複数の拡張文字列から文候補を出力する(S7)。評価値の大きいものが意味を保存し、文としてより尤もらしいため、文候補出力手段106は、拡張文字列100D、100C、100B、100E、100F、100Gの順で文候補情報112として順位付け等して記憶部11に格納する。
The sentence candidate output means 106 outputs sentence candidates from a plurality of extended character strings based on the evaluation value calculated by the extended character string evaluation means 105 (S7). Since a sentence with a large evaluation value stores a meaning and is more likely as a sentence, the sentence candidate output means 106 ranks the
また、文候補出力手段106は、文候補情報112を評価値の高いものを優先して表示部13に表示してもよい。
Further, the sentence
[他の実施の形態]
なお、本発明は、上記実施の形態に限定されず、本発明の要旨を逸脱しない範囲で種々な変形が可能である。例えば、意味保存率推定手段103による意味保存率の推定は、必ずしも予め与えられた意味保存率情報111によらず、動的に計算してもよい。例えば、文字列拡張手段102の単語の交換に対して、交換前の単語と交換後の単語の類義度を意味保存率の推定値として用いてもよい。ここで、単語間の類義度は、単語に対してその類義語を類義度と共に保管したデータベースを参照したり、単語間の関係を記述したネットワーク構造を持つシソーラスを用いて動的に計算するなどの手段が考えられる。
[Other embodiments]
The present invention is not limited to the above embodiment, and various modifications can be made without departing from the gist of the present invention. For example, the estimation of the semantic preservation ratio by the semantic preservation ratio estimation means 103 may not be necessarily based on the meaning
また、文作成装置1と、入力された文(単語ではない)によって自然文検索を行う自然文検索プログラムとを組み合わせてもよい。利用者は、自然文検索において、キーワードを入力することで、文作成装置1が作成した文候補から利用者が意図する蓋然性の高い文の候補を選択し、自然文を入力することなく自然文検索を実行することができる。
The
また、拡張文字列評価手段105は、意味保存率推定手段103が推定した意味保存率、尤もらしさ推定手段104が推定した尤もらしさに加えて、編集コストに基づいて拡張文字列の評価値を計算してもよい。ここで、「編集コスト」とは、拡張文字列の文字数から拡張前の文字列の文字数を引いた値(ただし、値が負の場合は0とする。)や、実行する拡張の方法の数に基づく値等から求められる。また、先述した文字列拡張手段102が実行する拡張の方法の組み合わせに用いられる方法の数又は拡張の方法の組み合わせの数に定められる上限値を編集コストに基づいて決定してもよい。
The extended character
また、文字列受付手段100が受け付けた文字列が、例えば、「店 コンピュ」のように不完全な単語「コンピュ」を含むものである場合、文字列分割手段101は、「コンピュ」を予め用意した単語辞書に対して前方一致等の検索を行い、検索の結果で一致する単語、例えば、「コンピュータ」等を文字列に含まれる単語として扱い、文字列拡張手段102に出力してもよい。
In addition, when the character string received by the character
また、上記文作成プログラム110をCD−ROM等の記憶媒体に格納して提供することも可能であり、インターネット等のネットワークに接続されているサーバ装置等から装置内の記憶部にダウンロードしてもよい。また、文字列受付手段100、文字列分割手段101、文字列拡張手段102、意味保存率推定手段103、尤もらしさ推定手段104、拡張文字列評価手段105及び文候補出力手段106の一部又は全部をASIC等のハードウェアによって実現してもよい。なお、上記実施の形態の動作説明で示した各ステップは、順序の変更、ステップの省略、追加が可能である。
The
1…文作成装置、10…制御部、11…記憶部、12…操作部、13…表示部、100…文字列受付手段、100A…入力文字列、100B-100G…拡張文字列、101…文字列分割手段、101a-101c…単語、102…文字列振分手段、102a…助詞、102b…助詞、102c…単語、102d…助詞、102e…単語、102f…助詞、102g…単語、102h…単語、102i…単語、102j…助詞、102k…単語、102l…助詞、103…意味保存率推定手段、104…尤もらしさ推定手段、105…拡張文字列評価手段、106…文候補出力手段、110…文作成プログラム、111…意味保存率情報、111a…拡張ID欄、111b…拡張方法欄、111c…意味保存率欄、112…文候補情報
DESCRIPTION OF
Claims (8)
文字列を受け付ける受付手段と、
前記受付手段が受け付けた文字列を単語に分割する分割手段と、
前記分割手段が分割した単語を予め定めた方法で拡張して拡張文字列を生成する拡張手段と、
前記拡張手段が用いた前記予め定められた方法に予め対応付けられた意味保存率の値を用いて、前記拡張文字列毎に第1の値を計算し、当該第1の値によって前記拡張手段が拡張した前記拡張文字列の意味と前記受け付けた文字列の意味とが一致する度合いを推定する第1の推定手段と、
前記第1の値に基づいて前記拡張文字列を生成した前記拡張手段が用いた方法の妥当性を評価する評価手段と、
前記評価手段の評価結果に基づいて前記拡張文字列を前記受け付けた文字列から作成された文の候補として出力する出力手段として機能させるための文作成プログラム。 Computer
A receiving means for receiving a character string;
Dividing means for dividing the character string received by the receiving means into words;
Expansion means for expanding the word divided by the dividing means by a predetermined method to generate an extended character string;
A first value is calculated for each extended character string using a value of a semantic preservation rate that is associated in advance with the predetermined method used by the extension means, and the extension means is calculated based on the first value. First estimating means for estimating a degree of coincidence between the meaning of the extended character string expanded by and the meaning of the accepted character string;
An evaluation means for evaluating the validity of the method used by the extension means that generated the extension character string based on the first value;
A sentence creation program for functioning as output means for outputting the extended character string as a sentence candidate created from the accepted character string based on the evaluation result of the evaluation means.
前記評価手段は、前記第1の値及び前記第2の値に基づいて前記拡張文字列を生成した前記拡張手段が用いた方法の妥当性を評価する請求項1から4のいずれかに記載の文作成プログラム。 Parsing the extended character string to calculate a second value, and further causing the computer to function as second estimating means for estimating the likelihood of the extended character string as a syntax based on the second value. There,
Said evaluating means, as claimed in any one of claims 1 to 4 for evaluating the validity of the first value and wherein said second value said expansion means generates the extension string based on is used Sentence creation program.
前記評価手段は、前記第1の値、前記第2の値及び前記第3の値に基づいて前記拡張文字列を生成した前記拡張手段が用いた方法の妥当性を評価する請求項5に記載の文作成プログラム。 A third value is calculated based on the difference in the number of characters between the extended character string and the character string or the number of the expansion methods used by the expansion means, and the extended character string is edited based on the third value. Further causing the computer to function as a third estimating means for estimating the processing cost required,
It said evaluation means, according to claim 5 for evaluating the validity of the method of the first value, the second value and said extension means generates the extension string based on said third value is used Sentence creation program.
前記受付手段が受け付けた文字列を単語に分割する分割手段と、
前記分割手段が分割した単語を予め定めた方法で拡張して拡張文字列を生成する拡張手段と、
前記拡張手段が用いた前記予め定められた方法に予め対応付けられた意味保存率の値を用いて、前記拡張文字列毎に第1の値を計算し、当該第1の値によって前記拡張手段が拡張した前記拡張文字列の意味と前記受け付けた文字列の意味とが一致する度合いを推定する第1の推定手段と、
前記第1の値に基づいて前記拡張文字列を生成した前記拡張手段が用いた方法の妥当性を評価する評価手段と、
前記評価手段の評価結果に基づいて前記拡張文字列を前記受け付けた文字列から作成された文の候補として出力する出力手段とを有する文作成装置。 A receiving means for receiving a character string;
Dividing means for dividing the character string received by the receiving means into words;
Expansion means for expanding the word divided by the dividing means by a predetermined method to generate an extended character string;
A first value is calculated for each extended character string using a value of a semantic preservation rate that is associated in advance with the predetermined method used by the extension means, and the extension means is calculated based on the first value. First estimating means for estimating a degree of coincidence between the meaning of the extended character string expanded by and the meaning of the accepted character string;
An evaluation means for evaluating the validity of the method used by the extension means that generated the extension character string based on the first value;
A sentence creation device comprising: output means for outputting the extended character string as a sentence candidate created from the accepted character string based on the evaluation result of the evaluation means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010180772A JP5630138B2 (en) | 2010-08-12 | 2010-08-12 | Sentence creation program and sentence creation apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010180772A JP5630138B2 (en) | 2010-08-12 | 2010-08-12 | Sentence creation program and sentence creation apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012042991A JP2012042991A (en) | 2012-03-01 |
JP5630138B2 true JP5630138B2 (en) | 2014-11-26 |
Family
ID=45899271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010180772A Expired - Fee Related JP5630138B2 (en) | 2010-08-12 | 2010-08-12 | Sentence creation program and sentence creation apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5630138B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5763828B1 (en) * | 2014-12-03 | 2015-08-12 | 岡野 武志 | Writing program |
EP3642733A4 (en) * | 2017-07-31 | 2020-07-22 | Beijing Didi Infinity Technology and Development Co., Ltd. | System and method for segmenting a sentence |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2755003B2 (en) * | 1992-01-16 | 1998-05-20 | 三菱電機株式会社 | Duct air conditioner |
JPH09138840A (en) * | 1995-11-15 | 1997-05-27 | Oki Electric Ind Co Ltd | Character recognition device |
JPH1091628A (en) * | 1996-09-11 | 1998-04-10 | Oki Electric Ind Co Ltd | Syntax analysis system |
JP3992348B2 (en) * | 1997-03-21 | 2007-10-17 | 幹雄 山本 | Morphological analysis method and apparatus, and Japanese morphological analysis method and apparatus |
JP3921523B2 (en) * | 2001-12-27 | 2007-05-30 | 独立行政法人情報通信研究機構 | Text generation method and text generation apparatus |
JP4085156B2 (en) * | 2002-03-18 | 2008-05-14 | 独立行政法人情報通信研究機構 | Text generation method and text generation apparatus |
-
2010
- 2010-08-12 JP JP2010180772A patent/JP5630138B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012042991A (en) | 2012-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gupta et al. | Abstractive summarization: An overview of the state of the art | |
KR102268875B1 (en) | System and method for inputting text into electronic devices | |
US9223779B2 (en) | Text segmentation with multiple granularity levels | |
Mairesse et al. | Stochastic language generation in dialogue using factored language models | |
CN103136352B (en) | Text retrieval system based on double-deck semantic analysis | |
CN104636466B (en) | Entity attribute extraction method and system for open webpage | |
KR101136007B1 (en) | System and method for anaylyzing document sentiment | |
JP5403696B2 (en) | Language model generation apparatus, method and program thereof | |
EP3203383A1 (en) | Text generation system | |
JP3921523B2 (en) | Text generation method and text generation apparatus | |
JP2006065387A (en) | Text sentence search device, method, and program | |
JP5630138B2 (en) | Sentence creation program and sentence creation apparatus | |
JP5623380B2 (en) | Error sentence correcting apparatus, error sentence correcting method and program | |
JP2008242612A (en) | Document summarization device, method therefor and program | |
Passarotti et al. | Improvements in parsing the index Thomisticus treebank. revision, combination and a feature model for medieval Latin | |
JPWO2009113289A1 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
JP5326781B2 (en) | Extraction rule creation system, extraction rule creation method, and extraction rule creation program | |
Stehouwer | Statistical language models for alternative sequence selection | |
JP2009176148A (en) | Unknown word determining system, method and program | |
Demir | Context tailoring for text normalization | |
Chen et al. | Semi-supervised dependency parsing | |
Xuan Bach et al. | UDRST: A novel system for unlabeled discourse parsing in the RST framework | |
JP5212725B2 (en) | Electronic book creation support device | |
Bhowmik et al. | Development of A Word Based Spell Checker for Bangla Language | |
WO2016056043A1 (en) | Sentence retrieval method and sentence retrieval system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130724 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140304 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140428 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140909 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140922 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5630138 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |