JP2011248538A - Symbol input support device, symbol input support method and program - Google Patents

Symbol input support device, symbol input support method and program Download PDF

Info

Publication number
JP2011248538A
JP2011248538A JP2010119800A JP2010119800A JP2011248538A JP 2011248538 A JP2011248538 A JP 2011248538A JP 2010119800 A JP2010119800 A JP 2010119800A JP 2010119800 A JP2010119800 A JP 2010119800A JP 2011248538 A JP2011248538 A JP 2011248538A
Authority
JP
Japan
Prior art keywords
symbol
sentence
input
learning
input support
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010119800A
Other languages
Japanese (ja)
Other versions
JP5398638B2 (en
Inventor
Chihiro Yamamoto
千尋 山本
Katsuto Bessho
克人 別所
Toshiro Uchiyama
俊郎 内山
Masashi Uchiyama
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010119800A priority Critical patent/JP5398638B2/en
Publication of JP2011248538A publication Critical patent/JP2011248538A/en
Application granted granted Critical
Publication of JP5398638B2 publication Critical patent/JP5398638B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To automatically perform determination of a symbol in consideration of a content of sentence and insertion of the symbol in consideration of a role and a position following an actual usage, when inserting the symbol such as a pictograph into an input sentence.SOLUTION: A symbol input support device comprises: symbol appearance frequency learning means for calculating co-occurrence word information indicating frequency of appearance of each symbol in the sentences for learning with co-occurence words, context information, and co-occurence information of the symbol and the word in a predetermined dictionary given to each symbol, and storing a calculated result in learning result storage means as a learning result; and inserting symbol selecting means for calculating a sentence feature amount when inserting the symbol at each position of symbol inserting position candidates in input sentences for each insertion target symbol by using the learning result stored in the learning result storage means, specifying the symbol and the inserting position most appropriate to insert based on the sentence feature amount, and storing the symbol and the inserting position in conversion candidates symbol storage means.

Description

本発明は、入力文中へ絵文字等の記号を挿入することを支援する記号入力支援装置、記号入力支援方法、及びプログラムに関するものである。   The present invention relates to a symbol input support device, a symbol input support method, and a program for supporting insertion of symbols such as pictographs in an input sentence.

イラスト風の記号文字(絵文字)を、文中で簡単に入力できるようにした携帯電話機やパソコンなどの文字入力装置が従来からある。   2. Description of the Related Art Conventionally, a character input device such as a mobile phone or a personal computer that can easily input an illustration-like symbol character (pictogram) in a sentence.

例えば特許文献1には、「です」や「ます」といった特定の文末文字列が入力されると、文末文字列に続く可能性が高い絵文字や句点などの文字列候補を自動的に挿入することによって文末文字の入力の手間を省く文字入力装置が開示されている。   For example, Patent Document 1 automatically inserts character string candidates such as pictographs and punctuation that are likely to follow the end-of-sentence character string when a specific end-of-sentence character string such as “is” or “mas” is input. Discloses a character input device that saves the trouble of inputting sentence end characters.

また、特許文献2には、絵文字と所定の文字列とを関連づける記憶部を持ち、入力文字列中の所定の文字列を、記憶部に登録されている特定の絵文字に変換することによって絵文字を自動的に挿入し、絵文字入力の手間を省く携帯端末装置が開示されている。   Further, Patent Document 2 has a storage unit that associates a pictograph with a predetermined character string, and converts the predetermined character string in the input character string into a specific pictogram registered in the storage unit, thereby converting the pictograph. A mobile terminal device that automatically inserts and saves the trouble of inputting pictograms is disclosed.

特開2006-331066号公報JP 2006-331066 特開2010-15221号公報JP 2010-15221 A

しかしながら、文末文字の入力支援に特化した特許文献1に記載された技術では、文章の内容を考慮しない絵文字が入力候補として表示される可能性がある。また、絵文字の挿入位置についても文末のみへの挿入になり、文中で用いられることもある絵文字の実際の使用方法に即さない可能性がある。   However, in the technique described in Patent Document 1 specializing in input support for sentence end characters, there is a possibility that pictograms that do not take into account the content of sentences are displayed as input candidates. Further, the insertion position of the pictogram is also inserted only at the end of the sentence, and there is a possibility that the pictogram may not be used according to the actual usage of the pictogram that may be used in the sentence.

特許文献2に記載された技術では、文中に出現する記憶部に登録してある単語の後ろに絵文字を挿入するため、単語の代わりや文末に出現する絵文字の実際の使用方法に即さない可能性がある。また、単語とのマッチングで挿入を行うため、文章の一部の内容は考慮されているものの、文章全体の内容は考慮されていない。   In the technique described in Patent Document 2, since the pictogram is inserted after the word registered in the storage unit that appears in the sentence, it may not be in accordance with the actual usage of the pictogram appearing instead of the word or at the end of the sentence There is sex. In addition, since the insertion is performed by matching with a word, the contents of a part of the sentence are taken into consideration, but the contents of the whole sentence are not taken into consideration.

本発明は、上記の問題点に鑑みてなされたものであり、入力文中へ絵文字等の記号を挿入する際に、文の内容を考慮した記号を決定し、実際の使用方法に沿った役割と位置を考慮した記号の挿入を、自動的に行う技術を提供することを目的とする。   The present invention has been made in view of the above problems, and when inserting a symbol such as a pictogram into an input sentence, the symbol is determined in consideration of the content of the sentence, and the role in accordance with the actual usage method It is an object of the present invention to provide a technique for automatically inserting symbols in consideration of positions.

上記の課題を解決するために、本発明は、入力文に記号を挿入するための記号入力支援装置であって、学習用の文中の各記号について、共起する単語との出現頻度を表す共起単語情報と、コンテクスト情報と、当該記号と記号ごとに与えられた所定の辞書中の語との共起情報とを算出し、算出結果を学習結果として学習結果格納手段に格納する記号出現頻度学習手段と、前記入力文中における記号挿入位置候補の位置ごとに、挿入対象である各記号について、前記学習結果格納手段に格納された前記学習結果を用いて、前記記号挿入位置候補の各位置に記号を挿入した場合における文特徴量を算出し、当該文特徴量に基づき、挿入に最も適した記号と挿入位置を特定し、当該記号と挿入位置とを変換候補記号格納手段に格納する挿入記号選定手段と、を備えたことを特徴とする記号入力支援装置として構成される。   In order to solve the above problems, the present invention is a symbol input support device for inserting a symbol into an input sentence, and for each symbol in a sentence for learning, a symbol representing the frequency of appearance with a co-occurring word. Symbol appearance frequency for calculating word occurrence information, context information, and co-occurrence information of the symbol and a word in a predetermined dictionary given for each symbol, and storing the calculation result as a learning result in the learning result storage means For each symbol to be inserted for each position of the learning means and the symbol insertion position candidate in the input sentence, the learning result stored in the learning result storage means is used for each position of the symbol insertion position candidate. An inserted symbol that calculates a sentence feature when a symbol is inserted, identifies a symbol and an insertion position most suitable for insertion based on the sentence feature, and stores the symbol and the insertion position in the conversion candidate symbol storage unit Selection Configured as a symbol input support apparatus characterized by comprising: a stage, a.

前記挿入記号選定手段は、前記入力文において前記記号挿入位置候補の位置に記号が挿入された場合における、共起単語情報、コンテクスト情報、前記所定の辞書中の語との共起情報を、前記学習結果を用いて求め、これらの情報に基づく記号出現確率を前記文特徴量として算出するよう構成することができる。
また、前記記号入力支援装置は、前記挿入記号選定手段により特定された記号と挿入位置とを用いて、前記入力文に記号を挿入する文字列変換手段を更に備えるようにしてもよい。
The inserted symbol selection means includes co-occurrence word information, context information, and co-occurrence information with words in the predetermined dictionary when a symbol is inserted at the position of the symbol insertion position candidate in the input sentence. It is possible to obtain the symbol appearance probability based on the learning result as the sentence feature amount.
The symbol input support device may further include a character string conversion unit that inserts a symbol into the input sentence using the symbol specified by the insertion symbol selection unit and the insertion position.

前記文字列変換手段は、前記挿入記号選定手段により、複数の同一の記号が特定された場合において、当該複数の同一の記号に対応するそれぞれの文特徴量に基づいて、当該複数の同一の記号のうちの1つの記号を選択し、当該記号を、前記入力文における当該記号に対応する挿入位置に挿入するように構成できる。   When the plurality of identical symbols are specified by the insertion symbol selecting means, the character string converting means is configured to use the plurality of identical symbols based on the sentence feature amounts corresponding to the plurality of identical symbols. The symbol can be selected and the symbol can be inserted at the insertion position corresponding to the symbol in the input sentence.

また、本発明は、上記記号入力支援装置における各処理に対応する各ステップを備えた記号入力支援方法として構成してもよい。また、本発明は、上記記号入力支援方法における各ステップを実行させるためのプログラムとして構成してもよい。   The present invention may also be configured as a symbol input support method including steps corresponding to each process in the symbol input support device. Further, the present invention may be configured as a program for executing each step in the symbol input support method.

本発明によれば、入力文中へ絵文字等の記号を挿入する際に、文の内容を考慮した記号を決定し、実際の使用方法に沿った役割と位置を考慮した記号の挿入を、自動的に行うことが可能となる。   According to the present invention, when a symbol such as a pictograph is inserted into an input sentence, the symbol is determined in consideration of the contents of the sentence, and the insertion of the symbol in consideration of the role and position in accordance with the actual usage is automatically performed. Can be performed.

本発明の実施の形態における記号入力支援装置10の機能構成図である。It is a functional block diagram of the symbol input assistance apparatus 10 in embodiment of this invention. 記号一覧の一例を示す図である。It is a figure which shows an example of a symbol list. テキスト集合の一例を示す図である。It is a figure which shows an example of a text set. 語義辞書の一例を示す図である。It is a figure which shows an example of a meaning dictionary. 記号入力支援装置10の動作の概要を説明するためのフローチャートである。4 is a flowchart for explaining an outline of the operation of the symbol input support device 10. 記号出現頻度学習部3の動作を説明するためのフローチャートである。4 is a flowchart for explaining an operation of a symbol appearance frequency learning unit 3; 共起する単語と、共起関係の算出結果の例を示す図である。It is a figure which shows the example of the co-occurrence word and the calculation result of co-occurrence relation. 左右の語との共起関係の算出結果の例を示す図である。It is a figure which shows the example of the calculation result of co-occurrence relation with a right and left word. 左右の品詞ごとの共起関係の算出結果の例を示す図である。It is a figure which shows the example of the calculation result of the co-occurrence relationship for every part of speech of right and left. 挿入記号選定部4の動作を説明するためのフローチャートである。5 is a flowchart for explaining the operation of an insertion symbol selection unit 4; 形態素間を記号挿入位置候補とした場合の記号挿入位置候補の例を示す図である。It is a figure which shows the example of the symbol insertion position candidate when making between morphemes a symbol insertion position candidate. 内容語形態素を記号挿入位置候補とした場合の記号挿入位置候補の例を示す図である。It is a figure which shows the example of a symbol insertion position candidate when a content word morpheme is made into a symbol insertion position candidate. 挿入記号選定部4が実行する形態素区切りごとの記号特定処理を説明するためのフローチャートである。It is a flowchart for demonstrating the symbol specific process for every morpheme division | segmentation which the insertion symbol selection part 4 performs. 挿入記号選定部4が実行する内容語形態素ごとの記号特定処理を説明するためのフローチャートである。It is a flowchart for demonstrating the symbol specific process for every content word morpheme which the insertion symbol selection part 4 performs. 文字列変換部5の動作を説明するためのフローチャートである。4 is a flowchart for explaining the operation of a character string conversion unit 5;

以下、図面とともに本発明の実施の形態の一例を説明する。   Hereinafter, an example of an embodiment of the present invention will be described with reference to the drawings.

(装置構成)
図1は本発明の実施の形態における、入力された文字列の適切な位置に文脈に沿った記号を挿入する記号入力支援装置10の機能構成図を示す。
(Device configuration)
FIG. 1 shows a functional block diagram of a symbol input support device 10 for inserting a symbol in accordance with a context at an appropriate position of an inputted character string in the embodiment of the present invention.

図1に示すように、記号入力支援装置10は、入力部1、出力部2、記号出現頻度学習部3、挿入記号選定部4、文字列変換部5、学習用データ格納部6、学習結果格納部7、語義辞書格納部8、及び変換候補記号格納部9を備える。   As shown in FIG. 1, the symbol input support apparatus 10 includes an input unit 1, an output unit 2, a symbol appearance frequency learning unit 3, an insertion symbol selection unit 4, a character string conversion unit 5, a learning data storage unit 6, and a learning result. A storage unit 7, a meaning dictionary storage unit 8, and a conversion candidate symbol storage unit 9 are provided.

入力部1は、記号を挿入する対象となる文(文字列)を入力するための機能部である。出力部2は、記号が挿入された文を出力するための機能部である。記号出現頻度学習部3は、学習用データ格納部6に格納された学習用データを用いて、記号と他の語との共起関係等を学習し、学習結果を学習結果格納部7に格納する機能部である。挿入記号選定部4は、学習結果を利用して、入力文に挿入する記号と挿入位置を特定する機能部である。文字列変換部5は、挿入記号選定部4により特定された記号と挿入位置に基づいて、入力文中に記号を挿入し、記号が挿入された文を出力部2を介して出力する機能部である。   The input unit 1 is a functional unit for inputting a sentence (character string) to be inserted with a symbol. The output unit 2 is a functional unit for outputting a sentence in which a symbol is inserted. The symbol appearance frequency learning unit 3 uses the learning data stored in the learning data storage unit 6 to learn the co-occurrence relationship between symbols and other words, and stores the learning result in the learning result storage unit 7. It is a functional part to do. The insertion symbol selection unit 4 is a functional unit that specifies a symbol to be inserted into an input sentence and an insertion position using a learning result. The character string conversion unit 5 is a functional unit that inserts a symbol into the input sentence based on the symbol specified by the insertion symbol selection unit 4 and the insertion position, and outputs the sentence with the symbol inserted via the output unit 2. is there.

学習用データ格納部6は、学習用データとしてテキスト集合、及び記号一覧を格納している。図2に、記号一覧の例を示す。図2に示すように、本実施の形態で使用する記号は、携帯電話機等から入力可能な絵文字である。もちろん、記号として絵文字以外を用いることも可能である。また、テキスト集合は、一文中に記号一覧における記号を含むテキストの集合である。テキスト集合の例を図3に示す。   The learning data storage unit 6 stores a text set and a symbol list as learning data. FIG. 2 shows an example of a symbol list. As shown in FIG. 2, symbols used in this embodiment are pictographs that can be input from a mobile phone or the like. Of course, it is possible to use symbols other than pictograms. The text set is a set of texts including symbols in the symbol list in one sentence. An example of a text set is shown in FIG.

学習結果格納部7は、記号出現頻度学習部3による学習結果を格納する。語義辞書格納部8は、語義辞書を格納する。語義辞書は、記号が含まれる文と、記号が持つ語義との関係を算出する際に用いる辞書であり、記号と、記号を表す言語表現(語)との対の集合からなる。図4に語義辞書の一例を示す。変換候補記号格納部9は、記号挿入位置候補毎の挿入対象記号が格納される。   The learning result storage unit 7 stores the learning result by the symbol appearance frequency learning unit 3. The meaning dictionary storage unit 8 stores a meaning dictionary. The semantic dictionary is a dictionary used when calculating the relationship between a sentence including a symbol and the semantic meaning of the symbol, and includes a set of pairs of a symbol and a linguistic expression (word) representing the symbol. FIG. 4 shows an example of the meaning dictionary. The conversion candidate symbol storage unit 9 stores insertion target symbols for each symbol insertion position candidate.

なお、記号入力支援装置10において、記号出現頻度学習部3を備えない構成とすることもできる。この場合、別の装置で学習を行い、学習結果を学習結果格納部7に格納する。また、記号入力支援装置10において、文字列変換部5を備えない構成とすることもできる。この場合、例えば、挿入記号選定部4による処理結果と入力文を、文字列変換部5を備える別の装置に送信し、当該別の装置で入力文への記号挿入を行い、出力を行う。   Note that the symbol input support device 10 may be configured not to include the symbol appearance frequency learning unit 3. In this case, learning is performed by another device, and the learning result is stored in the learning result storage unit 7. Further, the symbol input support device 10 may be configured not to include the character string conversion unit 5. In this case, for example, the processing result by the insertion symbol selection unit 4 and the input sentence are transmitted to another device including the character string conversion unit 5, and the symbol is inserted into the input sentence and output by the other device.

(動作概要)
以下、図5に示すフローチャートを参照して、図1の構成を有する記号入力支援装置10の動作の概要を説明する。
(Overview of operation)
The outline of the operation of the symbol input support device 10 having the configuration of FIG. 1 will be described below with reference to the flowchart shown in FIG.

ステップ11)まず、記号出現頻度学習部3が、学習用データ格納部6に格納されたテキスト集合と記号一覧を用いて、テキストに含まれる記号と単語との共起情報である共起単語情報、該記号がどのようなコンテクストによって出現したかを表すコンテクスト情報、該記号と記号ごとに与えられた語義辞書中の語との共起情報を算出し、算出した結果を学習結果格納部7に格納する。   Step 11) First, the symbol appearance frequency learning unit 3 uses the text set and symbol list stored in the learning data storage unit 6 to generate co-occurrence word information that is co-occurrence information of symbols and words included in the text. Context information indicating what kind of context the symbol has appeared, co-occurrence information between the symbol and the word in the semantic dictionary given for each symbol, and the calculated result in the learning result storage unit 7 Store.

ステップ12)次に、挿入記号選定部4が、入力文中の各記号挿入位置候補における、共起単語情報、コンテクスト情報、語義辞書中の語との共起情報を用い、該記号ごとに、学習結果格納部7に格納されたコンテクスト情報、出現単語情報の共起情報を参照し、各記号挿入位置候補における最も適切な記号と挿入位置を特定し、処理結果を変換候補記号格納部9に格納する。   Step 12) Next, the insertion symbol selection unit 4 uses the co-occurrence word information, context information, and co-occurrence information with words in the meaning dictionary at each symbol insertion position candidate in the input sentence, and learns for each symbol. Referring to the context information and co-occurrence information of the appearance word information stored in the result storage unit 7, the most appropriate symbol and insertion position in each symbol insertion position candidate are specified, and the processing result is stored in the conversion candidate symbol storage unit 9 To do.

ステップ13)文字列変換部5が、ステップ12で選定された記号と挿入位置に基づいて、入力文に記号を挿入し、記号を挿入した文を出力部2を介して出力する。   Step 13) The character string converter 5 inserts a symbol into the input sentence based on the symbol selected at step 12 and the insertion position, and outputs the sentence with the symbol inserted via the output unit 2.

(記号出現頻度学習部3の動作詳細)
次に、記号出現頻度学習部3の処理動作について詳細に説明する。
記号出現頻度学習部3は、学習用データ格納部6に格納された記号一覧の記号を含むテキスト集合を用いて学習を行うことにより、与えられた入力文の最適な位置に、文脈に沿った記号を挿入するためのモデルを学習結果として生成する。この学習では、テキスト集合に出現する記号一覧の記号それぞれについて、単語との共起情報、該記号がどのようなコンテクストによって出現したかというコンテクスト情報、該記号と記号ごとに与えられた語義辞書中の語との共起情報を算出し、算出結果を学習結果格納部7に格納する。
(Details of operation of the symbol appearance frequency learning unit 3)
Next, the processing operation of the symbol appearance frequency learning unit 3 will be described in detail.
The symbol appearance frequency learning unit 3 performs learning using a text set including symbols in the symbol list stored in the learning data storage unit 6, so that the optimum position of the given input sentence is aligned with the context. A model for inserting symbols is generated as a learning result. In this learning, for each symbol of the symbol list appearing in the text set, co-occurrence information with the word, context information about what context the symbol appeared in, and the semantic dictionary given for each symbol and symbol The co-occurrence information with the word is calculated and the calculation result is stored in the learning result storage unit 7.

本実施の形態において、記号出現頻度学習部3は、学習の手法としてNaive Bayes法を用いている。以下、Naive Bayes法について説明する。   In the present embodiment, the symbol appearance frequency learning unit 3 uses the Naive Bayes method as a learning method. Hereinafter, the Naive Bayes method will be described.

ある事例xが要素ベクトルとして以下のように表されるとする。   A case x is expressed as an element vector as follows.

Figure 2011248538
xの分類先のクラスを以下とする。
Figure 2011248538
The class to which x is classified is as follows.

Figure 2011248538
与えられた事例について、適した記号を決定するためには、P(ci|x)を最大にするciを求めればよい。ベイズの定理から、
Figure 2011248538
To determine a suitable symbol for a given case, we need to find c i that maximizes P (c i | x). From Bayes' theorem,

Figure 2011248538
より、P(ci)P(x|ci)を最大にするciを求めればよい。ここで、
Figure 2011248538
Thus, it is only necessary to obtain c i that maximizes P (c i ) P (x | c i ). here,

Figure 2011248538
と仮定してP(x|ci)の計算を行うことにより、求めるciは、下記の式(5)と表される。
Figure 2011248538
Assuming P with | by the calculation of (x c i), it is c i ask, denoted by the following equation (5).

Figure 2011248538
本発明の実施の形態では、事例xを入力文、事例xにおける要素ベクトルの各ベクトルを、記号とほかの単語との共起情報、該記号がどのようなコンテクストによって出現したかというコンテクスト情報、該記号と記号ごとに与えられた語義辞書中の語との共起情報とし、分類先クラスを、事例xに挿入される各記号として、本手法に適用する。
Figure 2011248538
In the embodiment of the present invention, case x is an input sentence, each vector of element vectors in case x is co-occurrence information of a symbol and another word, context information indicating what context the symbol appears in, The co-occurrence information between the symbol and the word in the semantic dictionary given for each symbol is used, and the classification destination class is applied to the present method as each symbol inserted into the case x.

記号出現頻度学習部3が実行する学習では、要素ベクトルの各ベクトル要素であるP(x|ci)を学習する。以下、記号出現頻度学習部3が実行する処理を、図6のフローチャートに沿って説明する。 In the learning performed by the symbol appearance frequency learning unit 3, P (x | c i ) that is each vector element of the element vector is learned. Hereinafter, the process performed by the symbol appearance frequency learning unit 3 will be described with reference to the flowchart of FIG.

ステップ21)ステップ21では、共起単語の重要度算出処理を行う。すなわち、記号出現頻度学習部3は、学習データ格納部6から、テキスト集合と記号一覧を読み出し、テキスト集合に出現する、記号一覧の記号ごとに、該記号と共起する全ての単語との共起頻度を抽出し、該記号と単語との共起関係(重要度に相当)を算出し、算出結果を学習結果格納部7に格納する。共起関係の算出方法は以下の式(6)に示すとおりである。   Step 21) In step 21, a co-occurrence word importance calculation process is performed. That is, the symbol appearance frequency learning unit 3 reads the text set and the symbol list from the learning data storage unit 6, and for each symbol of the symbol list that appears in the text set, the symbol appearance frequency learning unit 3 shares all the words that co-occur with the symbol. The occurrence frequency is extracted, the co-occurrence relationship (corresponding to the importance) between the symbol and the word is calculated, and the calculation result is stored in the learning result storage unit 7. The calculation method of the co-occurrence relationship is as shown in the following formula (6).

式(6) P(単語|記号i)
図7に、共起する単語と、共起関係の算出結果の例を示す。例えば、図7において、IDが1の欄の記号と単語(送る)の共起関係は、上記式の算出結果としての確率(3/1000)として表されている。
Formula (6) P (word | symbol i )
FIG. 7 shows examples of co-occurrence words and co-occurrence relationship calculation results. For example, in FIG. 7, the co-occurrence relationship between the symbol in the column whose ID is 1 and the word (send) is expressed as the probability (3/1000) as the calculation result of the above formula.

ステップ22)ステップ22では、文脈の重要度算出を行う。ここでは、記号出現頻度学習部3は、テキスト集合に出現する、記号一覧の記号ごとに、出現箇所の左右のコンテクスト情報(語、品詞)との共起頻度を抽出し、該記号とコンテクストとの共起関係を算出し、算出結果を学習結果格納部7に格納する。共起関係の算出方法は以下の式(7)に示すとおりである。   Step 22) In step 22, context importance is calculated. Here, the symbol appearance frequency learning unit 3 extracts the co-occurrence frequency of the left and right context information (word, part of speech) of the appearance location for each symbol of the symbol list that appears in the text set, and the symbol and context And the calculated result is stored in the learning result storage unit 7. The calculation method of the co-occurrence relationship is as shown in the following formula (7).

式(7) P(コンテクスト|記号i)
図8に、左右の語との共起関係の算出結果の例を示し、図9に、左右の品詞ごとの共起関係の算出結果の例を示す。
Formula (7) P (context | symbol i )
FIG. 8 shows an example of the calculation result of the co-occurrence relationship with the left and right words, and FIG. 9 shows an example of the calculation result of the co-occurrence relationship for each part of speech.

ステップ23)ステップ23では、語義辞書との距離の算出を行う。つまり、記号出現頻度学習部3は、語義辞書を参照することにより、テキスト集合に出現する、記号一覧の記号ごとに、記号ごとに与えられた語義辞書(図4)中の語との共起情報を算出し、算出結果を学習結果格納部7に格納する。共起関係の算出方法は、以下の式(8)に示すとおりである。   Step 23) In step 23, the distance from the semantic dictionary is calculated. In other words, the symbol appearance frequency learning unit 3 refers to the meaning dictionary, so that each symbol of the symbol list that appears in the text set is co-occurrence with a word in the meaning dictionary (FIG. 4) given for each symbol. Information is calculated, and the calculation result is stored in the learning result storage unit 7. The calculation method of the co-occurrence relationship is as shown in the following formula (8).

式(8) P(辞書中の語|記号i)
(挿入記号選定部4の動作詳細)
次に、挿入記号選定部4の処理動作を詳細に説明する。
Formula (8) P (word in dictionary | symbol i )
(Details of operation of insertion symbol selection unit 4)
Next, the processing operation of the insertion symbol selection unit 4 will be described in detail.

挿入記号選定部4は、入力文中の各記号挿入位置候補における、共起単語情報、コンテクスト情報、語義辞書中の語との共起情報を用い、学習結果格納部7に格納されている学習結果に基づいて、該記号挿入位置候補において、記号一覧の記号のうち最も適切な挿入候補記号を特定する。本実施の形態において、記号挿入位置候補は、入力文について形態素解析を行った結果のうち、全ての形態素間と、内容語である形態素部分としている。以下、挿入記号選定部4が実行する処理を、図10のフローチャートに沿って説明する。   The inserted symbol selection unit 4 uses the co-occurrence word information, the context information, and the co-occurrence information with the words in the meaning dictionary in each symbol insertion position candidate in the input sentence, and the learning result stored in the learning result storage unit 7 Based on the above, in the symbol insertion position candidate, the most appropriate insertion candidate symbol among the symbols in the symbol list is specified. In the present embodiment, the symbol insertion position candidates are all morpheme parts and morpheme parts that are content words in the result of the morphological analysis of the input sentence. Hereinafter, the processing executed by the insertion symbol selection unit 4 will be described with reference to the flowchart of FIG.

ステップ31)挿入記号選定部4は、入力部1から入力された入力文の形態素解析を行う。   Step 31) The insertion symbol selection unit 4 performs morphological analysis of the input sentence input from the input unit 1.

ステップ32)次に、挿入記号選定部4は、形態素区切りごとの記号特定処理を行う。すなわち、挿入記号選定部4は、ステップ31で形態素解析された全ての形態素間を記号挿入位置候補として、該記号挿入位置候補における共起単語情報、コンテクスト情報、記号辞書中の語との共起情報を用い、学習結果格納部7に格納された学習結果に基づいて、記号一覧の記号のうち、挿入に最も適切な記号を特定する。図11に、入力文における記号挿入位置候補の例を示す。図11中、矢印で示された部分が記号挿入位置候補である。   Step 32) Next, the inserted symbol selection unit 4 performs a symbol specifying process for each morpheme break. In other words, the insertion symbol selection unit 4 uses all morphemes analyzed in step 31 as symbol insertion position candidates, and co-occurrence with co-occurrence word information, context information, and words in the symbol dictionary in the symbol insertion position candidates. Based on the learning result stored in the learning result storage unit 7 using the information, the most appropriate symbol for insertion is specified from the symbols in the symbol list. FIG. 11 shows an example of symbol insertion position candidates in the input sentence. In FIG. 11, a portion indicated by an arrow is a symbol insertion position candidate.

ステップ33)ここでは、内容語形態素ごとの記号特定処理を行う。すなわち、挿入記号選定部4は、ステップ31で形態素解析された形態素のうち内容語である形態素部分を、記号挿入位置候補として、該記号挿入位置候補におけるコンテクスト情報、共起単語情報、記号辞書中の語との共起情報を用い、学習結果格納部7に格納された学習結果に基づいて、記号一覧の記号のうち、挿入に最も適切な記号を特定する。図12に記号挿入位置候補の例を示す。   Step 33) Here, a symbol specifying process is performed for each content word morpheme. That is, the inserted symbol selection unit 4 uses the morpheme that is the content word among the morphemes analyzed in step 31 as the symbol insertion position candidate, and includes context information, co-occurrence word information, and symbol dictionary in the symbol insertion position candidate. Based on the learning result stored in the learning result storage unit 7, the most appropriate symbol for insertion is specified from the symbols in the symbol list. FIG. 12 shows an example of symbol insertion position candidates.

(形態素区切りごとの記号特定処理の詳細)
以下、図13のフローチャートに沿って、挿入記号選定部4が実行する形態素区切りごとの記号特定処理(図10のステップ32)をより詳細に説明する。
(Details of symbol identification processing for each morpheme break)
Hereinafter, the symbol specifying process (step 32 in FIG. 10) for each morpheme segment performed by the insertion symbol selection unit 4 will be described in more detail with reference to the flowchart in FIG.

ここでは、入力文の全ての形態素間を、記号入力位置候補とし、該記号入力位置候補における共起単語情報、コンテクスト情報、記号辞書中の語との共起情報を用い、学習結果格納部7に格納された学習結果に基づいて、記号一覧の記号のうち、挿入に最も適切な記号と挿入位置を特定する。このように、形態素解析された全ての形態素間を記号挿入位置候補とすることで、文末や、形態素間で用いられる記号の使われ方に沿った記号の特定を行う。   Here, all morphemes of the input sentence are set as symbol input position candidates, and the co-occurrence word information, the context information, and the co-occurrence information with words in the symbol dictionary in the symbol input position candidates are used, and the learning result storage unit 7 The most appropriate symbol for insertion and the insertion position among the symbols in the symbol list are specified based on the learning result stored in the table. In this way, by identifying all morpheme analyzed as morpheme candidates as symbol insertion position candidates, it is possible to specify a symbol along the end of a sentence or the way the symbols used between morphemes are used.

ステップ41)挿入記号選定部4は、図10のステップ31で形態素解析された入力文における全ての形態素間を、記号入力位置候補として抽出する。
ステップ42) 挿入記号選定部4は、特定の記号入力位置候補に、記号一覧中の各記号(c1, c2, c3, ..., cj)が挿入された場合の、共起単語情報、コンテクスト情報、記号辞書中の語との共起情報を、学習結果格納部7に格納された学習結果を用いて算出し、該記号が入力文に挿入された場合の文特徴量を記号ごとに算出する。算出方法は、式(9)のとおりであり、文特徴量は記号の出現確率として算出される。なお、文特徴量の算出において、要素ベクトルの各ベクトル要素であるP(xt|ci)が存在しない場合は、0または、微小な値を与える。
Step 41) The inserted symbol selection unit 4 extracts all morphemes in the input sentence analyzed in Step 31 of FIG. 10 as symbol input position candidates.
Step 42) The insertion symbol selection unit 4 performs co-occurrence when each symbol (c 1 , c 2 , c 3 ,..., C j ) in the symbol list is inserted into a specific symbol input position candidate. Word information, context information, and co-occurrence information with words in the symbol dictionary are calculated using the learning result stored in the learning result storage unit 7, and the sentence feature amount when the symbol is inserted into the input sentence is calculated. Calculate for each symbol. The calculation method is as shown in Equation (9), and the sentence feature amount is calculated as the appearance probability of the symbol. In the calculation of the sentence feature amount, when P (x t | c i ) that is each vector element of the element vector does not exist, 0 or a minute value is given.

Figure 2011248538
ステップ43)挿入記号選定部4は、前記の式(5)に基づいて、ステップ42において記号一覧の記号ごとに与えられた文特徴量のうち、最も文特徴量が大きくなった記号(すなわち、確率が最も高い記号)を特定する。
ステップ44)挿入記号選定部4は、ステップ43で特定された記号の、該記号が入力文に挿入された場合の文特徴量が、予め定めた閾値以上であるか否かを確認する。
Figure 2011248538
Step 43) The inserted symbol selection unit 4 determines the symbol having the largest sentence feature among the sentence features given for each symbol in the symbol list in Step 42 based on the above equation (5) (that is, The symbol with the highest probability).
Step 44) The inserted symbol selection unit 4 confirms whether or not the sentence feature amount of the symbol specified in Step 43 when the symbol is inserted into the input sentence is equal to or greater than a predetermined threshold value.

確認の結果、文特徴量が閾値以上であった場合には、ステップ45に移行し、文特徴量が閾値未満であった場合には、ステップ46に移行する。   If the sentence feature amount is equal to or greater than the threshold value as a result of the confirmation, the process proceeds to step 45, and if the sentence feature amount is less than the threshold value, the process proceeds to step 46.

ステップ45)ステップ44で閾値以上とされた記号が、該記号入力位置候補において挿入される記号であるとし、当該記号を特定する。   Step 45) It is assumed that the symbol set to be equal to or higher than the threshold value in Step 44 is a symbol to be inserted in the symbol input position candidate, and the symbol is specified.

ステップ46)該記号入力位置候補において、挿入される記号は無いとして、変換対象記号はなしと判定する。   Step 46) It is determined that there is no symbol to be converted, assuming that there is no symbol to be inserted in the symbol input position candidate.

ステップ47)挿入記号選定部4は、処理対象である現在の記号入力位置候補を表す情報と、ステップ45で特定された記号と文特徴量、もしくは、ステップ46で特定された記号なしという情報とを、変換候補記号格納部9に格納する。   Step 47) The inserted symbol selection unit 4 includes information indicating the current symbol input position candidate to be processed, the symbol and sentence feature specified in Step 45, or the information that there is no symbol specified in Step 46. Is stored in the conversion candidate symbol storage unit 9.

ステップ48)挿入記号選定部4は、現在の記号入力位置候補が、最後の記号入力位置候補であるか否かを確認し、最後でなかった場合には、次の記号入力位置候補に移行して処理を行い、最後であった場合は、処理を終了する。   Step 48) The insertion symbol selection unit 4 confirms whether or not the current symbol input position candidate is the last symbol input position candidate. If not, the process proceeds to the next symbol input position candidate. If it is the last, the process is terminated.

(内容語形態素ごとの記号特定の詳細)
次に、図14のフローチャートに沿って、挿入記号選定部4が実行する内容語形態素ごとの記号特定処理(図10のステップ33)をより詳細に説明する。
(Details of symbol identification for each content word morpheme)
Next, the symbol specifying process for each content word morpheme (step 33 in FIG. 10) executed by the insertion symbol selector 4 will be described in more detail with reference to the flowchart of FIG.

ここでは、入力文の内容語の形態素部分を、記号入力位置候補とし、該記号入力位置候補における共起単語情報、コンテクスト情報、記号辞書中の語との共起情報を用い、学習結果格納部7に格納された学習結果に基づいて、記号一覧の記号のうち、挿入に最も適切な記号と挿入位置を特定する。このように、形態素解析された形態素のうち内容語である形態素部分を記号挿入位置候補とすることで、内容語の代わりとして用いられる記号の使われ方に沿った記号の特定を行う。   Here, the morpheme portion of the content word of the input sentence is set as a symbol input position candidate, and the co-occurrence word information, context information, and co-occurrence information with the words in the symbol dictionary in the symbol input position candidate are used, and the learning result storage unit Based on the learning result stored in 7, the most appropriate symbol for insertion and the insertion position among the symbols in the symbol list are identified. In this way, by specifying a morpheme portion, which is a content word, among morphemes subjected to morpheme analysis as a symbol insertion position candidate, a symbol is identified in accordance with how the symbol used instead of the content word is used.

ステップ51)挿入記号選定部4は、図10のステップ31で形態素解析された入力文の、全ての内容語の形態素部分を、記号入力位置候補として抽出する。   Step 51) The inserted symbol selection unit 4 extracts morpheme portions of all content words of the input sentence subjected to morphological analysis in Step 31 of FIG. 10 as symbol input position candidates.

ステップ52)挿入記号選定部4は、ステップ51で抽出された、各記号入力位置候補に記号一覧中の各記号(c1, c2, c3, ..., cj)が挿入された場合の、共起単語情報、コンテクスト情報、記号辞書中の語との共起情報を、学習結果格納部7に格納された学習結果を用いて算出し、該記号が入力文に挿入された場合の文特徴量を算出する。ここでは、内容語の代わりとして用いられる記号の使われ方に沿った記号の特定を行うため、記号辞書中の語との共起関係を算出する際に閲覧する対象語は、記号入力位置候補となっている内容語とする。文特徴量の算出方法は、式(9)のとおりであり、文特徴量は記号の出現確率として算出される。なお、文特徴量の算出において、要素ベクトルの各ベクトル要素であるP(xt|ci)が存在しない場合は、0または、微小な値を与える。 Step 52) The inserted symbol selection unit 4 inserts each symbol (c 1 , c 2 , c 3 ,..., C j ) in the symbol list into each symbol input position candidate extracted in Step 51. When the co-occurrence word information, context information, and co-occurrence information with the words in the symbol dictionary are calculated using the learning result stored in the learning result storage unit 7, and the symbol is inserted into the input sentence The sentence feature amount of is calculated. Here, in order to identify the symbols along the way the symbols used instead of the content words are used, the target word to be browsed when calculating the co-occurrence relationship with the words in the symbol dictionary is the symbol input position candidate The content word is The sentence feature amount calculation method is as shown in Equation (9), and the sentence feature amount is calculated as the appearance probability of the symbol. In the calculation of the sentence feature amount, when P (x t | c i ) that is each vector element of the element vector does not exist, 0 or a minute value is given.

ステップ53〜ステップ58は、ステップ43〜ステップ48と同様である。
(文字列変換部5の動作詳細)
続いて、文字列変換部5の処理動作を詳細に説明する。
Step 53 to step 58 are the same as step 43 to step 48.
(Details of operation of the character string converter 5)
Next, the processing operation of the character string converter 5 will be described in detail.

文字列変換部5は、変換候補記号格納部9に格納された各記号挿入位置候補における挿入対象記号を、入力文に挿入する処理を行う。ここでは、変換候補記号格納部9に格納された結果に沿って挿入を行う際に、複数の同じ記号が入力文中に出現する可能性があるため、記号挿入位置候補ごとに特定された記号に与えられている文特徴量を用いて、複数の同じ記号が入力文に出現するのを防いでいる。以下、文字列変換部5が実行する処理を、図15のフローチャートに沿って説明する。   The character string conversion unit 5 performs processing for inserting the insertion target symbol in each symbol insertion position candidate stored in the conversion candidate symbol storage unit 9 into the input sentence. Here, when insertion is performed according to the result stored in the conversion candidate symbol storage unit 9, a plurality of the same symbols may appear in the input sentence. Using the given sentence feature, a plurality of the same symbols are prevented from appearing in the input sentence. Hereinafter, the processing executed by the character string conversion unit 5 will be described with reference to the flowchart of FIG.

ステップ61)文字列変換部5は、変換候補記号格納部9から、各記号挿入位置候補の記号を抽出する。   Step 61) The character string conversion unit 5 extracts the symbols of the respective symbol insertion position candidates from the conversion candidate symbol storage unit 9.

ステップ62)文字列変換部5は、変換候補記号格納部9から抽出した記号に、複数の同一記号が含まれるか否かを確認する。含まれる場合は、ステップ63に移行する。含まれない場合は、ステップ65に移行して、変換候補記号格納部9に該記号を格納する。   Step 62) The character string conversion unit 5 checks whether or not the symbols extracted from the conversion candidate symbol storage unit 9 include a plurality of identical symbols. If included, the process proceeds to step 63. If not included, the process proceeds to step 65 where the symbol is stored in the conversion candidate symbol storage unit 9.

ステップ63)文字列変換部5は、変換候補記号格納部9に含まれる複数の同一記号のうち、より入力文に適した記号を選定するため、複数の同一記号にそれぞれに与えられている文特徴量のうち、最も文特徴量が大きい記号を変換候補とし、変換候補記号格納部9に該記号を格納する。複数の同一記号のうち、最も文特徴量が大きい記号以外の記号は変換候補記号格納部9に格納しない。このような処理を、複数同一記号の集合のそれぞれについて行う。   Step 63) The character string conversion unit 5 selects a symbol more suitable for the input sentence from among the plurality of the same symbols included in the conversion candidate symbol storage unit 9, so that the sentences given to the plurality of the same symbols respectively Of the feature quantities, a symbol having the largest sentence feature quantity is set as a conversion candidate, and the conversion candidate symbol storage unit 9 stores the symbol. Of the plurality of identical symbols, symbols other than the symbol having the largest sentence feature value are not stored in the conversion candidate symbol storage unit 9. Such processing is performed for each of a plurality of sets of identical symbols.

ステップ64)文字列変換部5は、上記の処理により変換候補記号格納部9に格納された記号を、入力文におけるそれぞれの挿入位置に挿入し、記号を挿入した文を出力結果として出力部2を介して出力する。   Step 64) The character string conversion unit 5 inserts the symbol stored in the conversion candidate symbol storage unit 9 by the above processing at each insertion position in the input sentence, and outputs the sentence into which the symbol is inserted as the output result. Output via.

これまでに説明した記号入力支援装置10は、例えば、CPUやメモリ等を備えたコンピュータに、各処理に対応するプログラムを実行させることにより実現可能である。当該プログラムは、可搬メモリ等のコンピュータ読み取り可能な記録媒体に記録して配布してもよいし、ネットワーク上のサーバからダウンロードすることもできる。このように、記号入力支援装置10をコンピュータで実現する場合、文字列等の処理データは、メモリ等に記憶され、プログラムの命令に従って、適宜、CPUにより読み出されて処理されることになる。なお、上記「コンピュータ」は、PC端末等に限らず、例えば、携帯電話機等、コンピュータと同等の機能を備えた様々な機器を含む意味で使用している。   The symbol input support device 10 described so far can be realized, for example, by causing a computer having a CPU, a memory, and the like to execute a program corresponding to each process. The program may be distributed by being recorded on a computer-readable recording medium such as a portable memory, or may be downloaded from a server on the network. As described above, when the symbol input support device 10 is realized by a computer, processing data such as a character string is stored in a memory or the like, and is appropriately read and processed by the CPU in accordance with an instruction of the program. The “computer” is not limited to a PC terminal, and is used to include various devices having functions equivalent to those of a computer, such as a mobile phone.

また、記号入力支援装置10は、1つのコンピュータで実現してもよいし、複数のコンピュータを、ネットワークを介して接続することにより実現してもよい。例えば、複数の格納部のうちの1つ又は複数を外部のサーバ装置として構成することは、記号入力支援装置10を複数のコンピュータで実現する場合の一例である。また、記号出現頻度学習部3と、それ以外の機能部とを別々のコンピュータで構成することも、記号入力支援装置10を複数のコンピュータで実現する場合の一例である。更に、文字列変換部5とそれ以外の機能部とを別々のコンピュータで構成してもよい。   Further, the symbol input support device 10 may be realized by a single computer or may be realized by connecting a plurality of computers via a network. For example, configuring one or more of the plurality of storage units as an external server device is an example when the symbol input support device 10 is realized by a plurality of computers. In addition, the symbol appearance frequency learning unit 3 and the other functional units may be configured by separate computers as an example when the symbol input support device 10 is realized by a plurality of computers. Furthermore, the character string conversion unit 5 and other functional units may be configured by separate computers.

(実施の形態の効果)
本実施の形態に係る技術によれば、記号を特定する際に、事前に、記号と文特徴量の関係性や、記号と出現位置の関係性、記号と役割の関係性を学習し、学習結果に基づいて挿入を行うため、文章の内容を考慮し、記号の実際の使われ方を反映した結果を得ることができる。
(Effect of embodiment)
According to the technology according to the present embodiment, when a symbol is specified, the relationship between the symbol and the sentence feature amount, the relationship between the symbol and the appearance position, and the relationship between the symbol and the role are learned and learned in advance. Since the insertion is performed based on the result, it is possible to obtain a result reflecting the actual usage of the symbol in consideration of the content of the sentence.

また、記号の出現における学習の際に、記号と記号の出現位置に着目した学習を行うことにより、実際の使われ方に沿った出現位置に記号を挿入することが可能となる。   In addition, when learning is performed at the appearance of a symbol, it is possible to insert the symbol at an appearance position along the actual usage by performing learning focusing on the appearance position of the symbol and the symbol.

また、学習の際に、記号と記号が含まれる文の、共起単語情報、コンテクスト情報、記号辞書中の語との共起情報を学習することにより、文脈に即した記号の挿入が可能となる。   In addition, by learning co-occurrence word information, context information, and co-occurrence information with words in the symbol dictionary of sentences containing symbols, it is possible to insert symbols according to the context. Become.

更に、記号が単語として用いられる役割に着目した学習を行うことで、記号の役割を考慮した挿入が可能となる。   Furthermore, by performing learning focusing on the role that the symbol is used as a word, the insertion considering the role of the symbol can be performed.

本発明は、入力文のコンテクストに適合した記号を、入力文の適切な位置に挿入する装置に適用可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
The present invention can be applied to a device that inserts a symbol suitable for the context of an input sentence at an appropriate position of the input sentence.
The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.

1 入力部
2 出力部
3 記号出現頻度学習部
4 挿入記号選定部
5 文字列変換部
6 学習用データ格納部
7 学習結果格納部
8 語義辞書格納部
9 変換候補記号格納部
10 記号入力支援装置
DESCRIPTION OF SYMBOLS 1 Input part 2 Output part 3 Symbol appearance frequency learning part 4 Inserted symbol selection part 5 Character string conversion part 6 Learning data storage part 7 Learning result storage part 8 Meaning dictionary storage part 9 Conversion candidate symbol storage part 10 Symbol input assistance apparatus

Claims (9)

入力文に記号を挿入するための記号入力支援装置であって、
学習用の文中の各記号について、共起する単語との出現頻度を表す共起単語情報と、コンテクスト情報と、当該記号と記号ごとに与えられた所定の辞書中の語との共起情報とを算出し、算出結果を学習結果として学習結果格納手段に格納する記号出現頻度学習手段と、
前記入力文中における記号挿入位置候補の位置ごとに、挿入対象である各記号について、前記学習結果格納手段に格納された前記学習結果を用いて、前記記号挿入位置候補の各位置に記号を挿入した場合における文特徴量を算出し、当該文特徴量に基づき、挿入に最も適した記号と挿入位置を特定し、当該記号と挿入位置とを変換候補記号格納手段に格納する挿入記号選定手段と、
を備えたことを特徴とする記号入力支援装置。
A symbol input support device for inserting a symbol into an input sentence,
For each symbol in the learning sentence, co-occurrence word information indicating the frequency of appearance with the co-occurring word, context information, and the co-occurrence information of the symbol and the word in the predetermined dictionary given for each symbol, Symbol appearance frequency learning means for storing the calculation result as a learning result in the learning result storage means,
For each symbol insertion position candidate in the input sentence, a symbol is inserted at each position of the symbol insertion position candidate using the learning result stored in the learning result storage unit for each symbol to be inserted. An insertion symbol selection unit that calculates a sentence feature amount in a case, identifies a symbol and an insertion position most suitable for insertion based on the sentence feature amount, and stores the symbol and the insertion position in a conversion candidate symbol storage unit;
A symbol input support device comprising:
前記挿入記号選定手段は、前記入力文において前記記号挿入位置候補の位置に記号が挿入された場合における、共起単語情報、コンテクスト情報、前記所定の辞書中の語との共起情報を、前記学習結果を用いて求め、これらの情報に基づく記号出現確率を前記文特徴量として算出することを特徴とする請求項1に記載の記号入力支援装置。   The inserted symbol selection means includes co-occurrence word information, context information, and co-occurrence information with words in the predetermined dictionary when a symbol is inserted at the position of the symbol insertion position candidate in the input sentence. 2. The symbol input support device according to claim 1, wherein the symbol input support device calculates the symbol appearance probability based on the learning result as the sentence feature amount. 前記挿入記号選定手段により特定された記号と挿入位置とを用いて、前記入力文に記号を挿入する文字列変換手段を更に備えたことを特徴とする請求項1又は2に記載の記号入力支援装置。   3. The symbol input support according to claim 1, further comprising character string conversion means for inserting a symbol into the input sentence using the symbol specified by the insertion symbol selecting means and the insertion position. apparatus. 前記文字列変換手段は、前記挿入記号選定手段により、複数の同一の記号が特定された場合において、当該複数の同一の記号に対応するそれぞれの文特徴量に基づいて、当該複数の同一の記号のうちの1つの記号を選択し、当該記号を、前記入力文における当該記号に対応する挿入位置に挿入することを特徴とする請求項3に記載の記号入力支援装置。   When the plurality of identical symbols are specified by the insertion symbol selecting means, the character string converting means is configured to use the plurality of identical symbols based on the sentence feature amounts corresponding to the plurality of identical symbols. The symbol input support device according to claim 3, wherein one of the symbols is selected and the symbol is inserted at an insertion position corresponding to the symbol in the input sentence. 入力文に記号を挿入するための記号入力支援装置が実行する記号入力支援方法であって、
学習用の文中の各記号について、共起する単語との出現頻度を表す共起単語情報と、コンテクスト情報と、当該記号と記号ごとに与えられた所定の辞書中の語との共起情報とを算出し、算出結果を学習結果として学習結果格納手段に格納する記号出現頻度学習ステップと、
前記入力文中における記号挿入位置候補の位置ごとに、挿入対象である各記号について、前記学習結果格納手段に格納された前記学習結果を用いて、前記記号挿入位置候補の各位置に記号を挿入した場合における文特徴量を算出し、当該文特徴量に基づき、挿入に最も適した記号と挿入位置を特定し、当該記号と挿入位置とを変換候補記号格納手段に格納する挿入記号選定ステップと、
を備えたことを特徴とする記号入力支援方法。
A symbol input support method executed by a symbol input support device for inserting a symbol into an input sentence,
For each symbol in the learning sentence, co-occurrence word information indicating the frequency of appearance with the co-occurring word, context information, and the co-occurrence information of the symbol and the word in the predetermined dictionary given for each symbol, And a symbol appearance frequency learning step of storing the calculation result as a learning result in the learning result storage means;
For each symbol insertion position candidate in the input sentence, a symbol is inserted at each position of the symbol insertion position candidate using the learning result stored in the learning result storage unit for each symbol to be inserted. An insertion symbol selection step of calculating a sentence feature amount in the case, identifying a symbol and insertion position most suitable for insertion based on the sentence feature amount, and storing the symbol and insertion position in the conversion candidate symbol storage means;
A symbol input support method characterized by comprising:
前記挿入記号選定ステップにおいて、前記記号入力支援装置は、前記入力文において前記記号挿入位置候補の位置に記号が挿入された場合における、共起単語情報、コンテクスト情報、前記所定の辞書中の語との共起情報を、前記学習結果を用いて求め、これらの情報に基づく記号出現確率を前記文特徴量として算出することを特徴とする請求項5に記載の記号入力支援方法。   In the inserted symbol selection step, the symbol input support device includes co-occurrence word information, context information, and words in the predetermined dictionary when a symbol is inserted at the position of the symbol insertion position candidate in the input sentence. The symbol input support method according to claim 5, wherein the co-occurrence information is obtained using the learning result, and a symbol appearance probability based on the information is calculated as the sentence feature amount. 前記挿入記号選定ステップにより特定された記号と挿入位置とを用いて、前記入力文に記号を挿入する文字列変換ステップを更に備えたことを特徴とする請求項5又は6に記載の記号入力支援方法。   The symbol input support according to claim 5 or 6, further comprising a character string conversion step of inserting a symbol into the input sentence using the symbol specified by the insertion symbol selection step and the insertion position. Method. 前記文字列変換ステップにおいて、前記記号入力支援装置は、前記挿入記号選定ステップにより、複数の同一の記号が特定された場合において、当該複数の同一の記号に対応するそれぞれの文特徴量に基づいて、当該複数の同一の記号のうちの1つの記号を選択し、当該記号を、前記入力文における当該記号に対応する挿入位置に挿入することを特徴とする請求項7に記載の記号入力支援方法。   In the character string conversion step, the symbol input support device, when a plurality of identical symbols are specified by the insertion symbol selection step, based on respective sentence feature amounts corresponding to the plurality of identical symbols. The symbol input support method according to claim 7, wherein one of the plurality of identical symbols is selected, and the symbol is inserted at an insertion position corresponding to the symbol in the input sentence. . コンピュータに、請求項5ないし8のうちいずれか1項に記載の記号入力支援方法における各ステップを実行させるためのプログラム。   The program for making a computer perform each step in the symbol input assistance method of any one of Claim 5 thru | or 8.
JP2010119800A 2010-05-25 2010-05-25 Symbol input support device, symbol input support method, and program Expired - Fee Related JP5398638B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010119800A JP5398638B2 (en) 2010-05-25 2010-05-25 Symbol input support device, symbol input support method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010119800A JP5398638B2 (en) 2010-05-25 2010-05-25 Symbol input support device, symbol input support method, and program

Publications (2)

Publication Number Publication Date
JP2011248538A true JP2011248538A (en) 2011-12-08
JP5398638B2 JP5398638B2 (en) 2014-01-29

Family

ID=45413732

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010119800A Expired - Fee Related JP5398638B2 (en) 2010-05-25 2010-05-25 Symbol input support device, symbol input support method, and program

Country Status (1)

Country Link
JP (1) JP5398638B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018077861A (en) * 2011-12-19 2018-05-17 マシーン・ゾーン・インコーポレイテッドMachine Zone, Inc. Systems and method for identifying and suggesting emoticon
US10311139B2 (en) 2014-07-07 2019-06-04 Mz Ip Holdings, Llc Systems and methods for identifying and suggesting emoticons

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157660A (en) * 2007-12-26 2009-07-16 Kyocera Corp Pictogram input support apparatus, pictogram input support method, and program
WO2009122779A1 (en) * 2008-04-03 2009-10-08 日本電気株式会社 Text data processing apparatus, method, and recording medium with program recorded thereon
JP2011138343A (en) * 2009-12-28 2011-07-14 Denso Corp Electronic equipment and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157660A (en) * 2007-12-26 2009-07-16 Kyocera Corp Pictogram input support apparatus, pictogram input support method, and program
WO2009122779A1 (en) * 2008-04-03 2009-10-08 日本電気株式会社 Text data processing apparatus, method, and recording medium with program recorded thereon
JP2011138343A (en) * 2009-12-28 2011-07-14 Denso Corp Electronic equipment and program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNJ201010051025; 山本 千尋 外3名: '絵文字を考慮したテキスト解析の研究' 第72回(平成22年)全国大会講演論文集(2) 人工知能と認知科学 , 20100308, p.2-49〜2-50, 社団法人情報処理学会 *
JPN6013051051; 山本 千尋 外3名: '絵文字を考慮したテキスト解析の研究' 第72回(平成22年)全国大会講演論文集(2) 人工知能と認知科学 , 20100308, p.2-49〜2-50, 社団法人情報処理学会 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018077861A (en) * 2011-12-19 2018-05-17 マシーン・ゾーン・インコーポレイテッドMachine Zone, Inc. Systems and method for identifying and suggesting emoticon
US10254917B2 (en) 2011-12-19 2019-04-09 Mz Ip Holdings, Llc Systems and methods for identifying and suggesting emoticons
JP2019207726A (en) * 2011-12-19 2019-12-05 エム・ゼット・アイ・ピィ・ホールディングス・リミテッド・ライアビリティ・カンパニーMz Ip Holdings, Llc Systems and methods for identifying and suggesting emoticons
US10311139B2 (en) 2014-07-07 2019-06-04 Mz Ip Holdings, Llc Systems and methods for identifying and suggesting emoticons
US10579717B2 (en) 2014-07-07 2020-03-03 Mz Ip Holdings, Llc Systems and methods for identifying and inserting emoticons

Also Published As

Publication number Publication date
JP5398638B2 (en) 2014-01-29

Similar Documents

Publication Publication Date Title
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
US9626152B2 (en) Methods and systems for recommending responsive sticker
US8935148B2 (en) Computer-assisted natural language translation
CN110705206B (en) Text information processing method and related device
US20140316764A1 (en) Clarifying natural language input using targeted questions
US9792909B2 (en) Methods and systems for recommending dialogue sticker based on similar situation detection
CN112528681A (en) Cross-language retrieval and model training method, device, equipment and storage medium
JP5564705B2 (en) Sentence structure analyzing apparatus, sentence structure analyzing method, and sentence structure analyzing program
JP2007156545A (en) Symbol string conversion method, word translation method, its device, its program and recording medium
CN110008807A (en) A kind of training method, device and the equipment of treaty content identification model
Yessenbayev et al. KazNLP: A pipeline for automated processing of texts written in Kazakh language
Pereira-Noriega et al. Ship-LemmaTagger: Building an NLP toolkit for a Peruvian native language
JP5398638B2 (en) Symbol input support device, symbol input support method, and program
CN112559711A (en) Synonymous text prompting method and device and electronic equipment
CN108021609B (en) Text emotion classification method and device, computer equipment and storage medium
KR20120045906A (en) Apparatus and method for correcting error of corpus
Pakray et al. An hmm based pos tagger for pos tagging of code-mixed indian social media text
JP4478042B2 (en) Word set generation method with frequency information, program and program storage medium, word set generation device with frequency information, text index word creation device, full-text search device, and text classification device
CN115034209A (en) Text analysis method and device, electronic equipment and storage medium
CN114676699A (en) Entity emotion analysis method and device, computer equipment and storage medium
Almansor et al. Transferring informal text in arabic as low resource languages: State-of-the-art and future research directions
JP5320326B2 (en) Symbol conversion device, symbol conversion method, and symbol conversion program
Celikkaya et al. A mobile assistant for Turkish
JP2016189089A (en) Extraction equipment, extraction method and program thereof, support device, and display controller
CN116579327B (en) Text error correction model training method, text error correction method, device and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121106

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131022

R150 Certificate of patent or registration of utility model

Ref document number: 5398638

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees