JP2012208639A - Pictograph application sentence generation device, method and program - Google Patents

Pictograph application sentence generation device, method and program Download PDF

Info

Publication number
JP2012208639A
JP2012208639A JP2011072741A JP2011072741A JP2012208639A JP 2012208639 A JP2012208639 A JP 2012208639A JP 2011072741 A JP2011072741 A JP 2011072741A JP 2011072741 A JP2011072741 A JP 2011072741A JP 2012208639 A JP2012208639 A JP 2012208639A
Authority
JP
Japan
Prior art keywords
pictogram
word
meaning
pictograph
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011072741A
Other languages
Japanese (ja)
Inventor
Chihiro Yamamoto
千尋 山本
Nobuaki Hiroshima
伸章 廣嶋
Katsuto Bessho
克人 別所
Yoshimasa Koike
義昌 小池
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011072741A priority Critical patent/JP2012208639A/en
Publication of JP2012208639A publication Critical patent/JP2012208639A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To apply pictographs following the actual usage of pictographs.SOLUTION: A pictograph application sentence generation device is configured to extract a pictograph including the meaning of a word which matches a word Ki included in an input sentence from a dictionary for the meanings of pictographs in which a plurality of sets of pictographs and the meanings expressed by those pictographs are stored, and to, when the plurality of pictographs are extracted, select the pictograph in which a semantic distance between the context of the input sentence and the pictograph is the most closest, and to calculate a distance (t) between the concept vector of the word Ki and the concept vector of the selected pictograph as a semantic distance between the word Ki and the selected pictograph. When the distance (t) is smaller than a threshold (k), the word Ki is determined so as to be replaced with the pictograph, and when the distance (t) is larger than the threshold (k), the pictograph is determined so as to be added after the word Ki.

Description

本発明は、絵文字付与文生成装置、方法、及びプログラムに係り、特に、絵文字を入力文に含まれる単語と置換、または単語に付加することにより絵文字付与文を生成する絵文字付与文生成装置、方法、及びプログラムに関する。   The present invention relates to a pictogram-added sentence generation apparatus, method, and program, and more particularly, to a pictogram-added sentence generation apparatus and method for generating a pictogram-added sentence by replacing or adding a pictogram with a word included in an input sentence. And the program.

従来、携帯電話機やパソコンなどの文字入力装置において、絵文字の入力を支援することが行われている。例えば、「です」や「ます」といった特定の文末文字列が入力されると、文末文字列に続く可能性が高い絵文字や句点などの文字列候補を自動的に挿入することによって、文末文字の入力の手間を省くことができる文字入力装置が提案されている(例えば、特許文献1参照)。   Conventionally, the input of pictograms has been supported in character input devices such as mobile phones and personal computers. For example, when a specific end-of-sentence string such as “is” or “mas” is entered, the end-of-sentence character is automatically inserted by automatically inserting candidate text strings such as pictographs and punctuation that are likely to follow the end-of-sentence string. There has been proposed a character input device that can save input labor (see, for example, Patent Document 1).

また、実際に、ユーザがマニュアルで入力文に絵文字を付与するときには、絵文字だけで単語を推定することが可能な場合には、単語と絵文字とを置換し、また、単語と非常に近い意味を持っているが、絵文字だけで単語を推定することが困難な場合には、単語に絵文字を付加する、という用法で絵文字が用いられることが多い。   In fact, when a user manually adds a pictograph to an input sentence, if the word can be estimated using only the pictograph, the word is replaced with the pictograph, and the meaning is very close to the word. However, when it is difficult to estimate a word only with pictograms, pictograms are often used in such a way that a pictogram is added to the word.

特開2006−331066号公報JP 2006-331066 A

しかしながら、文末文字の入力支援に特化した特許文献1の技術では、文章の内容を考慮しない絵文字が入力候補として表示される可能性がある、という問題がある。また、絵文字の挿入位置についても文末のみへの挿入であり、文中で用いられることもある絵文字の実際の使用方法には沿っていない、という問題もある。   However, the technique disclosed in Patent Document 1 specializing in input support for sentence end characters has a problem that pictograms that do not take into account the contents of the text may be displayed as input candidates. There is also a problem in that the insertion position of the pictogram is only inserted at the end of the sentence and does not conform to the actual usage of the pictogram that may be used in the sentence.

本発明は上記問題点に鑑みてなされたものであり、実際の絵文字の用法に沿った絵文字の付与を行うことができる絵文字付与文生成装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above problems, and an object of the present invention is to provide a pictogram-added sentence generation apparatus, method, and program capable of giving pictograms in accordance with actual pictogram usage.

上記目的を達成するために、本発明の絵文字付与文生成装置は、絵文字と該絵文字が表す少なくとも1つの語義との組を複数記憶した絵文字語義記憶手段から、入力文に含まれる単語と一致する語義を表す絵文字を抽出する一致絵文字抽出手段と、前記一致絵文字抽出手段により抽出された絵文字の意味的特徴量、及び前記単語の意味的特徴量から求まる該絵文字と該単語との意味的な距離が、予め定めた絵文字単語距離閾値より小さい場合には、前記絵文字の付与方法を置換に決定し、前記距離が前記絵文字単語距離閾値以上の場合には前記絵文字の付与方法を付加に決定する決定手段と、前記決定手段により置換に決定された場合には、前記単語を前記一致絵文字抽出手段により抽出された絵文字に置換し、前記決定手段により付加に決定された場合には、前記単語の前または後に前記一致絵文字抽出手段により抽出された絵文字を付加することにより、前記入力文に絵文字を付与した絵文字付与文を生成する生成手段と、を含んで構成されている。   In order to achieve the above object, a pictographic character sentence generation device according to the present invention matches a word included in an input sentence from a pictogram meaning storage unit that stores a plurality of sets of pictograms and at least one meaning represented by the pictogram. Matching pictogram extraction means for extracting a pictogram representing meaning, semantic feature amount of the pictogram extracted by the matching pictogram extraction means, and semantic distance between the pictogram and the word obtained from the semantic feature quantity of the word Is determined to be replacement when the pictographic word distance threshold is smaller than a predetermined pictogram word distance threshold, and is determined to be added when the distance is equal to or greater than the pictographic word distance threshold. And the determination means replaces the word with the pictogram extracted by the matching pictogram extraction means, and the determination means determines to add. And generating means for generating a pictographic character sentence in which a pictographic character is added to the input sentence by adding a pictographic character extracted by the matching pictographic character extracting means before or after the word. Has been.

本発明の絵文字付与文生成装置によれば、絵文字語義記憶手段に、絵文字とその絵文字が表す少なくとも1つの語義との組が複数記憶されている。ここで、絵文字とは、語義の内容をイラスト化した記号であって、文字として入力できる記号、すなわちイラスト化された記号文字である。一致絵文字抽出手段は、絵文字語義記憶手段から、入力文に含まれる単語と一致する語義を表す絵文字を抽出する。決定手段は、一致絵文字抽出手段により抽出された絵文字の意味的特徴量、及び単語の意味的特徴量から求まる絵文字と単語との意味的な距離が、予め定めた絵文字単語距離閾値より小さい場合には、絵文字の付与方法を置換に決定し、絵文字と単語との意味的な距離が絵文字単語距離閾値以上の場合には絵文字の付与方法を付加に決定する。そして、生成手段が、決定手段により置換に決定された場合には、単語を一致絵文字抽出手段により抽出された絵文字に置換し、決定手段により付加に決定された場合には、単語の前または後に一致絵文字抽出手段により抽出された絵文字を付加することにより、入力文に絵文字を付与した絵文字付与文を生成する。   According to the pictographic character sentence generation device of the present invention, the pictogram meaning storage unit stores a plurality of sets of pictograms and at least one meaning represented by the pictograms. Here, the pictogram is a symbol in which the meaning of the meaning is illustrated, and is a symbol that can be input as a character, that is, an illustrated symbol character. The matching pictogram extracting means extracts a pictogram representing the meaning that matches the word included in the input sentence from the pictogram meaning storage means. When the semantic distance between the pictogram and the word obtained from the semantic feature quantity of the pictogram extracted by the matching pictogram extraction section and the word semantic feature quantity is smaller than a predetermined pictogram word distance threshold, Decides to replace the pictogram giving method, and if the semantic distance between the pictogram and the word is equal to or greater than the pictogram word distance threshold, decides to add the pictogram giving method. When the generation means is determined to be replaced by the determining means, the word is replaced with a pictogram extracted by the matching pictogram extracting means, and when it is determined to be added by the determining means, before or after the word By adding the pictogram extracted by the matching pictogram extracting means, a pictogram giving sentence in which a pictogram is given to the input sentence is generated.

このように、単語と絵文字との意味的な距離が閾値より小さい場合には、単語と絵文字とを置換し、単語と絵文字との意味的な距離が閾値以上の場合には、単語に絵文字を付加するように、絵文字の付与方法を使い分けるため、絵文字だけで単語を表現できる場合には、単語を絵文字で置換し、絵文字だけでは単語を推定することが困難な場合には、単語に絵文字を付加するという、実際の絵文字の用法に沿った絵文字の付与を行うことができる。   As described above, when the semantic distance between the word and the pictogram is smaller than the threshold, the word and the pictogram are replaced. When the semantic distance between the word and the pictogram is equal to or larger than the threshold, the pictogram is added to the word. In order to use different emoticon assignment methods, if a word can be expressed only with a pictogram, the word is replaced with a pictogram, and if it is difficult to estimate the word with only the pictogram, a pictogram is added to the word. It is possible to add pictograms in accordance with the actual usage of pictograms.

また、本発明の絵文字付与文生成装置は、前記入力文に含まれる単語と一致する語義を表す絵文字が、前記一致絵文字抽出手段により抽出されなかった場合に、前記絵文字語義記憶手段に記憶された語義各々の意味的特徴量、及び前記単語の意味的特徴量から求まる該語義各々と該単語との意味的な距離が、予め定めた語義単語距離閾値より小さい語義を表す絵文字を、前記絵文字語義記憶手段から抽出する近距離絵文字抽出手段を含んで構成することができ、前記生成手段は、前記単語の前または後に前記近距離絵文字抽出手段により抽出された絵文字を付加することができる。これにより、単語と絵文字の語義とが一致する絵文字が存在しない場合でも、単語と絵文字の語義との意味的な距離が近い絵文字を単語に付加するため、単語に近い意味を持った絵文字により単語を強調するという、実際の絵文字の用法に沿った絵文字の付与を行うことができる。   Further, the pictographic character sentence generation device of the present invention is stored in the pictogram word meaning storage means when a pictogram representing a meaning that matches the word included in the input sentence is not extracted by the matching pictogram extraction means. A pictogram representing a meaning of a semantic distance between each word meaning and the word obtained from the semantic feature quantity of each word meaning and the word is smaller than a predetermined word meaning word distance threshold. A short-distance pictogram extraction unit that extracts from the storage unit may be included, and the generation unit may add the pictogram extracted by the short-distance pictogram extraction unit before or after the word. As a result, even if there is no pictogram that matches the meaning of the word and the pictogram, a pictogram with a close semantic distance between the word and the pictogram is added to the word. The emoji can be given in accordance with the actual usage of the pictogram.

また、本発明の絵文字付与文生成装置は、前記絵文字語義記憶手段に記憶された絵文字各々の意味的特徴量、及び前記入力文の文脈を示す特徴量から求まる該絵文字各々と該入力文との意味的な距離が、予め定めた絵文字文脈距離閾値より小さい絵文字を、前記絵文字語義記憶手段から抽出する文脈絵文字抽出手段を含んで構成することができ、前記生成手段は、前記入力文の先頭または末尾に、前記文脈絵文字抽出手段により抽出された絵文字を付加することができる。これにより、入力文と絵文字との意味的な距離が近い絵文字を入力文の先頭または文末に付与するため、文章全体の意味を反映した絵文字を付与するという、実際の絵文字の用法に沿った絵文字の付与を行うことができる。   Further, the pictogram-added sentence generation apparatus of the present invention provides a pictogram meaning sentence stored in the pictogram meaning storage means and a pictorial character obtained from the feature quantity indicating the context of the input sentence and the input sentence. A pictograph whose semantic distance is smaller than a predetermined pictogram context distance threshold value can be configured to include a context pictogram extracting means for extracting from the pictogram meaning storage means. The pictogram extracted by the context pictogram extracting means can be added at the end. This gives pictograms that follow the actual usage of pictograms by adding pictograms that reflect the meaning of the whole sentence, so that pictograms that have a close semantic distance between the input text and pictograms are given to the beginning or end of the text. Can be given.

また、本発明の絵文字付与文生成方法は、一致絵文字抽出手段と、決定手段と、生成手段とを含む絵文字付与文生成装置における絵文字付与文生成方法であって、前記一致絵文字抽出手段は、絵文字と該絵文字が表す少なくとも1つの語義との組を複数記憶した絵文字語義記憶手段から、入力文に含まれる単語と一致する語義を表す絵文字を抽出し、前記決定手段は、前記一致絵文字抽出手段により抽出された絵文字の意味的特徴量、及び前記単語の意味的特徴量から求まる該絵文字と該単語との意味的な距離が、予め定めた絵文字単語距離閾値より小さい場合には、前記絵文字の付与方法を置換に決定し、前記距離が前記絵文字単語距離閾値以上の場合には前記絵文字の付与方法を付加に決定し、前記生成手段は、前記決定手段により置換に決定された場合には、前記単語を前記一致絵文字抽出手段により抽出された絵文字に置換し、前記決定手段により付加に決定された場合には、前記単語の前または後に前記一致絵文字抽出手段により抽出された絵文字を付加することにより、前記入力文に絵文字を付与した絵文字付与文を生成する方法である。   Further, the pictogram giving sentence generation method of the present invention is a pictogram giving sentence generating method in a pictogram giving sentence generating device including a matching pictogram extracting means, a determining means, and a generating means, wherein the matching pictogram extracting means is a pictogram And at least one meaning represented by the pictogram, a pictogram representing the meaning of the word that matches the word included in the input sentence is extracted from the pictogram meaning storage means that stores a plurality of pairs, and the determining means includes the matching pictogram extraction means When the semantic distance between the extracted pictogram and the word obtained from the semantic feature of the word is smaller than a predetermined pictogram word distance threshold, the pictogram is added. The method is determined to be replaced, and when the distance is equal to or greater than the pictogram word distance threshold, the pictogram assigning method is determined to be added, and the generating means is replaced by the determining means. If determined, the word is replaced with the pictogram extracted by the matching pictogram extracting means, and if determined to be added by the determining means, extracted by the matching pictogram extracting means before or after the word This is a method of generating a pictographic character sentence by adding a pictograph to the input sentence by adding the pictograph.

また、本発明の絵文字付与文生成方法は、近距離絵文字抽出手段をさらに含む絵文字付与文生成装置における絵文字付与文生成方法であって、前記近距離絵文字抽出手段は、前記入力文に含まれる単語と一致する語義を表す絵文字が、前記一致絵文字抽出手段により抽出されなかった場合に、前記絵文字語義記憶手段に記憶された語義各々の意味的特徴量、及び前記単語の意味的特徴量から求まる該語義各々と該単語との意味的な距離が、予め定めた語義単語距離閾値より小さい語義を表す絵文字を、前記絵文字語義記憶手段から抽出し、前記生成手段は、前記単語の前または後に前記近距離絵文字抽出手段により抽出された絵文字を付加する方法である。   Further, the pictogram-added sentence generation method of the present invention is a pictogram-added sentence generation method in a pictogram-added sentence generation device further including a short-distance pictogram extraction means, wherein the short-distance pictogram extraction means includes a word included in the input sentence When the pictogram representing the meaning of the word is not extracted by the matching pictogram extraction means, the semantic feature quantity of each meaning stored in the pictogram meaning storage means and the semantic feature quantity of the word A pictogram representing a sense of meaning that a semantic distance between each sense of meaning and the word is smaller than a predetermined meaning word distance threshold is extracted from the pictogram meaning storage means, and the generation means is configured to extract the proximity before or after the word. This is a method of adding pictograms extracted by the distance pictogram extracting means.

また、本発明の絵文字付与文生成方法は、文脈絵文字抽出手段をさらに含む絵文字付与文生成装置における絵文字付与文生成方法であって、前記文脈絵文字抽出手段は、前記絵文字語義記憶手段に記憶された絵文字各々の意味的特徴量、及び前記入力文の文脈を示す特徴量から求まる該絵文字各々と該入力文との意味的な距離が、予め定めた絵文字文脈距離閾値より小さい絵文字を、前記絵文字語義記憶手段から抽出し、前記生成手段は、前記入力文の先頭または末尾に、前記文脈絵文字抽出手段により抽出された絵文字を付加する方法である。   Further, the pictogram giving sentence generating method of the present invention is a pictogram giving sentence generating method in a pictogram giving sentence generating device further including a context pictogram extracting means, and the context pictogram extracting means is stored in the pictogram meaning storage means. A pictogram meaning a pictogram whose semantic distance between each pictogram and the input sentence obtained from the semantic feature quantity of each pictogram and a feature quantity indicating the context of the input sentence is smaller than a predetermined pictogram context distance threshold. Extracted from storage means, and the generating means adds the pictogram extracted by the context pictogram extracting means to the beginning or end of the input sentence.

また、本発明の絵文字付与文生成プログラムは、コンピュータを、上記の絵文字付与文生成装置を構成する各手段として機能させるためのプログラムである。   Moreover, the pictorial character provision sentence generation program of this invention is a program for functioning a computer as each means which comprises said pictogram provision sentence generation apparatus.

以上説明したように、本発明の絵文字付与文生成装置、方法、及びプログラムによれば、単語と絵文字との意味的な距離が閾値より小さい場合には、単語と絵文字とを置換し、単語と絵文字との意味的な距離が閾値以上の場合には、単語に絵文字を付加するように、絵文字の付与方法を使い分けるため、絵文字だけで単語を表現できる場合には、単語を絵文字で置換し、絵文字だけでは単語を推定することが困難な場合には、単語に絵文字を付加するという、実際の絵文字の用法に沿った絵文字の付与を行うことができる、という効果が得られる。   As described above, according to the pictograph-added sentence generation device, method, and program of the present invention, when the semantic distance between the word and the pictogram is smaller than the threshold, the word and pictogram are replaced, If the semantic distance to the emoji is greater than or equal to the threshold, the emoji is used differently, so that the emoji is added to the word. When it is difficult to estimate a word only with pictograms, it is possible to add pictograms according to the actual usage of pictograms by adding pictograms to the words.

本実施の形態で用いられる絵文字の一例を示す図である。It is a figure which shows an example of the pictogram used by this Embodiment. 本実施の形態の絵文字付与文生成装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the pictograph provision sentence generation apparatus of this Embodiment. 絵文字文字辞書の一例を示す図である。It is a figure which shows an example of an emoji character dictionary. 絵文字語義辞書の一例を示す図である。It is a figure which shows an example of an emoji word meaning dictionary. 本実施の形態の絵文字付与文生成装置における絵文字付与文生成処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the pictogram provision sentence production | generation routine in the pictogram provision sentence production | generation apparatus of this Embodiment. 文字絵文字置換処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the character pictogram replacement processing routine. 入力文への文字IDの割り当てを説明するための図である。It is a figure for demonstrating allocation of character ID to an input sentence. 文字置換絵文字記憶部に記憶された絵文字の一例を示す図である。It is a figure which shows an example of the pictogram memorize | stored in the character substitution pictogram storage part. 単語一致絵文字置換付加処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the word matching pictogram replacement addition processing routine. 入力文への単語IDの割り当てを説明するための図である。It is a figure for demonstrating allocation of word ID to an input sentence. 単語置換絵文字記憶部に記憶された絵文字の一例を示す図である。It is a figure which shows an example of the pictogram memorize | stored in the word substitution pictogram storage part. 付加絵文字記憶部に記憶された絵文字の一例を示す図である。It is a figure which shows an example of the pictogram memorize | stored in the additional pictogram storage part. 単語近距離絵文字付加処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the word short distance pictogram addition process routine. 文脈絵文字付加処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of a context pictogram addition process routine. 文末絵文字記憶部に記憶された絵文字の一例を示す図である。It is a figure which shows an example of the pictogram memorize | stored in the sentence end pictogram storage part. 生成処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the production | generation process routine. 絵文字付与文の生成を説明するための図である。It is a figure for demonstrating the production | generation of a pictograph provision sentence.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

まず、本実施の形態で用いられる絵文字は、図1に示すように、携帯端末から入力可能な絵文字とする。これらの絵文字は、その用法により以下の4種類がある。   First, the pictograph used in this embodiment is a pictograph that can be input from a mobile terminal as shown in FIG. These pictograms have the following four types depending on their usage.

(1)文字の代わりとして用いられている絵文字
(2)単語の代わりとして用いられている絵文字
(3)単語に付加して用いられる絵文字
(4)文末で要約のように使われる絵文字
(1) Pictograph used as a substitute for text (2) Pictograph used as a substitute for word (3) Pictograph used in addition to a word (4) Pictograph used as a summary at the end of a sentence

(3)の場合、絵文字は単語に非常に近い意味を持ってはいるものの、絵文字からだけでは、単語を推定することが困難な場合に用いられる。(4)の文末に用いられるものは、文章全体の意味を反映したものが付与される。本実施の形態の絵文字付与文生成装置は、これらの絵文字の用法に沿って、入力文に自動的に絵文字を付与するものである。   In the case of (3), although the pictogram has a very close meaning to the word, it is used when it is difficult to estimate the word only from the pictogram. What is used at the end of the sentence in (4) is given a reflection of the meaning of the whole sentence. The pictograph-added sentence generation device of the present embodiment automatically gives pictographs to an input sentence in accordance with the usage of these pictographs.

本実施の形態に係る絵文字付与文生成装置10は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する絵文字付与文生成処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されている。このコンピュータは、機能的には、図2に示すように、形態素解析部12、文字絵文字置換部14、単語一致絵文字置換付加部16、単語近距離絵文字付加部18、文脈絵文字付加部20、文字置換絵文字記憶部22、単語置換絵文字記憶部24、付加絵文字記憶部26、文末絵文字記憶部28、及び絵文字付与文生成部30を含んだ構成で表すことができる。   The pictograph-added sentence generation device 10 according to the present embodiment includes a CPU (Central Processing Unit), a RAM (Random Access Memory), and a ROM (Read that stores a program for executing a pictograph-added sentence generation processing routine described later. Only memory). As shown in FIG. 2, this computer functionally includes a morphological analysis unit 12, a character pictogram replacement unit 14, a word matching pictogram replacement addition unit 16, a word short-distance pictogram addition unit 18, a context pictogram addition unit 20, a character It can be expressed by a configuration including a substitution pictogram storage unit 22, a word substitution pictogram storage unit 24, an additional pictogram storage unit 26, a sentence end pictogram storage unit 28, and a pictograph giving sentence generation unit 30.

形態素解析部12は、周知の形態素解析器により、入力された入力文を形態素解析し、解析結果を出力する。   The morpheme analyzer 12 performs a morpheme analysis on the input sentence inputted by a known morpheme analyzer and outputs an analysis result.

文字絵文字置換部14は、上記(1)の絵文字の用法に相当する処理を行うもので、入力文中に含まれる1文字が絵文字に置換可能か否かを判断し、置換可能な文字を絵文字に置換する。例えば、図3に示すような、絵文字と文字とを対応させた絵文字文字辞書を予め定めておき、入力文の先頭の文字から順次、絵文字文字辞書を参照して、その文字に対応する絵文字を抽出する。文字に対応する絵文字が存在する場合には、絵文字に置換する文字の位置を示す位置ID、及び検索された絵文字を文字置換絵文字記憶部22に記憶する。   The character pictogram replacement unit 14 performs processing corresponding to the usage of the pictogram (1) described above, determines whether one character included in the input sentence can be replaced with a pictogram, and converts the replaceable character into a pictogram. Replace. For example, as shown in FIG. 3, a pictogram character dictionary in which pictograms and characters are associated with each other is determined in advance, and the pictogram character dictionary is sequentially referred to from the first character of the input sentence, and the pictogram corresponding to the character is selected. Extract. When there is a pictogram corresponding to the character, the character replacement pictogram storage unit 22 stores the position ID indicating the position of the character to be replaced with the pictogram and the searched pictogram.

単語一致絵文字置換付加部16は、上記(2)及び(3)の絵文字の用法に相当する処理を行うもので、形態素解析された入力文中に含まれる1単語が絵文字に置換可能か否かを判断し、置換可能な文字を絵文字に置換する。例えば、本実施の形態の絵文字付与文生成装置10で使用される全ての絵文字について、図4に示すような、絵文字とその絵文字が表現する語義とを対応させた絵文字語義辞書を予め定めておく。そして、入力文の先頭の単語から順次、絵文字語義辞書を参照して、その単語を語義として含む絵文字を抽出する。なお、絵文字語義辞書では、1つの絵文字に複数の語義を対応させておいてもよいし、異なる絵文字について同一の語義を対応させてもよい。また、絵文字語義辞書には、全ての絵文字が格納されているため、上述の絵文字文字辞書に格納されている絵文字と重複するものも存在する。すなわち、1文字と置換可能な絵文字は、絵文字語義辞書及び絵文字文字辞書の両方に格納されていることになる。   The word matching pictogram replacement adding unit 16 performs processing corresponding to the usage of pictograms (2) and (3) above, and determines whether or not one word included in the input sentence subjected to morphological analysis can be replaced with a pictogram. Judgment is made, and replaceable characters are replaced with pictograms. For example, for all the pictograms used in the pictogram giving sentence generation apparatus 10 of the present embodiment, a pictogram word meaning dictionary associating the pictograms with the meanings represented by the pictograms as shown in FIG. 4 is determined in advance. . Then, referring to the pictogram word meaning dictionary sequentially from the first word of the input sentence, pictograms including the word as the word meaning are extracted. In the pictogram meaning dictionary, a plurality of meanings may be associated with one pictogram, or the same meaning may be associated with different pictograms. Further, since all pictograms are stored in the pictogram word meaning dictionary, there are some that overlap with the pictograms stored in the pictogram dictionary. That is, a pictogram that can be replaced with one character is stored in both the pictogram word meaning dictionary and the pictogram character dictionary.

また、単語一致絵文字置換付加部16は、1つの単語に対して複数の絵文字が抽出された場合には、入力文の文脈に最も沿った1つの絵文字を選択する。   In addition, when a plurality of pictograms are extracted for one word, the word matching pictogram replacement adding unit 16 selects one pictogram that most closely matches the context of the input sentence.

また、単語一致絵文字置換付加部16は、抽出された絵文字を単語と置換するか、または単語に付加するかを、単語と絵文字との意味的な距離に基づいて決定する。距離が近い場合には、単語と絵文字とを置換可能であると判断し、距離が近くない場合には、単語と絵文字とを置換不可であると判断し、単語に絵文字を付加するように決定する。単語と絵文字とを置換する場合には、絵文字に置換する単語の位置を示す位置ID、及び抽出された絵文字を単語置換絵文字記憶部24に記憶する。また、単語に絵文字を付加する場合には、絵文字を付加する位置を示す位置ID、及び抽出された絵文字を付加絵文字記憶部26に記憶する。   In addition, the word matching pictogram replacement adding unit 16 determines whether to replace the extracted pictogram with a word or to add to the word based on the semantic distance between the word and the pictogram. If the distance is close, it is determined that the word and pictogram can be replaced. If the distance is not close, it is determined that the word and pictogram cannot be replaced, and a decision is made to add the pictogram to the word. To do. When replacing a word with a pictogram, the position ID indicating the position of the word to be replaced with the pictogram and the extracted pictogram are stored in the word replacement pictogram storage unit 24. In addition, when adding a pictograph to a word, the location ID indicating the position to add the pictograph and the extracted pictograph are stored in the additional pictograph storage unit 26.

単語近距離絵文字付加部18は、上記(3)の絵文字の用法に相当する処理を実行するもので、単語一致絵文字置換付加部16において、単語を語義として含む絵文字が抽出されなかった場合に、単語と絵文字の語義との意味的な距離に基づいて、単語の意味に近い絵文字を、絵文字語義辞書から抽出する。ここで抽出される絵文字は、単語を語義として含むわけではなく、単語と意味的な距離が非常に近い語義を含む絵文字である。例えば、「ケーキを表現した絵文字」と、その絵文字の語義として「ケーキ」とが絵文字語義辞書に登録されている場合、単語「デザート」について、単語「デザート」とケーキの絵文字の語義「ケーキ」との意味的な距離は非常に近くなると考えられる。このように、単語と絵文字の語義との意味的な距離を用いることで、「ケーキを表現した絵文字」が絵文字語義辞書において語義として「デザート」を含まない場合でも、入力文中の単語「デザート」に付加する絵文字として「ケーキを表現した絵文字」が抽出される。   The word short-distance pictogram adding unit 18 performs processing corresponding to the above-described pictogram usage in (3). When the word matching pictogram replacement adding unit 16 does not extract a pictogram including a word as a meaning, Based on the semantic distance between the word and the meaning of the pictogram, a pictogram close to the meaning of the word is extracted from the pictogram semantic dictionary. The pictograms extracted here are pictograms that do not include words as meanings but include meanings that are very close in semantic distance to the words. For example, when “emoticon expressing cake” and “cake” are registered in the pictogram dictionary as the meaning of the pictogram, the word “dessert” and the meaning of the cake pictogram “cake” for the word “dessert” It is thought that the semantic distance to is very close. In this way, by using the semantic distance between the word and the meaning of the pictogram, the word “dessert” in the input sentence even when the “pictogram representing the cake” does not include “dessert” as the meaning in the pictogram meaning dictionary As a pictograph to be added to the “pictograph representing the cake” is extracted.

また、単語近距離絵文字付加部18は、単語の意味に近い絵文字が抽出された場合には、絵文字を付加する位置を示す位置ID、及び抽出された絵文字を付加絵文字記憶部26に記憶する。なお、単語近距離絵文字付加部18で抽出された絵文字は、単語一致絵文字置換付加部16で抽出されなかった絵文字であるので、絵文字から単語を推定することが困難な絵文字であるとみなして、絵文字の付与方法は付加のみとする。   Further, when a pictogram close to the meaning of the word is extracted, the word near distance pictogram adding unit 18 stores the position ID indicating the position to which the pictogram is added and the extracted pictogram in the additional pictogram storage unit 26. Since the pictograms extracted by the word short distance pictogram adding unit 18 are pictograms not extracted by the word matching pictogram replacement adding unit 16, it is assumed that it is difficult to estimate the word from the pictograms. The addition method of pictograms is only addition.

文脈絵文字付加部20は、上記(4)の絵文字の用法に相当する処理を実行するもので、入力文の文脈と意味的な距離が近い絵文字を、絵文字語義辞書から抽出し、抽出された絵文字を文末絵文字記憶部28に記憶する。   The context pictogram adding unit 20 executes processing corresponding to the pictogram usage described in (4) above, and extracts pictograms having a semantic distance close to the context of the input sentence from the pictogram word meaning dictionary. Is stored in the sentence end pictogram storage unit 28.

絵文字付与文生成部30は、文字置換絵文字記憶部22、単語置換絵文字記憶部24、付加絵文字記憶部26、及び文末絵文字記憶部28に記憶された情報に基づいて、入力文に絵文字を置換または付加して、絵文字付与文を生成する。   The pictograph-added sentence generation unit 30 replaces the pictograph with the input sentence based on the information stored in the character substitution pictogram storage unit 22, the word substitution pictogram storage unit 24, the additional pictogram storage unit 26, and the sentence end pictogram storage unit 28. In addition, a pictographic text is generated.

次に、図5を参照して、本実施の形態の絵文字付与文生成装置10において実行される絵文字付与文生成処理ルーチンについて説明する。   Next, with reference to FIG. 5, a pictographic character sentence generation process routine executed in the pictorial character sentence generation device 10 of the present embodiment will be described.

ステップ100で、入力文を取得する。ここでは、「晴れだったので、車で出かけた!」という入力文が取得されたものとする。次に、ステップ200で、文字絵文字置換処理を実行する。   In step 100, an input sentence is acquired. Here, it is assumed that the input sentence “I went out by car because it was sunny!” Was acquired. Next, in step 200, a character / pictogram replacement process is executed.

ここで、図6を参照して、文字絵文字置換処理ルーチンについて説明する。   Here, with reference to FIG. 6, a character pictogram replacement processing routine will be described.

ステップ202で、例えば、図7に示すように、入力文の先頭の文字から順に文字IDとしてMp(p=1,2,・・・,n:nは入力文に含まれる文字数)を割り当てる。また、変数pに1をセットする。   In step 202, for example, as shown in FIG. 7, Mp (p = 1, 2,..., N: n is the number of characters included in the input sentence) is assigned as the character ID in order from the first character of the input sentence. Also, 1 is set in the variable p.

次に、ステップ204で、文字IDがMpの文字(入力文のp番目の文字)と絵文字文字辞書とを比較する。次に、ステップ206で、絵文字文字辞書に文字Mpに対応する絵文字が存在するか否かを判定する。存在する場合には、その絵文字を抽出して、ステップ208へ移行し、絵文字に置換する文字の位置を示す位置IDとしてMpと、上記ステップ206で抽出された絵文字とを、文字置換絵文字記憶部22に記憶する。例えば、文字M15=「!」について、図3の絵文字文字辞書を参照すると、文字「!」に一致する絵文字が存在するため、この絵文字が抽出される。そして、図8に示すように、文字置換絵文字記憶部22に記憶される。   Next, in step 204, the character whose character ID is Mp (the p-th character in the input sentence) is compared with the pictogram character dictionary. Next, in step 206, it is determined whether or not a pictograph corresponding to the character Mp exists in the pictograph character dictionary. If it exists, the pictograph is extracted and the process proceeds to step 208, where Mp as the position ID indicating the position of the character to be replaced with the pictogram and the pictogram extracted in step 206 are used as the character replacement pictogram storage unit. 22 to store. For example, referring to the pictogram character dictionary of FIG. 3 for the character M15 = “!”, Since there is a pictogram that matches the character “!”, This pictogram is extracted. Then, as shown in FIG. 8, it is stored in the character replacement pictogram storage unit 22.

次に、ステップ210で、pがnになったか否かを判定することにより、入力文の全ての文字について処理を終了したか否かを判定する。p≠nの場合には、ステップ212へ移行して、pを1インクリメントして、ステップ204へ戻って処理を繰り返す。p=nとなった場合には、絵文字付与文生成処理(図5)へリターンし、ステップ300へ移行する。   Next, in step 210, it is determined whether or not processing has been completed for all characters of the input sentence by determining whether p has reached n. If p ≠ n, the process proceeds to step 212, p is incremented by 1, and the process returns to step 204 to repeat the process. If p = n, the process returns to the pictograph-added sentence generation process (FIG. 5) and proceeds to step 300.

ステップ300では、上記ステップ100で取得された入力文を形態素解析する。次に、ステップ400で、単語一致絵文字置換付加処理を実行する。   In step 300, the input sentence acquired in step 100 is subjected to morphological analysis. Next, in step 400, a word matching pictogram replacement addition process is executed.

ここで、図9を参照して、単語一致絵文字置換付加処理ルーチンについて説明する。   Here, with reference to FIG. 9, a word matching pictogram replacement processing routine will be described.

ステップ402で、例えば、図10に示すように、入力文の形態素解析結果を用いて、先頭の単語から順に単語IDとしてKi(i=1,2,・・・,m:mは入力文に含まれる単語数)を割り当てる。また、変数iに1をセットする。   In step 402, for example, as shown in FIG. 10, Ki (i = 1, 2,..., M: m is used as the input sentence in order from the first word using the morphological analysis result of the input sentence. Number of words included). Also, 1 is set to the variable i.

次に、ステップ404で、単語IDがKiの文字(入力文のi番目の単語)と絵文字語義辞書とを比較する。次に、ステップ406で、絵文字語義辞書に単語Kiを語義に含む絵文字が存在するか否かを判定する。存在する場合には、その絵文字を抽出して、ステップ408へ移行する。存在しない場合には、ステップ500へ移行して、後述する単語近距離絵文字付加処理を実行する。   Next, in step 404, the character with the word ID Ki (i-th word in the input sentence) is compared with the pictogram meaning dictionary. Next, in step 406, it is determined whether there is a pictograph that includes the word Ki in the meaning in the pictograph meaning dictionary. If it exists, the pictograph is extracted and the process proceeds to step 408. If it does not exist, the process proceeds to step 500 to execute a word short distance pictogram adding process to be described later.

ステップ408では、上記ステップ406で抽出された絵文字が複数か否かを判定し、複数の場合には、ステップ410へ移行し、1つだけの場合には、ステップ410をスキップして、ステップ412へ移行する。   In step 408, it is determined whether or not there are a plurality of pictograms extracted in step 406. If there are a plurality of pictograms, the process proceeds to step 410. If there is only one, the process skips step 410 and step 412. Migrate to

ステップ410では、上記ステップ406で抽出された複数の絵文字から、入力文の文脈と絵文字との意味的な距離が最も近い絵文字を、最も入力文の文脈に沿った絵文字として選択する。具体的には、まず、入力文全体の文脈を表現する特徴ベクトルを算出する。文脈を表現する特徴ベクトルは、例えば特開2007−317132号公報に開示されている手法で生成された概念ベクトル集合を用いて、入力文中の単語各々の概念ベクトルaKiを求め、これらの概念ベクトルの重心を入力文の文脈を表現する特徴ベクトルとする。概念ベクトルの重心は、下記(1)式により算出する。 In step 410, the pictogram having the closest semantic distance between the context of the input sentence and the pictogram is selected from the plurality of pictograms extracted in step 406 as the pictogram along the context of the input sentence. Specifically, first, a feature vector expressing the context of the entire input sentence is calculated. As the feature vector expressing the context, for example, using a concept vector set generated by a method disclosed in Japanese Patent Application Laid-Open No. 2007-317132, a concept vector a Ki of each word in the input sentence is obtained, and these concept vectors are obtained. Is the feature vector expressing the context of the input sentence. The center of gravity of the concept vector is calculated by the following equation (1).

Figure 2012208639
Figure 2012208639

また、上述の単語各々の概念ベクトルaKiを求めたのと同様の手法により、抽出された複数の絵文字各々の概念ベクトルを求める。そして、求めた絵文字の概念ベクトル各々と文脈を表現する特徴ベクトルとの距離を算出し、その距離が最も小さい絵文字を選択する。 Further, the concept vector of each of the extracted pictograms is obtained by the same method as that for obtaining the concept vector a Ki of each word. Then, the distance between each obtained concept vector of pictographs and the feature vector expressing the context is calculated, and the pictograph with the smallest distance is selected.

次に、ステップ412で、単語Kiと選択された絵文字との意味的な距離を算出する。具体的には、上記ステップ410の処理過程で得られた単語Kiの概念ベクトルaKiと選択された絵文字の概念ベクトルとの距離(t)を算出する。 Next, in step 412, the semantic distance between the word Ki and the selected pictogram is calculated. Specifically, the distance (t) between the concept vector a Ki of the word Ki obtained in the process of step 410 and the concept vector of the selected pictogram is calculated.

次に、ステップ414で、上記ステップ412で算出した距離(t)が、閾値(k)よりも小さいか否かを判定する。この判定は、選択された絵文字から単語Kiを推定可能か否かの判定、すなわち、単語Kiを絵文字で置換可能であるか否かを判定するものである。閾値(k)はこの判定のための値を学習処理等により予め定めておく。距離(t)<閾値(k)の場合には、絵文字から単語Kiを推定可能、すなわち置換可能であると判定して、ステップ416へ移行する。一方、距離(t)≧閾値(t)の場合には、絵文字から単語Kiを推定不可、すなわち置換不可であるため、絵文字の付加を行うと判定して、ステップ418へ移行する。   Next, in step 414, it is determined whether or not the distance (t) calculated in step 412 is smaller than the threshold value (k). This determination is to determine whether or not the word Ki can be estimated from the selected pictograph, that is, whether or not the word Ki can be replaced with a pictograph. The threshold (k) is determined in advance by a learning process or the like for this determination. If distance (t) <threshold value (k), it is determined that the word Ki can be estimated from the pictograph, that is, can be replaced, and the process proceeds to step 416. On the other hand, if distance (t) ≧ threshold value (t), the word Ki cannot be estimated from the pictograph, that is, cannot be replaced. Therefore, it is determined that the pictograph is added, and the process proceeds to step 418.

ステップ416では、絵文字に置換する単語の位置を示す位置IDとしてKiと、上記ステップ406で抽出された、または上記ステップ410で選択された絵文字とを、単語置換絵文字記憶部24に記憶する。例えば、単語K4=「車」について、車を表現する絵文字に置換可能であると判定された場合には、図11に示すように、単語置換絵文字記憶部24に記憶される。   In step 416, Ki as the position ID indicating the position of the word to be replaced with the pictogram and the pictogram extracted in step 406 or selected in step 410 are stored in the word replacement pictogram storage unit 24. For example, if it is determined that the word K4 = “car” can be replaced with a pictograph representing the car, the word K4 is stored in the word replacement pictograph storage unit 24 as shown in FIG.

一方、ステップ418では、絵文字を付加する単語の位置を示す位置IDとしてKiと、上記ステップ406で抽出された、または上記ステップ410で選択された絵文字とを、付加絵文字記憶部26に記憶する。例えば、単語K1=「晴れ」について、晴れを表現する絵文字を付加すると判定された場合には、図12に示すように、付加絵文字記憶部26に記憶される。   On the other hand, in step 418, Ki as the position ID indicating the position of the word to which the pictogram is added and the pictogram extracted in step 406 or selected in step 410 are stored in the additional pictogram storage unit 26. For example, when it is determined that a pictograph expressing clear is added for the word K1 = “clear”, it is stored in the additional pictogram storage unit 26 as shown in FIG.

次に、ステップ420で、iがmになったか否かを判定することにより、入力文の全ての単語について処理を終了したか否かを判定する。i≠mの場合には、ステップ422へ移行して、iを1インクリメントして、ステップ404へ戻って処理を繰り返す。i=mとなった場合には、絵文字付与文生成処理(図5)へリターンし、ステップ600へ移行する。   Next, in step 420, it is determined whether or not all words of the input sentence have been processed by determining whether i has become m. If i ≠ m, the process proceeds to step 422, i is incremented by 1, and the process returns to step 404 to repeat the process. If i = m, the process returns to the pictograph-added sentence generation process (FIG. 5) and proceeds to step 600.

ここで、図13を参照して、単語一致絵文字置換付加処理(図9)のステップ500で実行される単語近距離絵文字付加処理ルーチンについて説明する。   Here, with reference to FIG. 13, the word short distance pictogram adding process routine executed in step 500 of the word matching pictogram replacement adding process (FIG. 9) will be described.

ステップ502で、単語Kiと絵文字語義辞書に含まれる語義各々との意味的な距離を算出する。具体的には、上記ステップ410の処理過程で得られた単語Kiの概念ベクトルaKiと、同様の処理により求められる語義の概念ベクトルとの距離(o)を算出する。 In step 502, the semantic distance between the word Ki and each meaning included in the pictogram meaning dictionary is calculated. Specifically, the distance (o) between the concept vector a Ki of the word Ki obtained in the process of step 410 and the meaning concept vector obtained by the same process is calculated.

次に、ステップ504で、上記ステップ502で算出した距離(o)が閾値(Y)より小さい絵文字が存在するか否かを判定する。この判定は、単語と一致する語義を含む絵文字ではないが、単語に付加して用いることでその単語を強調する役割を果たす絵文字が存在するか否かを判定するものである。閾値(Y)はこの判定のための値を学習処理等により予め定めておく。距離(o)<閾値(Y)の絵文字が存在する場合には、その絵文字を抽出して、ステップ506へ移行する。   Next, in step 504, it is determined whether or not there is a pictograph whose distance (o) calculated in step 502 is smaller than a threshold (Y). This determination is to determine whether or not there is a pictogram that does not include the meaning of the word that matches the word, but serves to emphasize the word by being added to the word. As the threshold (Y), a value for this determination is determined in advance by a learning process or the like. If there is a pictograph of distance (o) <threshold (Y), the pictograph is extracted and the process proceeds to step 506.

ステップ506では、絵文字を付加する単語の位置を示す位置IDとしてKiと、上記ステップ506で抽出された絵文字とを、付加絵文字記憶部26に記憶して、単語一致絵文字置換付加処理(図9)へリターンして、ステップ420へ移行する。一方、上記ステップ504で、距離(o)<閾値(Y)の絵文字が存在しないと判定された場合には、ステップ506をスキップして、そのままリターンする。   In step 506, Ki as the position ID indicating the position of the word to which the pictogram is added and the pictogram extracted in step 506 are stored in the additional pictogram storage unit 26, and word matching pictogram replacement addition processing (FIG. 9). And return to step 420. On the other hand, if it is determined in step 504 that there is no pictograph of distance (o) <threshold (Y), step 506 is skipped and the process returns.

次に、図14を参照して、絵文字付与文生成処理(図5)のステップ600で実行される文脈絵文字付加処理ルーチンについて説明する。   Next, with reference to FIG. 14, the context pictogram addition process routine executed in step 600 of the pictograph giving sentence generation process (FIG. 5) will be described.

ステップ602で、入力文の文脈と絵文字語義辞書に含まれる絵文字各々との意味的な距離を算出する。具体的には、上記ステップ410の処理で得られた入力文の文脈を表現する特徴ベクトルと、ステップ410と同様の処理により求められる絵文字語義辞書に含まれる絵文字各々の概念ベクトルとの距離(u)を算出する。   In step 602, a semantic distance between the context of the input sentence and each pictogram included in the pictogram meaning dictionary is calculated. Specifically, the distance (u) between the feature vector representing the context of the input sentence obtained in the process of step 410 and the concept vector of each pictogram included in the pictogram word meaning dictionary obtained by the same process as in step 410. ) Is calculated.

次に、ステップ604で、上記ステップ602で算出した距離(u)が閾値(V)より小さい絵文字が存在するか否かを判定する。この判定は、入力文全体を表現する絵文字が存在するか否かを判定するものである。閾値(V)はこの判定のための値を学習処理等により予め定めておく。距離(u)<閾値(V)の絵文字が存在する場合には、その絵文字を抽出して、ステップ606へ移行する。   Next, in step 604, it is determined whether or not there is a pictograph whose distance (u) calculated in step 602 is smaller than the threshold value (V). This determination is to determine whether or not there is a pictograph representing the entire input sentence. As the threshold (V), a value for this determination is determined in advance by a learning process or the like. If there is a pictograph whose distance (u) <threshold (V), the pictograph is extracted and the process proceeds to step 606.

ステップ606では、上記ステップ604で抽出された絵文字を、図15に示すように、文末絵文字記憶部28に記憶する。なお、文末絵文字記憶部28に記憶される絵文字は、予め付加位置が定められているため(ここでは文末)、文字置換絵文字記憶部22、単語置換絵文字記憶部24、及び付加絵文字記憶部26とは異なり、絵文字を置換または付与する位置を示す位置IDの項目は含まれない。そして、絵文字付与文生成処理(図5)へリターンして、ステップ700へ移行する。一方、上記ステップ604で、距離(u)<閾値(V)の絵文字が存在しないと判定された場合には、ステップ606をスキップして、そのままリターンする。   In step 606, the pictograph extracted in step 604 is stored in the sentence end pictogram storage unit 28 as shown in FIG. In addition, since the addition position of the pictogram stored in the sentence end pictogram storage unit 28 is determined in advance (here, the end of the sentence), the character substitution pictogram storage unit 22, the word substitution pictogram storage unit 24, and the additional pictogram storage unit 26 Unlike the above, the item of the position ID indicating the position where the pictogram is replaced or added is not included. Then, the process returns to the pictograph-added sentence generation process (FIG. 5) and proceeds to step 700. On the other hand, if it is determined in step 604 that there is no pictograph of distance (u) <threshold (V), step 606 is skipped and the process returns.

次に、図16を参照して、絵文字付与文生成処理(図5)のステップ700で実行される生成処理ルーチンについて説明する。   Next, with reference to FIG. 16, the generation process routine executed in step 700 of the pictograph attached sentence generation process (FIG. 5) will be described.

ステップ702で、文字置換絵文字記憶部22に記憶された絵文字を読み出し、記憶された位置IDが示す文字と絵文字とを置換する。例えば、図17(a)に示すように、入力文の文字「!」が絵文字に置換される。   In step 702, the pictogram stored in the character replacement pictogram storage unit 22 is read, and the character indicated by the stored position ID is replaced with the pictogram. For example, as shown in FIG. 17A, the character “!” In the input sentence is replaced with a pictograph.

次に、ステップ704で、単語置換絵文字記憶部24に記憶された絵文字を読み出す。次に、ステップ706で、上記ステップ704で読み出した絵文字が、上記ステップ702の文字と絵文字との置換処理で既に付与済みの絵文字か否かを判定する。付与されていない絵文字の場合には、ステップ708へ移行し、記憶された位置IDが示す単語と絵文字とを置換する。例えば、図17(b)に示すように、入力文の単語「車」が絵文字に置換される。一方、既に付与済みの絵文字の場合には、ステップ708をスキップして、ステップ710へ移行する。   Next, in step 704, the pictogram stored in the word replacement pictogram storage unit 24 is read. Next, in step 706, it is determined whether or not the pictograph read out in step 704 is a pictograph that has already been assigned in the replacement process of the text in step 702. In the case of an unassigned pictograph, the process proceeds to step 708, and the word and pictograph indicated by the stored position ID are replaced. For example, as shown in FIG. 17B, the word “car” in the input sentence is replaced with a pictograph. On the other hand, if the pictograph has already been assigned, step 708 is skipped and the process proceeds to step 710.

ステップ710では、付加絵文字記憶部26に記憶された絵文字を読み出す。次に、ステップ712で、上記ステップ710で読み出した絵文字が、上記ステップ702の文字と絵文字との置換処理、または上記ステップ708の単語と絵文字との置換処理で既に付与済みの絵文字か否かを判定する。付与されていない絵文字の場合には、ステップ714へ移行し、記憶された位置IDが示す単語の後に絵文字を付加する。例えば、図17(c)に示すように、入力文の単語「晴れ」の後に絵文字が付加される。一方、既に付与済みの絵文字の場合には、ステップ714をスキップして、ステップ716へ移行する。   In step 710, the pictogram stored in the additional pictogram storage unit 26 is read. Next, in step 712, it is determined whether or not the pictograph read out in step 710 is a pictograph that has already been assigned in the replacement process of the character and pictogram in step 702 or the replacement process of the word and pictogram in step 708. judge. In the case of an unassigned pictograph, the process proceeds to step 714, and the pictograph is added after the word indicated by the stored position ID. For example, as shown in FIG. 17C, a pictograph is added after the word “sunny” of the input sentence. On the other hand, if the pictograph has already been assigned, step 714 is skipped and the process proceeds to step 716.

ステップ716では、文末絵文字記憶部28に記憶された絵文字を読み出す。次に、ステップ718で、上記ステップ716で読み出した絵文字が、上記ステップ702の文字と絵文字との置換処理、上記ステップ708の単語と絵文字との置換処理、または上記ステップ714の単語への絵文字の付加処理で既に付与済みの絵文字か否かを判定する。付与されていない絵文字の場合には、ステップ720へ移行し、入力文の文末に絵文字を付加する。例えば、図17(d)に示すように、文末に絵文字が付加される。一方、既に付与済みの絵文字の場合には、ステップ720をスキップして、ステップ722へ移行する。   In step 716, the pictogram stored in the sentence end pictogram storage unit 28 is read. Next, in step 718, the pictogram read in step 716 is replaced with the character and pictogram replacement process in step 702, the word and pictogram substitution process in step 708, or the pictogram to the word in step 714. It is determined whether or not the pictograph has already been assigned in the addition process. In the case of an unassigned pictograph, the process proceeds to step 720, and the pictograph is added to the end of the input sentence. For example, as shown in FIG. 17D, a pictograph is added to the end of the sentence. On the other hand, if the pictograph has already been assigned, step 720 is skipped and the process proceeds to step 722.

ステップ722では、入力文に対して絵文字が置換または付加されることにより生成された絵文字付与文を出力して、処理を終了する。   In step 722, a pictograph-added sentence generated by replacing or adding a pictograph to the input sentence is output, and the process ends.

以上説明したように、本実施の形態の絵文字付与文生成装置によれば、単語の概念ベクトルと絵文字の概念ベクトルとの距離が閾値より小さい場合には、単語と絵文字とを置換し、距離が閾値以上の場合には、単語に絵文字を付加するように、絵文字の付与方法を使い分けるため、絵文字だけで単語を表現できる場合には、単語を絵文字で置換し、絵文字だけでは単語を推定することが困難な場合には、単語に絵文字を付加するという、実際の絵文字の用法に沿った絵文字の付与を行うことができる。   As described above, according to the pictographic character sentence generation device of the present embodiment, when the distance between the concept vector of the word and the concept vector of the pictograph is smaller than the threshold, the word and the pictograph are replaced, and the distance is When the threshold value is exceeded, the emoticon assignment method is used differently so that a pictogram is added to the word. If the word can be expressed only with a pictogram, the word is replaced with the pictogram, and the word is estimated only with the pictogram. When it is difficult to add pictograms in accordance with the actual usage of pictograms, it is possible to add pictograms to words.

また、単語と絵文字の語義とが一致しない場合でも、単語の概念ベクトルと絵文字の語義の概念ベクトルとの距離が近い絵文字を単語に付加するため、単語に近い意味を持った絵文字により単語を強調するという、実際の絵文字の用法に沿った絵文字の付与を行うことができる。   In addition, even when the word and the meaning of the pictogram do not match, an emoji that is close to the word concept vector and the meaning vector of the pictogram is added to the word. It is possible to give pictograms according to the actual usage of pictograms.

また、入力文全体の文脈を表現する特徴ベクトルと絵文字の概念ベクトルとの距離が近い絵文字を文末に付与するため、文章全体の意味を反映した絵文字を付与するという、実際の絵文字の用法に沿った絵文字の付与を行うことができる。   In addition, in order to add a pictograph with a close distance between the feature vector expressing the context of the entire input sentence and the concept vector of the pictograph at the end of the sentence, the pictograph reflecting the meaning of the whole sentence is added. Can be added.

また、単語単位や文単位だけでなく、文字単位でも絵文字との置換を行うため、より細やかな絵文字付与を行うことができる。   Further, since substitution with pictograms is performed not only in word units and sentence units but also in character units, it is possible to give more detailed pictograms.

なお、上記実施の形態では、単語に絵文字を付加する場合に、単語の後に付加する場合について説明したが、単語の前に付加するようにしてもよい。また、入力文全体を表現する絵文字を付加する場合に、入力文の末尾に付加する場合について説明したが、入力文の先頭に付加するようにしてもよい。また、入力文一文全体を表現する絵文字を付加する場合について説明したが、入力文を文節毎に分解し、各文節を表現する絵文字を各文節の前または後に付加するようにしてもよい。   In the above embodiment, when a pictograph is added to a word, the case where it is added after the word has been described. However, it may be added before the word. Moreover, although the case where a pictograph representing the entire input sentence is added at the end of the input sentence has been described, it may be added at the beginning of the input sentence. Further, the case where a pictogram representing the entire input sentence is added has been described. However, the input sentence may be decomposed for each phrase, and the pictogram representing each phrase may be added before or after each phrase.

また、上記実施の形態では、単語一致絵文字置換付与処理において、絵文字を置換するか付加するかを決定する際に、単語及び絵文字の概念ベクトルを求めて、単語と絵文字との意味的な距離を算出する場合について説明したが、概念ベクトルまたは絵文字と語義との意味的な距離を予め登録しておいてもよい。例えば、絵文字語義辞書に、[「絵文字(b)」:「語義1(c1)」,「語義2(c2)」,「語義3(c3)」] (( )内は概念ベクトル)のように登録しておくことができる。この場合、入力文中のある単語が絵文字語義辞書の語義1と一致した場合には、その単語と絵文字との意味的な距離(t)を、絵文字語義辞書に登録された概念ベクトルbと概念ベクトルc1との距離として算出することができる。また、[「絵文字」:「語義1(t1)」,「語義2(t2)」,「語義3(t3)」] (( )内は絵文字との意味的な距離)のように登録しておくこともできる。この場合、入力文中のある単語が絵文字語義辞書の語義1と一致した場合には、その単語と絵文字との意味的な距離(t)は、絵文字語義辞書に登録された(t1)をそのまま用いることができる。   In the above embodiment, when determining whether to replace or add a pictogram in the word matching pictogram replacement giving process, the concept vector of the word and pictogram is obtained, and the semantic distance between the word and the pictogram is calculated. Although the case of calculating has been described, a semantic distance between a concept vector or a pictograph and a meaning may be registered in advance. For example, in the pictogram word meaning dictionary, [“pictogram (b)”: “meaning 1 (c1)”, “meaning 2 (c2)”, “meaning 3 (c3)”] (() is a concept vector) You can register. In this case, when a certain word in the input sentence matches the meaning 1 of the pictogram word meaning dictionary, the semantic distance (t) between the word and the pictogram is expressed as the concept vector b and the concept vector registered in the pictogram word meaning dictionary. It can be calculated as a distance from c1. Also, register as [[Emoji]: “Glossy 1 (t1)”, “Glossy 2 (t2)”, “Glossy 3 (t3)”] (() is the semantic distance to the glyph) It can also be left. In this case, when a certain word in the input sentence matches the meaning 1 in the pictogram meaning dictionary, the semantic distance (t) between the word and the pictogram uses (t1) registered in the pictogram meaning dictionary as it is. be able to.

また、上記実施の形態では、単語一致絵文字置換付加部及び単語近距離絵文字付加部の処理において、入力文に含まれる全ての単語を対象として処理する場合について説明したが、自立語である単語のみを処理対象とするようにしてもよい。   Further, in the above embodiment, the case of processing all the words included in the input sentence in the processing of the word matching pictogram replacement adding unit and the word short distance pictogram adding unit has been described, but only words that are independent words May be processed.

また、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

また、上述の絵文字付与文生成装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   In addition, the above-described pictographic character generation sentence generation apparatus has a computer system inside, but the “computer system” includes a homepage provision environment (or display environment) if a WWW system is used. Shall be.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

10 絵文字付与文生成装置
12 形態素解析部
14 文字絵文字置換部
16 単語一致絵文字置換付加部
18 単語近距離絵文字付加部
20 文脈絵文字付加部
22 文字置換絵文字記憶部
24 単語置換絵文字記憶部
26 付加絵文字記憶部
28 文末絵文字記憶部
30 絵文字付与文生成部
DESCRIPTION OF SYMBOLS 10 Pictogram provision sentence production | generation apparatus 12 Morphological analysis part 14 Character pictogram substitution part 16 Word matching pictogram substitution addition part 18 Word short-distance pictogram addition part 20 Context pictogram addition part 22 Character substitution pictogram storage part 24 Word substitution pictogram storage part 26 Additional pictogram memory Part 28 End-of-sentence pictogram storage part 30 Emoji-giving sentence generation part

Claims (7)

絵文字と該絵文字が表す少なくとも1つの語義との組を複数記憶した絵文字語義記憶手段から、入力文に含まれる単語と一致する語義を表す絵文字を抽出する一致絵文字抽出手段と、
前記一致絵文字抽出手段により抽出された絵文字の意味的特徴量、及び前記単語の意味的特徴量から求まる該絵文字と該単語との意味的な距離が、予め定めた絵文字単語距離閾値より小さい場合には、前記絵文字の付与方法を置換に決定し、前記距離が前記絵文字単語距離閾値以上の場合には前記絵文字の付与方法を付加に決定する決定手段と、
前記決定手段により置換に決定された場合には、前記単語を前記一致絵文字抽出手段により抽出された絵文字に置換し、前記決定手段により付加に決定された場合には、前記単語の前または後に前記一致絵文字抽出手段により抽出された絵文字を付加することにより、前記入力文に絵文字を付与した絵文字付与文を生成する生成手段と、
を含む絵文字付与文生成装置。
A matching pictogram extracting means for extracting a pictogram representing a meaning matching the word included in the input sentence from a pictogram meaning storage means storing a plurality of sets of pictograms and at least one meaning represented by the pictogram;
When the semantic distance between the pictogram and the word obtained from the semantic feature quantity of the pictogram extracted by the matching pictogram extracting means and the semantic feature quantity of the word is smaller than a predetermined pictogram word distance threshold. Determining the substitution of the pictogram giving method, and when the distance is greater than or equal to the pictogram word distance threshold, the decision means for determining the pictogram grant method to add,
When it is determined to be replaced by the determining means, the word is replaced with a pictogram extracted by the matching pictogram extracting means, and when it is determined to be added by the determining means, before or after the word Generating means for generating a pictographic character sentence in which a pictographic character is added to the input sentence by adding a pictographic character extracted by the matching pictographic character extracting means;
An emoji-giving sentence generation device including
前記入力文に含まれる単語と一致する語義を表す絵文字が、前記一致絵文字抽出手段により抽出されなかった場合に、前記絵文字語義記憶手段に記憶された語義各々の意味的特徴量、及び前記単語の意味的特徴量から求まる該語義各々と該単語との意味的な距離が、予め定めた語義単語距離閾値より小さい語義を表す絵文字を、前記絵文字語義記憶手段から抽出する近距離絵文字抽出手段を含み、
前記生成手段は、前記単語の前または後に前記近距離絵文字抽出手段により抽出された絵文字を付加する
請求項1記載の絵文字付与文生成装置。
When a pictogram representing a meaning that matches a word included in the input sentence is not extracted by the matching pictogram extracting means, each semantic feature amount of the meaning stored in the pictogram meaning storage means, and A short distance pictogram extracting means for extracting, from the pictogram meaning storage means, a pictogram representing a sense of meaning whose semantic distance between each of the meanings obtained from the semantic feature and the word is smaller than a predetermined meaning word distance threshold; ,
The pictograph-added sentence generation apparatus according to claim 1, wherein the generation unit adds the pictograph extracted by the short-distance pictograph extraction unit before or after the word.
前記絵文字語義記憶手段に記憶された絵文字各々の意味的特徴量、及び前記入力文の文脈を示す特徴量から求まる該絵文字各々と該入力文との意味的な距離が、予め定めた絵文字文脈距離閾値より小さい絵文字を、前記絵文字語義記憶手段から抽出する文脈絵文字抽出手段を含み、
前記生成手段は、前記入力文の先頭または末尾に、前記文脈絵文字抽出手段により抽出された絵文字を付加する
請求項1記載または請求項2記載の絵文字付与文生成装置。
The semantic distance between each of the pictograms and the input sentence obtained from the semantic feature quantity of each pictogram stored in the pictogram meaning storage means and the feature quantity indicating the context of the input sentence is a predetermined pictogram context distance. A contextual pictogram extracting means for extracting a pictogram smaller than a threshold from the pictogram meaning storage means;
The pictograph-added sentence generation apparatus according to claim 1, wherein the generation unit adds the pictograph extracted by the context pictograph extraction unit to the beginning or end of the input sentence.
一致絵文字抽出手段と、決定手段と、生成手段とを含む絵文字付与文生成装置における絵文字付与文生成方法であって、
前記一致絵文字抽出手段は、絵文字と該絵文字が表す少なくとも1つの語義との組を複数記憶した絵文字語義記憶手段から、入力文に含まれる単語と一致する語義を表す絵文字を抽出し、
前記決定手段は、前記一致絵文字抽出手段により抽出された絵文字の意味的特徴量、及び前記単語の意味的特徴量から求まる該絵文字と該単語との意味的な距離が、予め定めた絵文字単語距離閾値より小さい場合には、前記絵文字の付与方法を置換に決定し、前記距離が前記絵文字単語距離閾値以上の場合には前記絵文字の付与方法を付加に決定し、
前記生成手段は、前記決定手段により置換に決定された場合には、前記単語を前記一致絵文字抽出手段により抽出された絵文字に置換し、前記決定手段により付加に決定された場合には、前記単語の前または後に前記一致絵文字抽出手段により抽出された絵文字を付加することにより、前記入力文に絵文字を付与した絵文字付与文を生成する
絵文字付与文生成方法。
A pictogram giving sentence generating method in a pictogram giving sentence generating device including a matching pictogram extracting means, a determining means, and a generating means,
The matching pictogram extracting means extracts a pictogram representing a meaning that matches a word included in the input sentence from a pictogram meaning storing means storing a plurality of sets of pictograms and at least one meaning represented by the pictogram,
The determining means includes a predetermined pictogram word distance in which the semantic distance between the pictogram and the word obtained from the semantic feature quantity of the pictogram extracted by the matching pictogram extraction section and the semantic feature quantity of the word is determined in advance. If the threshold is smaller than the threshold, the method for giving the pictogram is determined to be replaced, and if the distance is greater than or equal to the threshold for the pictogram word distance, the method for giving the pictogram is determined to be added.
The generation unit replaces the word with a pictogram extracted by the matching pictogram extraction unit when the determination unit determines to replace, and when the generation unit determines to add, the word A pictogram-added sentence generation method for generating a pictogram-added sentence in which a pictogram is added to the input sentence by adding the pictogram extracted by the matching pictogram extracting means before or after.
近距離絵文字抽出手段をさらに含む絵文字付与文生成装置における絵文字付与文生成方法であって、
前記近距離絵文字抽出手段は、前記入力文に含まれる単語と一致する語義を表す絵文字が、前記一致絵文字抽出手段により抽出されなかった場合に、前記絵文字語義記憶手段に記憶された語義各々の意味的特徴量、及び前記単語の意味的特徴量から求まる該語義各々と該単語との意味的な距離が、予め定めた語義単語距離閾値より小さい語義を表す絵文字を、前記絵文字語義記憶手段から抽出し、
前記生成手段は、前記単語の前または後に前記近距離絵文字抽出手段により抽出された絵文字を付加する
請求項4記載の絵文字付与文生成方法。
A pictogram giving sentence generating method in a pictogram giving sentence generating device further including a short distance pictogram extracting means,
The short-distance pictogram extracting means means the meaning of each meaning stored in the pictogram meaning storage means when the pictogram representing the meaning matching the word included in the input sentence is not extracted by the matching pictogram extracting means. A pictogram representing a meaning of a semantic distance between each word meaning obtained from the characteristic feature amount and the semantic feature amount of the word and the word is smaller than a predetermined word meaning word distance threshold value is extracted from the pictogram word meaning storage means And
The pictograph-added sentence generation method according to claim 4, wherein the generation unit adds the pictograph extracted by the short-range pictograph extraction unit before or after the word.
文脈絵文字抽出手段をさらに含む絵文字付与文生成装置における絵文字付与文生成方法であって、
前記文脈絵文字抽出手段は、前記絵文字語義記憶手段に記憶された絵文字各々の意味的特徴量、及び前記入力文の文脈を示す特徴量から求まる該絵文字各々と該入力文との意味的な距離が、予め定めた絵文字文脈距離閾値より小さい絵文字を、前記絵文字語義記憶手段から抽出し、
前記生成手段は、前記入力文の先頭または末尾に、前記文脈絵文字抽出手段により抽出された絵文字を付加する
請求項4記載または請求項5記載の絵文字付与文生成方法。
A pictogram-added sentence generation method in a pictogram-added sentence generation device further including a context pictogram extracting means,
The contextual pictogram extracting means has a semantic distance between each of the pictograms obtained from the semantic feature quantity of each pictogram stored in the pictogram meaning storage means and a feature quantity indicating the context of the input sentence and the input sentence. , A pictogram smaller than a predetermined pictogram context distance threshold is extracted from the pictogram meaning storage means,
The pictograph-added sentence generation method according to claim 4 or 5, wherein the generation unit adds the pictograph extracted by the context pictograph extraction unit to the beginning or end of the input sentence.
コンピュータを、請求項1〜請求項3のいずれか1項記載の絵文字付与文生成装置を構成する各手段として機能させるための絵文字付与文生成プログラム。   A pictograph-added sentence generation program for causing a computer to function as each means constituting the pictograph-added sentence generation device according to any one of claims 1 to 3.
JP2011072741A 2011-03-29 2011-03-29 Pictograph application sentence generation device, method and program Withdrawn JP2012208639A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011072741A JP2012208639A (en) 2011-03-29 2011-03-29 Pictograph application sentence generation device, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011072741A JP2012208639A (en) 2011-03-29 2011-03-29 Pictograph application sentence generation device, method and program

Publications (1)

Publication Number Publication Date
JP2012208639A true JP2012208639A (en) 2012-10-25

Family

ID=47188334

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011072741A Withdrawn JP2012208639A (en) 2011-03-29 2011-03-29 Pictograph application sentence generation device, method and program

Country Status (1)

Country Link
JP (1) JP2012208639A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020086558A (en) * 2018-11-16 2020-06-04 大日本印刷株式会社 Display mode changing device, display mode changing program, and display mode changing method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020086558A (en) * 2018-11-16 2020-06-04 大日本印刷株式会社 Display mode changing device, display mode changing program, and display mode changing method

Similar Documents

Publication Publication Date Title
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
JP5901001B1 (en) Method and device for acoustic language model training
US9792903B2 (en) Methods and systems for determining ranking of dialogue sticker based on situation and preference information
US20170351663A1 (en) Iterative alternating neural attention for machine reading
KR102109219B1 (en) User Data Input Prediction
CN109739973A (en) Text snippet generation method, device, electronic equipment and storage medium
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
CN102893239A (en) System and method for inputting text into electronic devices
US9792909B2 (en) Methods and systems for recommending dialogue sticker based on similar situation detection
Drovo et al. Named entity recognition in Bengali text using merged hidden Markov model and rule base approach
JP6705318B2 (en) Bilingual dictionary creating apparatus, bilingual dictionary creating method, and bilingual dictionary creating program
US10796095B2 (en) Prediction of tone of interpersonal text communications
CN110874536A (en) Corpus quality evaluation model generation method and bilingual sentence pair inter-translation quality evaluation method
CN111737961B (en) Method and device for generating story, computer equipment and medium
CN112860896A (en) Corpus generalization method and man-machine conversation emotion analysis method for industrial field
JP5441937B2 (en) Language model learning device, language model learning method, language analysis device, and program
CN110008807B (en) Training method, device and equipment for contract content recognition model
CN114048288A (en) Fine-grained emotion analysis method and system, computer equipment and storage medium
CN113268571A (en) Method, device, equipment and medium for determining correct answer position in paragraph
JP7194759B2 (en) Translation data generation system
US11893344B2 (en) Morpheme analysis learning device, morpheme analysis device, method, and program
CN108021609B (en) Text emotion classification method and device, computer equipment and storage medium
CN111475640A (en) Text emotion recognition method and device based on emotion abstract
CN108959268B (en) Text emotion analysis method and device
JP2012208639A (en) Pictograph application sentence generation device, method and program

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120629

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140603