JP5980708B2 - Kanji estimation program, apparatus, server, and method for estimating kanji symbolizing target sentence - Google Patents

Kanji estimation program, apparatus, server, and method for estimating kanji symbolizing target sentence Download PDF

Info

Publication number
JP5980708B2
JP5980708B2 JP2013059535A JP2013059535A JP5980708B2 JP 5980708 B2 JP5980708 B2 JP 5980708B2 JP 2013059535 A JP2013059535 A JP 2013059535A JP 2013059535 A JP2013059535 A JP 2013059535A JP 5980708 B2 JP5980708 B2 JP 5980708B2
Authority
JP
Japan
Prior art keywords
kanji
words
word
topic
appearance frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013059535A
Other languages
Japanese (ja)
Other versions
JP2014186429A (en
Inventor
鈴木 雅実
雅実 鈴木
広海 石先
広海 石先
服部 元
元 服部
小野 智弘
智弘 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2013059535A priority Critical patent/JP5980708B2/en
Publication of JP2014186429A publication Critical patent/JP2014186429A/en
Application granted granted Critical
Publication of JP5980708B2 publication Critical patent/JP5980708B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、対象文章から自動的に要約を生成する技術に関する。   The present invention relates to a technique for automatically generating a summary from a target sentence.

近年、テキスト要約技術の進歩によって、Webページに記述された長い対象文章も短時間で圧縮し、ブラウザで閲覧することができる。要約を更に進めると、そのような対象文章を、文やキーワードにまで凝縮させることもできる。但し、テキスト要約技術は、論理的な意味のまとまりを保持するものであっって、通常、パラグラフのような文章を生成するに留まる。   In recent years, with the progress of text summarization technology, a long target sentence described in a Web page can be compressed in a short time and viewed with a browser. When the summary is further advanced, such target sentences can be condensed into sentences and keywords. However, the text summarization technique retains a logical group of meanings, and usually only generates sentences such as paragraphs.

テキスト要約技術は、対象文章から単語を抽出し、それら単語を含む文を繋ぎ合わせて要約文章を生成する。最近では、複数の対象文章を要約するものもあるが、いずれにせよ論理的な文章として再構成するものが一般的である(例えば非特許文献1参照)。また、内容網羅性及び可読性の高い要約を生成するために、文要素に種々の素性を付与する技術もある(例えば特許文献1参照)。一方で、対象文章に対して各種のアノテーションを施すことによって、簡易に検索する技術もある(例えば非特許文献2参照)。この技術によれば、対象文章における語の分布や形式的特徴から、種々の属性を付与するものであって、アノテーションされた情報自体を人間が参照することは少ない。   In the text summarization technique, words are extracted from target sentences, and sentences containing these words are connected to generate a summary sentence. Recently, there are some which summarize a plurality of target sentences, but in any case, they are generally reconstructed as logical sentences (see, for example, Non-Patent Document 1). In addition, there is a technique for assigning various features to sentence elements in order to generate a summary with high content coverage and high readability (see, for example, Patent Document 1). On the other hand, there is also a technique for easily searching by applying various annotations to a target sentence (for example, see Non-Patent Document 2). According to this technique, various attributes are given from the word distribution and formal characteristics in the target sentence, and humans rarely refer to the annotated information itself.

人間が、原文となる対象文章を読むことなく、要約文章のみで理解するためには、要約文章には、ある程度の文章の長さが必要であり、原文の大意を反映することが必要である。しかし、その要求レベルに応じることは一般に非常に難度が高い。これに対して、検索結果の一覧等で表示される表題や目次的な情報を提示する技術もあるが、この技術によれば、そのリンク先を示すための中間段階の手掛り情報に過ぎない。   In order for humans to understand only the summary text without reading the target text that is the original text, the summary text needs to have a certain length of text, and it is necessary to reflect the intention of the original text . However, it is generally very difficult to meet the required level. On the other hand, there is a technique for presenting titles and table-of-contents information displayed in a search result list or the like, but according to this technique, the information is only intermediate stage clue information for indicating the link destination.

テキスト要約及びアノテーションには、以下のような関係がある。
[テキスト要約]
(特徴)複数文章を一定の長さで論理的に再構成した要約文章の生成には難度が高い。
(ユーザ視点から)要約文章を理解するのに、時間を要する。
[アノテーション]
(特徴)基本的に文章単位で、要約文章を作成する。
(ユーザ視点から)直接参照ではなく、検索の手掛りとして、要約文章を使用する。
The text summary and annotation have the following relationship.
Text summary
(Characteristics) It is difficult to generate summary sentences in which a plurality of sentences are logically reconstructed with a certain length.
It takes time to understand the summary text (from the user's perspective).
[Annotation]
(Characteristics) Create a summary sentence basically in sentence units.
Use summary text as a clue to search rather than direct reference (from user perspective).

特開2011−243166号公報JP 2011-243166 A

難波英嗣・奥村学、「ここまで来たテキスト自動要約」、情報処理 Vol43、2002 No.12、[online]、[平成25年2月11日検索]、インターネット<URL:http://www.ls.info.hiroshima-cu.ac.jp/~nanba/pdf/IPSJ-MGN431203_2002.pdf>Eiwa Namba and Manabu Okumura, “Automatic text summarization so far”, Information Processing Vol43, 2002 No.12, [online], [February 11, 2013 search], Internet <URL: http: // www. ls.info.hiroshima-cu.ac.jp/~nanba/pdf/IPSJ-MGN431203_2002.pdf> 冨浦洋一・石田栄美、「学術論文検索の高度化のための論文アブストラクトのアノテーション」、テキストアノテーションワークショップ・コンテスト(国立情報学研究所)、2012、[online]、[平成25年2月11日検索]、インターネット<URL:http://nlp.nii.ac.jp/tawc/papers/C03_tomiura.pdf>Yoichi Kajiura and Emi Ishida, “Annotations of Abstracts for Advanced Academic Paper Search”, Text Annotation Workshop Contest (National Institute of Informatics), 2012, [online], [February 11, 2013 Search], Internet <URL: http: //nlp.nii.ac.jp/tawc/papers/C03_tomiura.pdf> 「JIS一種漢字2965字を用いて作成される漢字二字熟語数表」、名古屋大学教育学部紀要、Vol.44、 pp.243-299、1997.`` Kanji two-character idioms table created using 2965 kanji JIS '', Bulletin of Faculty of Education, Nagoya University, Vol.44, pp.243-299, 1997. 「名言ナビ」、[online]、[平成25年2月11日検索]、インターネット<URL:http://www.meigennavi.net/>"Quotation Navi", [online], [Search February 11, 2013], Internet <URL: http://www.meigennavi.net/>

例えば毎年恒例のニュースとして、その年の世相を表わす「今年の漢字」の投票結果に対する注目度が高い。ここで、本願の発明者らは、テキスト要約を更に進めることによって、対象文章を「漢字」一文字にまで象徴させることができるのではないか、と考えた。即ち、人間によって記述されたニュース記事やコメント文章のような対象文章であっても、共感できる「漢字」一文字に象徴的に表現することができるのではないか、と考えた。   For example, as an annual news, the degree of attention to the vote result of “this year's kanji” representing the social aspect of the year is high. Here, the inventors of the present application thought that by further proceeding with text summarization, the target sentence could be symbolized to a single “Kanji” character. That is, I thought that even target sentences such as news articles and comment sentences written by humans could be symbolically expressed in a single “Kanji” that can be sympathized.

そこで、本発明は、対象文章を象徴する漢字一文字を推定することができる漢字推定プログラム、装置、サーバ及び方法を提供することを目的とする。   Then, an object of this invention is to provide the Chinese character estimation program, apparatus, server, and method which can estimate the single Chinese character which symbolizes a target sentence.

本発明によれば、対象文章を象徴する漢字を推定するようにコンピュータを機能させる漢字推定プログラムであって、
対象文章から形態素解析によって単語を抽出する形態素解析手段と、
単語毎の出現頻度に応じて、特徴的な所定数の話題語(単語)を抽出する話題語抽出手段と、
話題語を漢字単位に区分すると共に、漢字毎に前記所定数の話題語の出現頻度を対応付ける漢字区分手段と、
出現頻度が高い所定数上位の漢字を、対象文章を象徴する漢字として推定する漢字推定手段と
してコンピュータを機能させることを特徴とする。
According to the present invention, a kanji estimation program for causing a computer to function to estimate a kanji symbolizing a target sentence,
Morphological analysis means for extracting words from the target sentence by morphological analysis;
Topic word extraction means for extracting a predetermined number of characteristic topic words (words) according to the appearance frequency of each word;
Kanji classification means for classifying topic words into kanji units and associating appearance frequencies of the predetermined number of topic words for each kanji;
The computer is caused to function as a kanji estimation means for estimating a predetermined number of kanji characters having a high appearance frequency as a kanji symbolizing the target sentence.

本発明の漢字推定プログラムにおける他の実施形態によれば、
出現頻度は、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)値であるようにコンピュータを機能させることも好ましい。
According to another embodiment of the kanji estimation program of the present invention,
It is also preferable to make the computer function so that the appearance frequency is a TF-IDF (Term Frequency-Inverse Document Frequency) value.

本発明の漢字推定プログラムにおける他の実施形態によれば、
出現頻度は、出現した対象文章の数を表すDF(Document Frequency)値であるようにコンピュータを機能させることも好ましい。
According to another embodiment of the kanji estimation program of the present invention,
It is also preferable that the computer function so that the appearance frequency is a DF (Document Frequency) value representing the number of target sentences that have appeared.

本発明の漢字推定プログラムにおける他の実施形態によれば、
漢字推定手段は、漢字毎に当該漢字を含む熟語数を記憶した国語辞書情報を用いて、出現頻度が高く且つ熟語数が少ない所定数上位の漢字を、対象文章を象徴する漢字として推定する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the kanji estimation program of the present invention,
The kanji estimation means uses a Japanese dictionary information that stores the number of idioms including the kanji for each kanji, and estimates a predetermined number of higher kanji characters with a high appearance frequency and a small number of idioms as a kanji symbolizing the target sentence < It is also preferable to make the computer function like this.

本発明の漢字推定プログラムにおける他の実施形態によれば、
漢字推定手段は、
調整ポイント=(出現頻度/話題語数)/√(熟語数)
出現頻度:当該漢字を含む単語の出現頻度
話題語数:所定数の話題語の中で、当該漢字を含む話題語の数
熟語数 :国語辞書情報に基づく、当該漢字を含む熟語の数
によって算出された調整ポイントが高い所定数上位の漢字を、対象文章を象徴する漢字として推定する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the kanji estimation program of the present invention,
Kanji estimation means
Adjustment point = (appearance frequency / number of topic words) / √ (number of idioms)
Appearance frequency: Appearance frequency of words containing the kanji
Number of topic words: The number of topic words including the kanji in the predetermined number of topic words
Number of idioms: Estimate a kanji higher than a predetermined number with a high adjustment point calculated by the number of idioms including the kanji based on national language dictionary information as a kanji symbolizing the target sentence. It is also preferable to make the computer function.

本発明の漢字推定プログラムにおける他の実施形態によれば、
対象文章を、所定条件に基づいて別々に蓄積した複数の対象文章蓄積手段を有し、
話題語抽出手段は、単語毎の出現頻度に加えて、異なる対象文章蓄積手段同士を比較して特徴的に出現する所定数の話題語を抽出するようにコンピュータを機能させることも好ましい。
According to another embodiment of the kanji estimation program of the present invention,
A plurality of target sentence storage means for storing the target sentences separately based on predetermined conditions,
In addition to the appearance frequency for each word, the topic word extraction unit preferably causes the computer to function so as to extract a predetermined number of topic words that appear characteristically by comparing different target sentence storage units.

本発明の漢字推定プログラムにおける他の実施形態によれば、
第1の単語に類似する、漢字のみで構成された第2の単語を対応付けて記憶した類似語蓄積手段と、
類似語蓄積手段を用いて、話題語抽出手段から出力された話題語(第1の単語)に類似する第2の単語を話題語として、漢字区分手段へ出力する話題語変換手段と
してコンピュータを機能させることも好ましい。
According to another embodiment of the kanji estimation program of the present invention,
A similar word accumulating unit that stores a second word that is similar to the first word and that is composed of only kanji characters;
Using the similar word storage means, the computer functions as a topic word conversion means that outputs a second word similar to the topic word (first word) output from the topic word extraction means to the kanji classification means as a topic word It is also preferable that

本発明の漢字推定プログラムにおける他の実施形態によれば、
漢字と名言文章とを対応付けて蓄積した名言蓄積手段を更に有し、
漢字推定手段から出力された漢字と、名言蓄積手段を用いて当該漢字に対応する名言文章とを出力する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the kanji estimation program of the present invention,
And further having a word storage means for storing kanji and quote text in association with each other,
It is also preferable to cause the computer to function so as to output the kanji output from the kanji estimation means and the noun text corresponding to the kanji using the noun accumulation means.

本発明の漢字推定プログラムにおける他の実施形態によれば、
対象文章は、不特定多数の第三者によってコメント公開サーバに投稿されたコメント文章であるようにコンピュータを機能させることも好ましい。
According to another embodiment of the kanji estimation program of the present invention,
It is also preferable to cause the computer to function so that the target sentence is a comment sentence posted to the comment release server by an unspecified number of third parties.

本発明によれば、対象文章を象徴する漢字を推定する装置であって、
対象文章から形態素解析によって単語を抽出する形態素解析手段と、
単語毎の出現頻度に応じて、特徴的な所定数の話題語(単語)を抽出する話題語抽出手段と、
話題語を漢字単位に区分すると共に、漢字毎に所定数の話題語の出現頻度を対応付ける漢字区分手段と、
出現頻度が高い所定数上位の漢字を、対象文章を象徴する漢字として推定する漢字推定手段と
を有することを特徴とする。
According to the present invention, an apparatus for estimating a kanji symbolizing a target sentence,
Morphological analysis means for extracting words from the target sentence by morphological analysis;
Topic word extraction means for extracting a predetermined number of characteristic topic words (words) according to the appearance frequency of each word;
Kanji classification means for classifying topic words into kanji units and associating appearance frequency of a predetermined number of topic words with each kanji,
It has a kanji estimation means for estimating a kanji of a predetermined number higher in appearance frequency as a kanji symbolizing the target sentence.

本発明によれば、不特定多数の第三者によって投稿されたコメント文章を公開するコメント公開サーバと、ユーザ操作に基づく端末とネットワークを介して通信可能であり、対象文章を象徴する漢字を推定する漢字推定サーバであって、
コメント公開サーバから、コメント文章を対象文章として収集する対象文章収集手段と、
対象文章から形態素解析によって単語を抽出する形態素解析手段と、
単語毎の出現頻度に応じて、特徴的な所定数の話題語(単語)を抽出する話題語抽出手段と、
話題語を漢字単位に区分すると共に、漢字毎に所定数の話題語の出現頻度を対応付ける漢字区分手段と、
出現頻度が高い所定数上位の漢字を、対象文章を象徴する漢字として推定する漢字推定手段と
を有することを特徴とする。
According to the present invention, a comment publishing server that publishes comment text posted by an unspecified number of third parties, a terminal that is based on a user operation, and a network that can communicate with the terminal, and estimate kanji that symbolizes the target text A kanji estimation server that
Target sentence collection means for collecting comment sentences as target sentences from the comment public server,
Morphological analysis means for extracting words from the target sentence by morphological analysis;
Topic word extraction means for extracting a predetermined number of characteristic topic words (words) according to the appearance frequency of each word;
Kanji classification means for classifying topic words into kanji units and associating appearance frequency of a predetermined number of topic words with each kanji,
It has a kanji estimation means for estimating a kanji of a predetermined number higher in appearance frequency as a kanji symbolizing the target sentence.

本発明によれば、装置を用いて、対象文章を象徴する漢字を推定する漢字推定方法であって、
対象文章から形態素解析によって単語を抽出する第1のステップと、
単語毎の出現頻度に応じて、特徴的な所定数の話題語(単語)を抽出する第2のステップと、
話題語を漢字単位に区分すると共に、漢字毎に所定数の話題語の出現頻度を対応付ける第3のステップと、
出現頻度が高い所定数上位の漢字を、対象文章を象徴する漢字として推定する第4のステップと
を有することを特徴とする。
According to the present invention, using a device, a kanji estimation method for estimating a kanji symbolizing a target sentence,
A first step of extracting words from the target sentence by morphological analysis;
A second step of extracting a characteristic predetermined number of topic words (words) according to the appearance frequency of each word;
A third step of classifying the topic words into kanji units and associating the appearance frequency of a predetermined number of topic words for each kanji;
And a fourth step of estimating a predetermined number of kanji characters having a high appearance frequency as kanji characters that symbolize the target sentence.

本発明の漢字推定プログラム、装置、サーバ及び方法によれば、対象文章を象徴する漢字一文字を推定することができる。   According to the kanji estimation program, apparatus, server, and method of the present invention, it is possible to estimate one kanji character that symbolizes the target sentence.

本発明における漢字推定装置の機能構成図である。It is a functional block diagram of the Chinese character estimation apparatus in this invention. 本発明の漢字推定部によって「漢字」をソートした表である。It is the table | surface which sorted "kanji" by the kanji estimation part of this invention. 本発明におけるシステム構成図である。It is a system configuration diagram in the present invention. 本発明におけるシーケンス図である。It is a sequence diagram in the present invention.

以下、本発明の実施の形態について、図面を用いて詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明における漢字推定装置の機能構成図である。   FIG. 1 is a functional configuration diagram of a Chinese character estimation apparatus according to the present invention.

図1によれば、漢字推定装置1は、対象文章蓄積部10と、形態素解析部11と、話題語抽出部12と、漢字区分部13と、漢字推定部14と、類似語蓄積部15と、話題語変換部16と、漢字出力部17と、名言蓄積部18とを有する。これら機能構成部は、サーバに搭載されたコンピュータを機能させる漢字推定プログラムを実行させることによって実現できる。   According to FIG. 1, the kanji estimation device 1 includes a target sentence storage unit 10, a morpheme analysis unit 11, a topic word extraction unit 12, a kanji classification unit 13, a kanji estimation unit 14, and a similar word storage unit 15. , A topic word conversion unit 16, a kanji output unit 17, and a quote storage unit 18. These functional components can be realized by executing a kanji estimation program that causes a computer mounted on the server to function.

[対象文章蓄積部10]
対象文章蓄積部10は、多数の対象文章を、所定条件に基づいて蓄積する。ここで、所定条件に基づく対象文章の集合が、形態素解析部11へ出力される。「対象文章の集合」とは、何らかの意味を持つ時間的・空間的な範囲における集合であって、その集合を象徴する漢字一文字を抽出しようとするものである。
[Target sentence storage unit 10]
The target sentence storage unit 10 stores a large number of target sentences based on predetermined conditions. Here, a set of target sentences based on the predetermined condition is output to the morphological analysis unit 11. “A set of target sentences” is a set in a temporal / spatial range having some meaning, and is intended to extract a single kanji character symbolizing the set.

対象文章蓄積部10は、例えば以下のような対象文章を蓄積するものであってもよい。
(1)ニュース記事に関する対象文章
主要なニュース記事を政治・経済等のジャンル毎に収録したサイトから収集する。
(2)オンラインコミュニティに関する対象文章
例えば映画レビューのコミュニティへの投稿文を収集する。
(3)twitter(登録商標)に関する対象文章
例えば個人の一定時間範囲(例えば1日)のツイートを収集する。
The target sentence storage unit 10 may store, for example, the following target sentences.
(1) Target texts related to news articles Collect major news articles from sites that contain genres such as politics and economy.
(2) Target texts related to the online community Collect, for example, posts to the movie review community.
(3) Target sentences related to twitter (registered trademark) Collect tweets, for example, within a certain time range (for example, one day) of an individual.

例えば1年分のニュース記事に関する対象文章からは、その年の世相を表す「漢字」一文字を抽出することができる。また、1年間の世相のような広い対象ではなく、例えば、時間的には一日又は一週間のように短期間に限定してもよいし、空間的には国内の特定地域又は特定のコミュニティのような範囲に限定してもよい。また、個人の1日分のツイートから、その日を象徴する漢字を推定することもできる。そのような「漢字」一文字に接したユーザは、その漢字の雰囲気及び感覚から、その対象文章が生起された時間・空間における雰囲気及び感覚を、直観的に理解することができる。   For example, from a target sentence related to a news article for one year, a single “Kanji” character representing the social aspect of the year can be extracted. Moreover, it is not a wide object such as one-year social conditions, and may be limited to a short time such as one day or one week in terms of time, or spatially a specific region or a specific community in the country. You may limit to such a range. In addition, kanji that symbolizes the day can be estimated from the tweets of the individual for one day. A user who is in contact with such a “kanji” character can intuitively understand the atmosphere and sense in the time and space in which the target sentence occurred from the atmosphere and sense of the kanji.

[形態素解析部11]
形態素解析部11は、対象文章蓄積部10から対象文章を入力する。ここでは、一定範囲の対象文章の集合が入力されることによって、結果的に、それら対象文章全体を象徴する「漢字」を推定することができる。形態素解析部11は、これら対象文章から、形態素解析によって単語を抽出する。ここで、「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位(単語を含む)を意味する。
[Morphological analyzer 11]
The morpheme analysis unit 11 inputs the target sentence from the target sentence storage unit 10. Here, by inputting a set of target sentences within a certain range, it is possible to estimate “kanji” that symbolizes the entire target sentences as a result. The morpheme analysis unit 11 extracts words from these target sentences by morpheme analysis. Here, “morphological analysis” refers to a technique for dividing a sentence into meaningful words and discriminating parts of speech and contents using a dictionary. The “morpheme” means the smallest meaningful unit (including a word) among sentence elements.

[話題語抽出部12]
話題語抽出部12は、単語毎の出現頻度に応じて、特徴的な所定数の話題語を抽出する。最も簡単な方法としては、単なる出現頻度=出現回数であってもよい。また、所定数としては、例えば上位100個の話題語とするものであってもよい。
[Topic word extraction unit 12]
The topic word extraction unit 12 extracts a predetermined number of characteristic topic words according to the appearance frequency of each word. The simplest method may be simple appearance frequency = number of appearances. The predetermined number may be, for example, the top 100 topic words.

ここで、出現頻度は、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)値であってもよい。TF−IDFとは、文章中に出現した単語がどのくらい特徴的であるかを識別するための指標をいう。TF(term frequency)は、その文章の中でその単語が出現した回数を表し、IDF(inverse document frequency)は、コーパス全体の中でその文章を含む文章数の自然対数を表す。そして、TF値×IDF値が、その文章中におけるその単語のTF−IDF値となる。高いTF−IDF値を持つ単語ほど、話題性が高い(重要)であると認識される。   Here, the appearance frequency may be a TF-IDF (Term Frequency-Inverse Document Frequency) value. TF-IDF refers to an index for identifying how characteristic a word that appears in a sentence is. TF (term frequency) represents the number of times the word appears in the sentence, and IDF (inverse document frequency) represents the natural logarithm of the number of sentences including the sentence in the entire corpus. Then, TF value × IDF value becomes the TF-IDF value of the word in the sentence. A word having a higher TF-IDF value is recognized as having a higher topicality (important).

更に、出現頻度は、当該話題語が出現する対象文章の数を表すDF(Document Frequency)値であってもよい。例えば各対象文章が各ニュース記事であった場合、DF値は、その話題語が含まれた記事数となる。また、例えば各対象文章がツイートであった場合、DF値は、その話題語が含まれたツイート数となる。   Furthermore, the appearance frequency may be a DF (Document Frequency) value representing the number of target sentences in which the topic word appears. For example, when each target sentence is each news article, the DF value is the number of articles including the topic word. For example, when each target sentence is a tweet, the DF value is the number of tweets including the topic word.

話題語抽出部12は、単語毎の出現頻度に加えて、異なる対象文章蓄積部10同士を比較して特徴的に出現する所定数の話題語を抽出するものであってもよい。例えば、2011年のニュース記事を対象文章として蓄積した対象文章蓄積部と、過去数年のニュース記事を対象文章として蓄積した対象文章蓄積部と、今年のニュース記事を対象文章として蓄積した対象文章蓄積部とを有するとする。このとき、毎年のように出現頻度が高い話題語も存在する。そこで、例えば今年だけ特有な話題語のみを、その年の話題語として抽出するのが好ましい。具体的には、話題語が出現するDF値(記事数)が、平均的な他の年よりも突出して多い場合にのみ、話題語と認定することができる。即ち、毎年のように出現する話題語は、その年を代表する話題語とはいえないためである。   The topic word extraction unit 12 may extract a predetermined number of topic words that appear characteristically by comparing different target sentence storage units 10 in addition to the appearance frequency of each word. For example, a target sentence storage unit that stores news articles of 2011 as target sentences, a target sentence storage unit that stores news articles of the past several years as target sentences, and a target sentence storage that stores news articles of this year as target sentences. Part. At this time, there are also topic words with high appearance frequency every year. Therefore, for example, it is preferable to extract only topic words unique to the current year as topic words of the year. Specifically, it can be recognized as a topic word only when the DF value (number of articles) in which the topic word appears is prominently higher than other average years. That is, a topic word that appears every year is not a topic word representing that year.

[漢字区分部13]
漢字区分部13は、話題語を漢字単位に区分すると共に、漢字毎に当該話題語の出現頻度を対応付ける。前述したように、出現頻度そのものであってもよいし、DF値やTF−IDF値であってもよい。例えば以下のように、漢字毎のDF値が導出される。
話題語「震災」(DF値=30)->
「震災」から導かれる震のDF値+=30
「震災」から導かれる災のDF値+=30
同様に、「震」については、「地震」「震度」・・・などから
「災」については、「災害」「被災」・・・などから
導かれる各々の話題語に対応するDF値が求められるので,
それらを合計することにより
-> 震のDF値=267
-> 災のDF値=234
[Kanji classification part 13]
The kanji classifying unit 13 classifies the topic word into kanji units and associates the appearance frequency of the topic word with each kanji. As described above, the appearance frequency itself may be used, or a DF value or a TF-IDF value may be used. For example, the DF value for each Chinese character is derived as follows.
Topic "Earthquake" (DF value = 30)->
DF value of earthquake derived from “earthquake disaster” + = 30
DF value of disaster derived from “earthquake disaster” + = 30
Similarly, for "earthquake", from "earthquake""seismicintensity" ...
About "disaster", from "disaster""disaster" ...
Since the DF value corresponding to each topic word to be derived is obtained,
By summing them
-> Earthquake DF = 267
-> Disaster DF value = 234

他の実施形態として、漢字区分部13は、所定の部首を含む漢字のみを、漢字推定部14へ出力するものであってもよい。例えば部首「心」を含む漢字のみを出力するものであってもよい。部首「心」を含むような漢字は、人間の心理や感情を表すものが多い。このように、漢字区分部13から出力される漢字の部首を特定することによって、ユーザに認識させる特定の目的に合わせて、漢字を推定することができる。   As another embodiment, the kanji division unit 13 may output only kanji including a predetermined radical to the kanji estimation unit 14. For example, only a kanji character including the radical “heart” may be output. Many Kanji characters that include the radical “heart” represent human psychology and emotions. Thus, by specifying the radical of the Chinese character output from the Chinese character classification unit 13, the Chinese character can be estimated according to the specific purpose to be recognized by the user.

[漢字推定部14]
漢字推定部14は、出現頻度が高い所定数上位の漢字を、対象文章を象徴する漢字として推定する。
[Kanji estimation unit 14]
The kanji estimation unit 14 estimates a predetermined number of upper kanji characters having a high appearance frequency as kanji symbols representing the target sentence.

図2は、本発明の漢字推定部によって「漢字」をソートした表である。   FIG. 2 is a table in which “kanji” are sorted by the kanji estimation unit of the present invention.

図2によれば、1年分のニュース記事に関する対象文章から、「今年の漢字」といえる上位20個の漢字が表されている。図2によれば、各漢字のDF値に基づいて降順にソートされている。例えば、過去数年の平均出現頻度(DF値:記事数)よりも所定閾値倍以上となる話題語のみが、今年の漢字として推定されることも好ましい。所定閾値倍は、パラメータとして調整可能であって、1.5〜2.0倍程度が適当であって、例えば1.7倍であってもよい。   According to FIG. 2, the top 20 kanji characters that can be said to be “this year's kanji” are represented from the target sentences related to news articles for one year. According to FIG. 2, it is sorted in descending order based on the DF value of each Chinese character. For example, it is also preferable that only topic words that are a predetermined threshold times or more than the average appearance frequency (DF value: number of articles) in the past several years are estimated as kanji characters for this year. The predetermined threshold value can be adjusted as a parameter, and about 1.5 to 2.0 times is appropriate, and may be 1.7 times, for example.

一方で、DF値やTF−IDF値のみを用いて上位の漢字を抽出するということは、漢字本来の特性が反映されていないことを意味する。次の段階として、漢字の持つ「造語能力(又は意味的多様性)」を考慮して、漢字を降順にソートすることが考えられる。その造語能力として、その漢字一文字が含まれる熟語数を用いる。   On the other hand, extracting the upper Kanji characters using only the DF value or the TF-IDF value means that the original characteristics of the Kanji characters are not reflected. As a next step, it is conceivable to sort the kanji in descending order in consideration of the “word-making ability (or semantic diversity)” of the kanji. As the word-making ability, the number of idioms that contain a single kanji character is used.

そこで、他の実施形態として、漢字推定部14は、当該漢字を含む熟語数を記憶した国語漢字辞書情報を用いて、熟語数が少ない漢字ほど上位にソートさせるように、出現頻度に乗算することも好ましい。既存の国語辞書によれば、常用される基本漢字が用いられる漢字熟語の「熟語数(異なり数)」を知ることができる(例えば非特許文献3参照)。それによって、漢字の持つ熟語形成の多様性を反映させて、漢字をソートすることができる。即ち、ある漢字を含む熟語数に対して、話題語(熟語を含む)が占める割合が高いほど、その漢字への注目度が高いものと推定する。   Therefore, as another embodiment, the kanji estimation unit 14 multiplies the appearance frequency by using the kanji dictionary information in which the number of idioms including the kanji is stored, so that the kanji having a smaller number of idioms is sorted higher. Is also preferable. According to the existing national language dictionary, the “number of idioms (different number)” of kanji idioms using commonly used basic kanji can be known (see, for example, Non-Patent Document 3). As a result, the kanji can be sorted to reflect the diversity of kanji formation. In other words, it is estimated that the higher the ratio of topic words (including idioms) to the number of idioms including a certain Chinese character, the higher the degree of attention to the Chinese character.

図2における「今年の漢字」として推定された上位の漢字の傾向として、出現頻度だけでなく、多様な単語の形成に関係する程度や、情緒的な意味を内在する程度が高いものが多い。即ち、多様な単語の形成に関係する程度や、情緒的な意味を内在する程度が高い漢字ほど、実際の出現頻度以上に注目されることを意味する。そこで、本発明によれば、これらの属性を定量化して、出現頻度に基づくソートを調整する。   As the tendency of the higher-order kanji estimated as “this year's kanji” in FIG. 2, not only the appearance frequency but also the degree related to the formation of various words and the degree of emotional meaning are high. That is, it means that the kanji that is related to the formation of various words and has a high degree of emotional meaning attracts more attention than the actual appearance frequency. Therefore, according to the present invention, these attributes are quantified to adjust the sorting based on the appearance frequency.

前項の具体例として、漢字のソートの調整パラメータとして、以下のものを用いる。
(1)当該漢字における(話題語の)熟語数a
(2)当該漢字における話題語を含む記事数b
(3)b/a=話題語当りの平均出現数
(4)当該漢字を含む熟語数(漢字の意味的多様性の基本尺度)
そして、漢字推定部14は、以下の式によって算出された調整ポイントによって、漢字をソートする。
調整ポイント=(出現頻度/話題語数)/√(熟語数)
As a specific example of the preceding paragraph, the following parameters are used as adjustment parameters for sorting kanji.
(1) Number of idioms (of topic word) in the kanji
(2) Number of articles including topic words in the kanji
(3) b / a = average number of appearances per topic word (4) number of idioms including the kanji (basic measure of semantic diversity of kanji)
And the kanji estimation part 14 sorts kanji by the adjustment point calculated by the following formula | equation.
Adjustment point = (appearance frequency / number of topic words) / √ (number of idioms)

図2によれば、左列にDF順に漢字がソートされており、右列に調整ポイント順に漢字がソートされている。調整ポイントによれば、2011年は、「震」->「災」->「電」->「被」->・・・の順に、漢字が推定されている。尚、話題語が固有名詞である場合、その話題語を区分した漢字に割り当てる調整ポイントに0.1を乗算した値を与えるものとする。   According to FIG. 2, the kanji characters are sorted in the DF order in the left column, and the kanji characters are sorted in the adjustment point order in the right column. According to the adjustment points, in 2011, kanji characters are estimated in the order of “earthquake”-> “disaster”-> “electricity”-> “cover”->. When the topic word is a proper noun, a value obtained by multiplying the adjustment point assigned to the kanji into which the topic word is divided by 0.1 is given.

[類似語蓄積部15]
類似語蓄積部15は、第1の単語に類似する、漢字のみで構成された第2の単語を対応付けて記憶する。例えば以下のような対応付けである。
「オリンピック」<->「五輪」
[Similar word storage unit 15]
The similar word accumulation | storage part 15 matches and memorize | stores the 2nd word comprised only with the Chinese character similar to a 1st word. For example, the correspondence is as follows.
"Olympic Games"<->"OlympicGames"

[話題語変換部16]
話題語変換部16は、類似語蓄積部15を用いて、話題語抽出部12から出力された話題語に類似する単語を話題語として、漢字区分部13へ出力する。ここで、話題語がカタカナ語であった場合は、同一対象を指す「漢字単語」に変換する。前述の例によれば、話題語「オリンピック」は、「五輪」に変換される。変換された「五輪」が、漢字区分部13へ出力されて、各漢字「五」「輪」に区分される。
[Topic Word Conversion Unit 16]
The topic word conversion unit 16 uses the similar word accumulation unit 15 to output a word similar to the topic word output from the topic word extraction unit 12 to the kanji classification unit 13 as a topic word. Here, if the topic word is Katakana, it is converted into a “kanji word” indicating the same object. According to the above example, the topic word “Olympic” is converted to “Olympic”. The converted “Golden Olympics” is output to the Chinese character classifying unit 13 and is divided into the Chinese characters “Gold” and “Woman”.

図3は、本発明におけるシステム構成図である。   FIG. 3 is a system configuration diagram according to the present invention.

近年、インターネットを介して、ブログ(Web log)やミニブログ(mini Web log)(例えばtwitter(登録商標))のようなサイトに対して、不特定多数の第三者からのコメント文章が、活発に発信されている。図3によれば、ミニブログサーバ2が、インターネットに更に接続されている。不特定多数の第三者のコメント投稿者は、端末4を用いて、ミニブログサーバ2へコメント文章を投稿すると共に、他人のコメント文章を閲覧することができる。端末4は、例えば携帯端末やスマートフォンのようなものであってもよい。   In recent years, comment texts from an unspecified number of third parties have become active over sites such as blogs (Web log) and mini blogs (for example, twitter (registered trademark)) via the Internet. Has been sent to. According to FIG. 3, the miniblog server 2 is further connected to the Internet. An unspecified number of third-party comment contributors can use the terminal 4 to post comment texts to the miniblog server 2 and to view other person's comment texts. The terminal 4 may be a mobile terminal or a smartphone, for example.

本発明によれば、漢字推定サーバ1が、インターネットに更に接続されている。漢字推定サーバ1は、一定範囲の多数のコメント文章(対象文章)をミニブログサーバ2から収集する。そして、漢字推定サーバ1は、それらコメント文章に関連する「漢字」(一文字)を推定する。推定された「漢字」は、ユーザ操作の端末3へ送信され、ユーザに認識させることができる。   According to the present invention, the Chinese character estimation server 1 is further connected to the Internet. The kanji estimation server 1 collects a large number of comment sentences (target sentences) within a certain range from the miniblog server 2. Then, the kanji estimation server 1 estimates “kanji” (one character) related to these comment sentences. The estimated “kanji” is transmitted to the user-operated terminal 3 so that the user can recognize it.

図3によれば、図1と比較して、対象文章収集部17と、漢字送信部18と、名言蓄積部19とを更に有する。   According to FIG. 3, compared with FIG. 1, it has further the target sentence collection part 17, the Chinese character transmission part 18, and the noun accumulation | storage part 19. FIG.

[対象文章収集部17]
対象文章収集部17は、例えばミニブログサーバ3からコメント文章(対象文章)を収集する。これらコメント文章は、対象文章蓄積部10へ出力される。例えば、twitter(登録商標)の投稿文を対象文章とした場合、例えば個人の一定時間範囲、例えば1日分のツイートを収集することもできる。
[Target sentence collection unit 17]
For example, the target sentence collection unit 17 collects comment sentences (target sentences) from the miniblog server 3. These comment sentences are output to the target sentence storage unit 10. For example, when a posted sentence of twitter (registered trademark) is used as a target sentence, for example, tweets for a certain time range of an individual, for example, one day can be collected.

[漢字送信部18]
漢字送信部18は、推定された所定数上位の漢字を、端末3へ送信する。ここで、所定数とは、1個の漢字であってもよいし、複数個の漢字であってもよい。端末3を操作するユーザは、その漢字が持つ雰囲気や感覚を知ることができる。
[Kanji transmitter 18]
The kanji transmitting unit 18 transmits the estimated upper kanji characters to the terminal 3. Here, the predetermined number may be one Chinese character or a plurality of Chinese characters. A user who operates the terminal 3 can know the atmosphere and feeling of the kanji.

具体的な実施形態として、映画レビューのコミュニティへの投稿文を対象文章とした場合について説明する。それらの対象文章から漢字一文字を推定することによって、その映画に関する雰囲気や感覚を知ることができる。例えば、あるミュージカル映画の場合、そのコミュニティに1週間分で120件の投稿文があったとする。
話題語抽出部12は、以下の話題語を抽出したとする。
「青年」「フランス」「愛情」「革命」
次に、話題語変換部16は、以下のように話題語を変換する。
「フランス」->「仏」
次に、漢字区分部13は、以下のように漢字に区分する。
「青」「年」「仏」「愛」「情」「革」「命」
そして、漢字推定部14は、上位にソートされた漢字として以下のように推定する。
「愛」「革」「仏」「青」「情」・・・
最終的に、ユーザに明示する漢字一文字が1個の場合、「愛」のみが出力される。
As a specific embodiment, a case will be described in which a post sentence to the movie review community is a target sentence. By estimating a single kanji character from those target sentences, it is possible to know the atmosphere and feeling of the movie. For example, in the case of a musical movie, it is assumed that there are 120 postings in one week for the community.
It is assumed that the topic word extraction unit 12 has extracted the following topic words.
"Youth""France""Love""Revolution"
Next, the topic word conversion unit 16 converts the topic words as follows.
"France"->"Buddha"
Next, the Chinese character classification unit 13 classifies the Chinese characters as follows.
"Blue""Year""Buddha""Love""Emotion""Leather""Life"
And the kanji estimation part 14 estimates as follows the kanji sorted by the upper rank.
“Love” “Leather” “Buddha” “Blue” “Emotion”…
Finally, when there is one kanji character that is clearly indicated to the user, only “love” is output.

[名言蓄積部19]
名言蓄積部19は、漢字と名言文章とを対応付けて蓄積する。例えば以下のように対応付けられているとする。
漢字「誤」->名言「猿も木から落ちる」
ここで、漢字送信部18が、漢字「誤」を送信しようとしたとする。このとき、名言蓄積部18を参照し、漢字「誤」と共に、名言「猿も木から落ちる」も送信する。これによって、ユーザは、漢字のみではなく、その漢字と結び付きが深い各種の名台詞や俳句・川柳のような名言も知ることができる。
他の実施形態として、漢字送信部18が、抽出した漢字を名言サーバへ送信し、その漢字に対応する名言文章を受信するものであってもよい(例えば非特許文献4参照)。
[Quote Accumulation Unit 19]
The quote accumulation unit 19 accumulates kanji and quote sentences in association with each other. For example, it is assumed that they are associated as follows.
Kanji "Error"-> Quote "Monkey falls from the tree"
Here, it is assumed that the kanji transmitting unit 18 tries to transmit the kanji “wrong”. At this time, referring to the quote storage unit 18, the quote “monkey also falls from the tree” is transmitted together with the Chinese character “false”. This allows the user to know not only kanji but also various words such as haiku and kawayanagi that are deeply linked to the kanji.
As another embodiment, the kanji transmitting unit 18 may transmit the extracted kanji to the quote server and receive the quote text corresponding to the kanji (see, for example, Non-Patent Document 4).

図4は、本発明におけるシーケンス図である。   FIG. 4 is a sequence diagram in the present invention.

(S10)漢字推定サーバ1は、対象文章を収集する(前述の対象文章収集部17参照)。収集された対象文章は、対象文章蓄積部10へ蓄積される。
(S11)対象文章から形態素解析によって単語を抽出する(前述の形態素解析部11参照)。
(S12)単語毎の出現頻度に応じて、特徴的な所定数の話題語(単語)を抽出する(前述の話題語抽出部12参照)。尚、例えばカタカナ語のような話題語は、漢字で構成された話題語へ変換される(前述の話題語変換部16参照)。
(S13)話題語を漢字単位に区分すると共に、漢字毎に当該話題語の出現頻度を対応付ける(前述の漢字区分部13参照)。
(S14)出現頻度が高い所定数上位の漢字を、対象文章を象徴する漢字として推定する(前述の漢字推定部14参照)。
(S15)ここで、推定された漢字と共に、その漢字に対応する名言を検索してもよい(前述の名言蓄積部19参照)。
(S16)最後に、漢字推定サーバ1は、対象文章を象徴する漢字(又はその名言)を、ユーザ操作に基づく端末3へ送信する。
(S10) The kanji estimation server 1 collects the target text (see the target text collection unit 17 described above). The collected target sentences are stored in the target sentence storage unit 10.
(S11) A word is extracted from the target sentence by morphological analysis (see the morphological analysis unit 11 described above).
(S12) A characteristic predetermined number of topic words (words) are extracted according to the appearance frequency for each word (see the topic word extraction unit 12 described above). For example, a topic word such as katakana is converted into a topic word composed of kanji (see the topic word conversion unit 16 described above).
(S13) The topic words are divided into kanji units, and the appearance frequency of the topic word is associated with each kanji (see the above-described kanji classification unit 13).
(S14) Predetermined upper kanji characters having a high appearance frequency are estimated as kanji characters that symbolize the target sentence (see the kanji character estimation unit 14 described above).
(S15) Here, together with the estimated Chinese character, a quotation corresponding to the Chinese character may be searched (see the above-described quote accumulation unit 19).
(S16) Finally, the kanji estimation server 1 transmits the kanji (or its quote) symbolizing the target sentence to the terminal 3 based on the user operation.

以上、詳細に説明したように、本発明の漢字推定プログラム、装置、サーバ及び方法によれば、対象文章を象徴する漢字一文字を推定することができる。様々な時間や空間の範囲で生起する人々の多数の投稿文章を対象文章として、それらを象徴(総括)する漢字一文字を推定することができる。これによって、ユーザに対して、その漢字が持つ雰囲気や感覚を直観的に理解させ且つ共感させることができる。この点で、従来技術におけるテキスト要約やアノテーションと大きく異なる。   As described above in detail, according to the kanji estimation program, apparatus, server, and method of the present invention, it is possible to estimate a single kanji character that symbolizes the target sentence. It is possible to estimate a single kanji character that symbolizes (summarizes) a large number of posted texts of people who occur in various time and space ranges. This allows the user to intuitively understand and sympathize with the atmosphere and sensation that the Chinese character has. In this respect, it differs greatly from text summarization and annotation in the prior art.

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。   Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.

1 漢字推定サーバ
10 対象文章蓄積部
11 形態素解析部
12 話題語抽出部
13 漢字区分部
14 漢字推定部
15 類似語蓄積部
16 話題語変換部
17 対象文章収集部
18 漢字送信部
19 名言蓄積部
2 ミニブログサーバ
3 端末
4 コメント投稿者用の端末
DESCRIPTION OF SYMBOLS 1 Kanji estimation server 10 Target sentence accumulation | storage part 11 Morphological analysis part 12 Topic word extraction part 13 Kanji classification part 14 Kanji estimation part 15 Similar word accumulation part 16 Topic word conversion part 17 Target sentence collection part 18 Kanji transmission part 19 Nominal accumulation part 2 Mini-blog server 3 Terminal 4 Comment author's terminal

Claims (12)

対象文章を象徴する漢字を推定するようにコンピュータを機能させる漢字推定プログラムであって、
前記対象文章から形態素解析によって単語を抽出する形態素解析手段と、
前記単語毎の出現頻度に応じて、特徴的な所定数の話題語(単語)を抽出する話題語抽出手段と、
前記話題語を漢字単位に区分すると共に、漢字毎に前記所定数の話題語の出現頻度を対応付ける漢字区分手段と、
前記出現頻度が高い所定数上位の漢字を、前記対象文章を象徴する漢字として推定する漢字推定手段と
してコンピュータを機能させることを特徴とする漢字推定プログラム。
A kanji estimation program that causes a computer to function to estimate kanji that represents a target sentence,
Morphological analysis means for extracting words from the target sentence by morphological analysis;
Topic word extraction means for extracting a predetermined number of characteristic topic words (words) according to the appearance frequency of each word;
Kanji classification means for classifying the topic words into kanji units and associating the appearance frequency of the predetermined number of topic words for each kanji;
A kanji estimation program for causing a computer to function as kanji estimation means for estimating a predetermined number of kanji characters having a high appearance frequency as a kanji symbolizing the target sentence.
前記出現頻度は、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)値であるようにコンピュータを機能させることを特徴とする請求項1に記載の漢字推定プログラム。   The kanji estimation program according to claim 1, wherein the computer functions so that the appearance frequency is a TF-IDF (Term Frequency-Inverse Document Frequency) value. 前記出現頻度は、出現した対象文章の数を表すDF(Document Frequency)値であるようにコンピュータを機能させることを特徴とする請求項1に記載の漢字推定プログラム。   2. The kanji estimation program according to claim 1, wherein the computer functions so that the appearance frequency is a DF (Document Frequency) value representing the number of target sentences that have appeared. 前記漢字推定手段は、漢字毎に当該漢字を含む熟語数を記憶した国語辞書情報を用いて、前記出現頻度が高く且つ前記熟語数が少ない所定数上位の漢字を、前記対象文章を象徴する漢字として推定する
うにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の漢字推定プログラム。
The kanji estimation means uses the national language dictionary information storing the number of idioms including the kanji for each kanji, and uses the kanji that symbolizes the target sentence as the kanji that is higher in frequency and has a lower number of idioms. Estimate as
Kanji estimation program according to any one of claims 1 to 3, characterized in that to function by Uni computer.
前記漢字推定手段は、
調整ポイント=(出現頻度/話題語数)/√(熟語数)
出現頻度:当該漢字を含む単語の出現頻度
話題語数:前記所定数の話題語の中で、当該漢字を含む話題語の数
熟語数 :前記国語辞書情報に基づく、当該漢字を含む熟語の数
によって算出された調整ポイントが高い順に所定数上位の漢字を、前記対象文章を象徴する漢字として推定する
ようにコンピュータを機能させることを特徴とする請求項4に記載の漢字推定プログラム。
The kanji estimation means includes
Adjustment point = (appearance frequency / number of topic words) / √ (number of idioms)
Appearance frequency: Appearance frequency of words containing the kanji
Number of topic words: Number of topic words including the kanji in the predetermined number of topic words
Number of idioms: Estimates a kanji character higher by a predetermined number as a kanji symbolizing the target sentence in descending order of adjustment points calculated by the number of idioms including the kanji character based on the national language dictionary information <br / The computer program of claim 4 , wherein the computer functions as follows.
対象文章を、所定条件に基づいて別々に蓄積した複数の対象文章蓄積手段を有し、
前記話題語抽出手段は、前記単語毎の出現頻度に加えて、異なる対象文章蓄積手段同士を比較して特徴的に出現する所定数の話題語を抽出するようにコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載の漢字推定プログラム。
A plurality of target sentence storage means for storing the target sentences separately based on predetermined conditions,
The topic word extracting means causes the computer to function to extract a predetermined number of topic words that appear characteristically by comparing different target sentence storage means in addition to the appearance frequency for each word. The kanji estimation program according to any one of claims 1 to 5.
第1の単語に類似する、漢字のみで構成された第2の単語を対応付けて記憶した類似語蓄積手段と、
前記類似語蓄積手段を用いて、前記話題語抽出手段から出力された前記話題語(第1の単語)に類似する第2の単語を話題語として、前記漢字区分手段へ出力する話題語変換手段と
してコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載の漢字推定プログラム。
A similar word accumulating unit that stores a second word that is similar to the first word and that is composed of only kanji characters;
Topic word conversion means for outputting, to the kanji classification means, a second word similar to the topic word (first word) output from the topic word extraction means by using the similar word accumulation means. 7. The Chinese character estimation program according to claim 1, wherein the computer is caused to function as:
漢字と名言文章とを対応付けて蓄積した名言蓄積手段を更に有し、
前記漢字推定手段から出力された漢字と、前記名言蓄積手段を用いて当該漢字に対応する前記名言文章とを出力する
ようにコンピュータを機能させることを特徴とする請求項1から7のいずれか1項に記載の漢字推定プログラム。
And further having a word storage means for storing kanji and quote text in association with each other,
8. The computer according to claim 1, wherein the computer is caused to function so as to output the kanji output from the kanji estimation means and the quote text corresponding to the kanji using the noun accumulation means. The kanji estimation program according to item.
前記対象文章は、不特定多数の第三者によってコメント公開サーバに投稿されたコメント文章であるようにコンピュータを機能させることを特徴とする請求項1から8のいずれか1項に記載の漢字推定プログラム。   The kanji estimation according to any one of claims 1 to 8, wherein the target sentence is made to function as a comment sentence posted to a comment release server by an unspecified number of third parties. program. 対象文章を象徴する漢字を推定する装置であって、
前記対象文章から形態素解析によって単語を抽出する形態素解析手段と、
前記単語毎の出現頻度に応じて、特徴的な所定数の話題語(単語)を抽出する話題語抽出手段と、
前記話題語を漢字単位に区分すると共に、漢字毎に前記所定数の話題語の出現頻度を対応付ける漢字区分手段と、
前記出現頻度が高い所定数上位の漢字を、前記対象文章を象徴する漢字として推定する漢字推定手段と
を有することを特徴とする漢字推定用の装置。
A device that estimates kanji that symbolizes the target sentence,
Morphological analysis means for extracting words from the target sentence by morphological analysis;
Topic word extraction means for extracting a predetermined number of characteristic topic words (words) according to the appearance frequency of each word;
Kanji classification means for classifying the topic words into kanji units and associating the appearance frequency of the predetermined number of topic words for each kanji;
An apparatus for estimating kanji, comprising: a kanji estimation means for estimating a predetermined number of kanji characters having a high appearance frequency as a kanji symbolizing the target sentence.
不特定多数の第三者によって投稿されたコメント文章を公開するコメント公開サーバと、ユーザ操作に基づく端末とネットワークを介して通信可能であり、対象文章を象徴する漢字を推定する漢字推定サーバであって、
前記コメント公開サーバから、コメント文章を対象文章として収集する対象文章収集手段と、
前記対象文章から形態素解析によって単語を抽出する形態素解析手段と、
前記単語毎の出現頻度に応じて、特徴的な所定数の話題語(単語)を抽出する話題語抽出手段と、
前記話題語を漢字単位に区分すると共に、漢字毎に前記所定数の話題語の出現頻度を対応付ける漢字区分手段と、
前記出現頻度が高い所定数上位の漢字を、前記対象文章を象徴する漢字として推定する漢字推定手段と
を有することを特徴とする漢字推定サーバ。
It is a comment release server that publishes comment sentences posted by an unspecified number of third parties, and a kanji estimation server that can communicate via a terminal and a network based on user operations and estimates kanji that symbolize the target sentences. And
Target sentence collection means for collecting comment sentences as target sentences from the comment public server,
Morphological analysis means for extracting words from the target sentence by morphological analysis;
Topic word extraction means for extracting a predetermined number of characteristic topic words (words) according to the appearance frequency of each word;
Kanji classification means for classifying the topic words into kanji units and associating the appearance frequency of the predetermined number of topic words for each kanji;
A kanji estimation server comprising kanji estimation means for estimating a predetermined number of upper kanji characters having a high appearance frequency as a kanji symbolizing the target sentence.
装置を用いて、対象文章を象徴する漢字を推定する漢字推定方法であって、
前記対象文章から形態素解析によって単語を抽出する第1のステップと、
前記単語毎の出現頻度に応じて、特徴的な所定数の話題語(単語)を抽出する第2のステップと、
前記話題語を漢字単位に区分すると共に、漢字毎に前記所定数の話題語の出現頻度を対応付ける第3のステップと、
前記出現頻度が高い所定数上位の漢字を、前記対象文章を象徴する漢字として推定する第4のステップと
を有することを特徴とする漢字推定方法。
A kanji estimation method for estimating a kanji symbolizing a target sentence using a device,
A first step of extracting words from the target sentence by morphological analysis;
A second step of extracting a characteristic predetermined number of topic words (words) according to the appearance frequency of each word;
A third step of classifying the topic words into kanji units and associating the appearance frequency of the predetermined number of topic words with each kanji;
A kanji estimation method, comprising: a fourth step of estimating a predetermined number of kanji characters having a high appearance frequency as kanji symbols representing the target sentence.
JP2013059535A 2013-03-22 2013-03-22 Kanji estimation program, apparatus, server, and method for estimating kanji symbolizing target sentence Active JP5980708B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013059535A JP5980708B2 (en) 2013-03-22 2013-03-22 Kanji estimation program, apparatus, server, and method for estimating kanji symbolizing target sentence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013059535A JP5980708B2 (en) 2013-03-22 2013-03-22 Kanji estimation program, apparatus, server, and method for estimating kanji symbolizing target sentence

Publications (2)

Publication Number Publication Date
JP2014186429A JP2014186429A (en) 2014-10-02
JP5980708B2 true JP5980708B2 (en) 2016-08-31

Family

ID=51833973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013059535A Active JP5980708B2 (en) 2013-03-22 2013-03-22 Kanji estimation program, apparatus, server, and method for estimating kanji symbolizing target sentence

Country Status (1)

Country Link
JP (1) JP5980708B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160203238A1 (en) * 2015-01-09 2016-07-14 Facebook, Inc. Suggested Keywords for Searching News-Related Content on Online Social Networks

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007128224A (en) * 2005-11-02 2007-05-24 Research Organization Of Information & Systems Document indexing device, document indexing method and document indexing program
JP5610634B2 (en) * 2011-06-28 2014-10-22 Kddi株式会社 Related information distribution program, server and method for distributing related information based on keywords of public contents

Also Published As

Publication number Publication date
JP2014186429A (en) 2014-10-02

Similar Documents

Publication Publication Date Title
Moussa et al. A survey on opinion summarization techniques for social media
US9875309B2 (en) Topical search system
Refaee et al. An arabic twitter corpus for subjectivity and sentiment analysis
Batool et al. Precise tweet classification and sentiment analysis
KR101005337B1 (en) System for extraction and analysis of opinion in web documents and method thereof
CN101887414B (en) Server for automatically scoring opinion conveyed by text message containing pictorial-symbols
Shimada et al. Analyzing tourism information on twitter for a local city
KR20110045519A (en) Entity searching and opinion mining system of hybrid-based using internet and method thereof
Sağlam et al. Developing Turkish sentiment lexicon for sentiment analysis using online news media
Mervin An overview of question answering system
JP6130270B2 (en) Comment list public server, program and method for sorting and specifying comment sets corresponding to media contents
JP5718405B2 (en) Utterance selection apparatus, method and program, dialogue apparatus and method
Vidulin et al. Multi-label approaches to web genre identification
Lopez et al. How can catchy titles be generated without loss of informativeness?
JP5980708B2 (en) Kanji estimation program, apparatus, server, and method for estimating kanji symbolizing target sentence
Vaseeharan et al. Review on sentiment analysis of twitter posts about news headlines using machine learning approaches and naïve bayes classifier
Han et al. On assessing the sentiment of general tweets
Jeong et al. Efficient keyword extraction and text summarization for reading articles on smart phone
Refaee Sentiment analysis for micro-blogging platforms in Arabic
Zhang et al. Sentiment classification based on syntax tree pruning and tree kernel
Elgabou et al. Building dialectal Arabic corpora
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
KR20210064620A (en) The informatization method for youtube video metadata for personal media production
Varga et al. Exploring the Similarity between Social Knowledge Sources and Twitter for Cross-domain Topic Classification.
Rahman et al. TLAB at the NTCIR-13 AKG Task.

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140328

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140328

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160614

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160617

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160706

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160727

R150 Certificate of patent or registration of utility model

Ref document number: 5980708

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150