JP5697164B2 - 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ - Google Patents
対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ Download PDFInfo
- Publication number
- JP5697164B2 JP5697164B2 JP2012052461A JP2012052461A JP5697164B2 JP 5697164 B2 JP5697164 B2 JP 5697164B2 JP 2012052461 A JP2012052461 A JP 2012052461A JP 2012052461 A JP2012052461 A JP 2012052461A JP 5697164 B2 JP5697164 B2 JP 5697164B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- sentence
- category
- tagging
- japanese sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
形態素解析によって、日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
カテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与するタグ付け手段と
してコンピュータを機能させることを特徴とする。
カテゴリは、情動、感情又は感覚に応じて区分されており、
日本語文に付与されるカテゴリのタグは、情動タグ、感情タグ又は感覚タグであることも好ましい。
第1の語は、漢字であり、
第1の語の漢字は、全てのカテゴリについて同一の部首を含むことも好ましい。
第1の語の漢字は、全てのカテゴリについて部首「心」を含むことも好ましい。
マスメディアによって発行された文章を蓄積した拡張用文章蓄積手段を更に有し、
拡張用文章蓄積手段を用いて、第1の語と、当該第1の語の同義語及び類義語と共起する拡張語を抽出し、
カテゴリ記憶手段は、第1の語として拡張語を更に含むことも好ましい。
文章集合蓄積手段に蓄積された文章情報は、ブログサーバ又はSNS(Social Networking Service)サーバによって公開される個人によって記述された文章であることも好ましい。
カテゴリのタグを付与した第1の日本語文と、他の第2の日本語文との編集距離を算出する編集距離算出手段を更に有し、
タグ付け手段は、編集距離が所定閾値以下であれば、第1の日本語文に付与されたタグと同一のタグを、第2の日本語文に対しても付与することも好ましい。
形態素解析手段は、第2の語として自立語を抽出することも好ましい。
日本語文は、俳句、川柳若しくは短歌のような短詩、又は、各種名言であることも好ましい。
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
形態素解析によって、日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
カテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与するタグ付け手段と
を有することを特徴とする。
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積部と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶部とを有し、
形態素解析によって、日本語文から1つ以上の第2の語を抽出する第1のステップと、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、文章集合蓄積部に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する第2のステップと、
カテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する第3のステップと、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与する第4のステップと
を有することを特徴とする。
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
端末から利用者の操作に応じて入力された日本語文を受信する日本語文受信手段と、
形態素解析によって、日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
カテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与するタグ付け手段と
当該日本語文に付与された1つ以上のタグを端末へ返信するタグ送信手段と
を有することを特徴とする。
図2は、本発明における第2の語抽出及び共起頻度算出並びに統計共起頻度算出の説明図である。
帰る -> 動詞(自立語)
家 -> 名詞(自立語)
ある -> 動詞(自立語)
の -> 助詞
も -> 助詞
重し -> 形容詞(自立語)
五月闇 -> 名詞(自立語)
カテゴリ1 愉(たのしむ)
カテゴリ2 懐(なつかしむ)
カテゴリ3 恋(こい) ・愛(あい)
カテゴリ4 慕(したう) ・憧(あこがれ
カテゴリ5 忍(しのぶ) ・恥(はじらう)
カテゴリ6 悔(くやむ) ・恨(うらむ)
カテゴリ7 惜(おしむ) ・悼(いたむ) ・忌(いむ)
カテゴリ8 悲(かなしい)・愁/憂 (うれえる)
カテゴリ9 怖(こわい) ・恐(おそれる)
カテゴリ10 怒(いかる) ・憎(にくむ)
第2の語「帰」 − 第1の語「愉」
第2の語「帰」 − 第1の語「懐」
:
第2の語「五月闇」− 第1の語「憎」
第2の語「帰」−第1の語「慕」:検索結果「太郎を慕って、花子が帰ってきた。」
第2の語「帰」−第1の語「慕」:検索結果「犬は飼い主を慕って、帰ってくる。」
「帰」に対する「慕」共起頻度 --> 2
(1)「まくら」
(2)「くら」(「ま」を削除)
(3)「くらい」(「い」を挿入)
10 入力部
11 形態素解析部
12 カテゴリ記憶部
13 文章集合蓄積部
14 共起頻度算出部
15 統計共起頻度算出部
16 タグ付け部
17 タグ付け結果蓄積部
18 拡張用文章蓄積部
190 第2の入力部
191 編集距離算出部
192 第2のタグ付け部
2 タグ付けサーバ
20 通信インタフェース部
21 日本語文受信部
22 タグ送信部
31 マスメディアサーバ
32 ブログサーバ
33 SNSサーバ
4 ユーザ端末
Claims (12)
- 日本語文に、当該日本語文から直接的に導出できない1つ以上のタグを付与するようにコンピュータを機能させるタグ付けプログラムであって、
前記日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
形態素解析によって、前記日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、前記文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
前記カテゴリ毎に、第2の語に対する前記共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
前記統計共起頻度が所定閾値以上となる当該カテゴリのタグを、前記日本語文に付与するタグ付け手段と
してコンピュータを機能させることを特徴とするタグ付けプログラム。 - 前記カテゴリは、情動、感情又は感覚に応じて区分されており、
前記日本語文に付与される前記カテゴリのタグは、情動タグ、感情タグ又は感覚タグである
ようにコンピュータを機能させることを特徴とする請求項1に記載のタグ付けプログラム。 - 第1の語は、漢字であり、
第1の語の漢字は、全てのカテゴリについて同一の部首を含む
ようにコンピュータを機能させることを特徴とする請求項2に記載のタグ付けプログラム。 - 第1の語の漢字は、全てのカテゴリについて部首「心」を含む
ようにコンピュータを機能させることを特徴とする請求項3に記載のタグ付けプログラム。 - マスメディアによって発行された文章を蓄積した拡張用文章蓄積手段を更に有し、
前記拡張用文章蓄積手段を用いて、第1の語と、当該第1の語の同義語及び類義語と共起する拡張語を抽出し、
前記カテゴリ記憶手段は、第1の語として前記拡張語を更に含む
ようにコンピュータを機能させることを特徴とする請求項1から4に記載のタグ付けプログラム。 - 前記文章集合蓄積手段に蓄積された前記文章情報は、ブログサーバ又はSNS(Social Networking Service)サーバによって公開される個人によって記述された文章である
ようにコンピュータを機能させることを特徴とする請求項1から5に記載のタグ付けプログラム。 - 前記カテゴリのタグを付与した第1の日本語文と、他の第2の日本語文との編集距離を算出する編集距離算出手段を更に有し、
前記タグ付け手段は、前記編集距離が所定閾値以下であれば、第1の日本語文に付与された前記タグと同一のタグを、第2の日本語文に対しても付与する
ようにコンピュータを機能させることを特徴とする請求項1から6に記載のタグ付けプログラム。 - 前記形態素解析手段は、第2の語として自立語を抽出する
ようにコンピュータを機能させることを特徴とする請求項1から7に記載のタグ付けプログラム。 - 前記日本語文は、俳句、川柳若しくは短歌のような短詩、又は、各種名言である
ようにコンピュータを機能させることを特徴とする請求項1から8に記載のタグ付けプログラム。 - 日本語文に、当該日本語文から直接的に導出できない1つ以上のタグを付与するようにコンピュータを機能させるタグ付け装置であって、
前記日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
形態素解析によって、前記日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、前記文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
前記カテゴリ毎に、第2の語に対する前記共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
前記統計共起頻度が所定閾値以上となる当該カテゴリのタグを、前記日本語文に付与するタグ付け手段と
を有することを特徴とするタグ付け装置。 - 日本語文に、コンピュータを用いて当該日本語文から直接的に導出できない1つ以上のタグを付与するタグ付け方法であって、
前記日本語文と異なる多数の文章情報を蓄積した文章集合蓄積部と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶部とを有し、
形態素解析によって、前記日本語文から1つ以上の第2の語を抽出する第1のステップと、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、前記文章集合蓄積部に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する第2のステップと、
前記カテゴリ毎に、第2の語に対する前記共起頻度の合計となる統計共起頻度を算出する第3のステップと、
前記統計共起頻度が所定閾値以上となる当該カテゴリのタグを、前記日本語文に付与する第4のステップと
を有することを特徴とするタグ付け方法。 - 日本語文に、当該日本語文から直接的に導出できない1つ以上のタグを付与するタグ付けサーバであって、
前記日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
端末から利用者の操作に応じて入力された日本語文を受信する日本語文受信手段と、
形態素解析によって、前記日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、前記文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
前記カテゴリ毎に、第2の語に対する前記共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
前記統計共起頻度が所定閾値以上となる当該カテゴリのタグを、前記日本語文に付与するタグ付け手段と
当該日本語文に付与された1つ以上のタグを前記端末へ返信するタグ送信手段と
を有することを特徴とするタグ付けサーバ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012052461A JP5697164B2 (ja) | 2012-03-09 | 2012-03-09 | 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012052461A JP5697164B2 (ja) | 2012-03-09 | 2012-03-09 | 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013186764A JP2013186764A (ja) | 2013-09-19 |
JP5697164B2 true JP5697164B2 (ja) | 2015-04-08 |
Family
ID=49388111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012052461A Active JP5697164B2 (ja) | 2012-03-09 | 2012-03-09 | 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5697164B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6611972B1 (ja) | 2019-03-05 | 2019-11-27 | 正通 亀井 | アドバイス提示システム |
CN111984883B (zh) * | 2020-08-11 | 2024-05-14 | 北京百度网讯科技有限公司 | 标签挖掘方法、装置、设备以及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002259411A (ja) * | 2001-03-06 | 2002-09-13 | Nec Corp | 文章情報変換システム、文章情報変換方法および文章情報変換プログラム |
JP2006164028A (ja) * | 2004-12-09 | 2006-06-22 | Canon Inc | ウィンドウ型表示装置及びその方法 |
JP5022252B2 (ja) * | 2008-01-30 | 2012-09-12 | 日本放送協会 | 表現テンプレート生成装置、その方法およびそのプログラム |
-
2012
- 2012-03-09 JP JP2012052461A patent/JP5697164B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013186764A (ja) | 2013-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Montejo-Ráez et al. | Ranked wordnet graph for sentiment polarity classification in twitter | |
Khan et al. | eSAP: A decision support framework for enhanced sentiment analysis and polarity classification | |
Loia et al. | A fuzzy-oriented sentic analysis to capture the human emotion in Web-based content | |
JP6466952B2 (ja) | 文章生成システム | |
JP6381775B2 (ja) | 情報処理システム及び情報処理方法 | |
Gianfortoni et al. | Modeling of stylistic variation in social media with stretchy patterns | |
Donato et al. | Investigating redundancy in emoji use: Study on a twitter based corpus | |
Kim et al. | Acquisition and use of long-term memory for personalized dialog systems | |
Qiu et al. | Advanced sentiment classification of tibetan microblogs on smart campuses based on multi-feature fusion | |
Silva et al. | Evaluating topic models in Portuguese political comments about bills from brazil’s chamber of deputies | |
Wright | Stylistics versus Statistics: A corpus linguistic approach to combining techniques in forensic authorship analysis using Enron emails | |
JP6830971B2 (ja) | 文章生成のためのデータを生成するシステム及び方法 | |
Xu et al. | RIP emojis and words to contextualize mourning on Twitter | |
KR101928074B1 (ko) | 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법 | |
Itani | Sentiment analysis and resources for informal Arabic text on social media | |
JP5697164B2 (ja) | 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ | |
Valvason | The semantics of sustainable development: A corpus-assisted, ecological analysis of discourse across languages | |
KR101265467B1 (ko) | 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법 | |
Diamantini et al. | Semantic disambiguation in a social information discovery system | |
Kisilevich et al. | What do you think about this photo? A novel approach to opinion and sentiment analysis of photo comments | |
Dandash et al. | Recognizing personality traits using Twitter & Facebook for Arabic speaking users in Lebanon | |
Al-Mahdawi | Automatic emotion recognition in English and Arabic text | |
Milosevic et al. | Creating a contemporary corpus of similes in Serbian by using natural language processing | |
Sheeba et al. | A semantic approach of building dynamic learner profile model using wordnet | |
Haladzhun et al. | “Anti-vaccinationists&Anti-vax”: Linguistic Means of Actualizing Assessment in the Headlines and Leads of Ukrainian Text Media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5697164 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |