JP2013186764A - 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ - Google Patents
対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ Download PDFInfo
- Publication number
- JP2013186764A JP2013186764A JP2012052461A JP2012052461A JP2013186764A JP 2013186764 A JP2013186764 A JP 2013186764A JP 2012052461 A JP2012052461 A JP 2012052461A JP 2012052461 A JP2012052461 A JP 2012052461A JP 2013186764 A JP2013186764 A JP 2013186764A
- Authority
- JP
- Japan
- Prior art keywords
- word
- sentence
- category
- tagging
- japanese sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】多数の文章情報を蓄積した文章集合蓄積手段と、1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段とを有し、形態素解析によって、日本語文から1つ以上の第2の語を抽出し、第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出し、そのカテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する。算出された統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与する。
【選択図】図1
Description
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
形態素解析によって、日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
カテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与するタグ付け手段と
してコンピュータを機能させることを特徴とする。
カテゴリは、情動、感情又は感覚に応じて区分されており、
日本語文に付与されるカテゴリのタグは、情動タグ、感情タグ又は感覚タグであることも好ましい。
第1の語は、漢字であり、
第1の語の漢字は、全てのカテゴリについて同一の部首を含むことも好ましい。
第1の語の漢字は、全てのカテゴリについて部首「心」を含むことも好ましい。
マスメディアによって発行された文章を蓄積した拡張用文章蓄積手段を更に有し、
拡張用文章蓄積手段を用いて、第1の語と、当該第1の語の同義語及び類義語と共起する拡張語を抽出し、
カテゴリ記憶手段は、第1の語として拡張語を更に含むことも好ましい。
文章集合蓄積手段に蓄積された文章情報は、ブログサーバ又はSNS(Social Networking Service)サーバによって公開される個人によって記述された文章であることも好ましい。
カテゴリのタグを付与した第1の日本語文と、他の第2の日本語文との編集距離を算出する編集距離算出手段を更に有し、
タグ付け手段は、編集距離が所定閾値以下であれば、第1の日本語文に付与されたタグと同一のタグを、第2の日本語文に対しても付与することも好ましい。
形態素解析手段は、第2の語として自立語を抽出することも好ましい。
日本語文は、俳句、川柳若しくは短歌のような短詩、又は、各種名言であることも好ましい。
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
形態素解析によって、日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
カテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与するタグ付け手段と
を有することを特徴とする。
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積部と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶部とを有し、
形態素解析によって、日本語文から1つ以上の第2の語を抽出する第1のステップと、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、文章集合蓄積部に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する第2のステップと、
カテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する第3のステップと、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与する第4のステップと
を有することを特徴とする。
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
端末から利用者の操作に応じて入力された日本語文を受信する日本語文受信手段と、
形態素解析によって、日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
カテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与するタグ付け手段と
当該日本語文に付与された1つ以上のタグを端末へ返信するタグ送信手段と
を有することを特徴とする。
図2は、本発明における第2の語抽出及び共起頻度算出並びに統計共起頻度算出の説明図である。
帰る -> 動詞(自立語)
家 -> 名詞(自立語)
ある -> 動詞(自立語)
の -> 助詞
も -> 助詞
重し -> 形容詞(自立語)
五月闇 -> 名詞(自立語)
カテゴリ1 愉(たのしむ)
カテゴリ2 懐(なつかしむ)
カテゴリ3 恋(こい) ・愛(あい)
カテゴリ4 慕(したう) ・憧(あこがれ
カテゴリ5 忍(しのぶ) ・恥(はじらう)
カテゴリ6 悔(くやむ) ・恨(うらむ)
カテゴリ7 惜(おしむ) ・悼(いたむ) ・忌(いむ)
カテゴリ8 悲(かなしい)・愁/憂 (うれえる)
カテゴリ9 怖(こわい) ・恐(おそれる)
カテゴリ10 怒(いかる) ・憎(にくむ)
第2の語「帰」 − 第1の語「愉」
第2の語「帰」 − 第1の語「懐」
:
第2の語「五月闇」− 第1の語「憎」
第2の語「帰」−第1の語「慕」:検索結果「太郎を慕って、花子が帰ってきた。」
第2の語「帰」−第1の語「慕」:検索結果「犬は飼い主を慕って、帰ってくる。」
「帰」に対する「慕」共起頻度 --> 2
(1)「まくら」
(2)「くら」(「ま」を削除)
(3)「くらい」(「い」を挿入)
10 入力部
11 形態素解析部
12 カテゴリ記憶部
13 文章集合蓄積部
14 共起頻度算出部
15 統計共起頻度算出部
16 タグ付け部
17 タグ付け結果蓄積部
18 拡張用文章蓄積部
190 第2の入力部
191 編集距離算出部
192 第2のタグ付け部
2 タグ付けサーバ
20 通信インタフェース部
21 日本語文受信部
22 タグ送信部
31 マスメディアサーバ
32 ブログサーバ
33 SNSサーバ
4 ユーザ端末
Claims (12)
- 日本語文に、当該日本語文から直接的に導出できない1つ以上のタグを付与するようにコンピュータを機能させるタグ付けプログラムであって、
前記日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
形態素解析によって、前記日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、前記文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
前記カテゴリ毎に、第2の語に対する前記共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
前記統計共起頻度が所定閾値以上となる当該カテゴリのタグを、前記日本語文に付与するタグ付け手段と
してコンピュータを機能させることを特徴とするタグ付けプログラム。 - 前記カテゴリは、情動、感情又は感覚に応じて区分されており、
前記日本語文に付与される前記カテゴリのタグは、情動タグ、感情タグ又は感覚タグである
ようにコンピュータを機能させることを特徴とする請求項1に記載のタグ付けプログラム。 - 第1の語は、漢字であり、
第1の語の漢字は、全てのカテゴリについて同一の部首を含む
ようにコンピュータを機能させることを特徴とする請求項2に記載のタグ付けプログラム。 - 第1の語の漢字は、全てのカテゴリについて部首「心」を含む
ようにコンピュータを機能させることを特徴とする請求項3に記載のタグ付けプログラム。 - マスメディアによって発行された文章を蓄積した拡張用文章蓄積手段を更に有し、
前記拡張用文章蓄積手段を用いて、第1の語と、当該第1の語の同義語及び類義語と共起する拡張語を抽出し、
前記カテゴリ記憶手段は、第1の語として前記拡張語を更に含む
ようにコンピュータを機能させることを特徴とする請求項1から4に記載のタグ付けプログラム。 - 前記文章集合蓄積手段に蓄積された前記文章情報は、ブログサーバ又はSNS(Social Networking Service)サーバによって公開される個人によって記述された文章である
ようにコンピュータを機能させることを特徴とする請求項1から5に記載のタグ付けプログラム。 - 前記カテゴリのタグを付与した第1の日本語文と、他の第2の日本語文との編集距離を算出する編集距離算出手段を更に有し、
前記タグ付け手段は、前記編集距離が所定閾値以下であれば、第1の日本語文に付与された前記タグと同一のタグを、第2の日本語文に対しても付与する
ようにコンピュータを機能させることを特徴とする請求項1から6に記載のタグ付けプログラム。 - 前記形態素解析手段は、第2の語として自立語を抽出する
ようにコンピュータを機能させることを特徴とする請求項1から7に記載のタグ付けプログラム。 - 前記日本語文は、俳句、川柳若しくは短歌のような短詩、又は、各種名言である
ようにコンピュータを機能させることを特徴とする請求項1から8に記載のタグ付けプログラム。 - 日本語文に、当該日本語文から直接的に導出できない1つ以上のタグを付与するようにコンピュータを機能させるタグ付け装置であって、
前記日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
形態素解析によって、前記日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、前記文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
前記カテゴリ毎に、第2の語に対する前記共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
前記統計共起頻度が所定閾値以上となる当該カテゴリのタグを、前記日本語文に付与するタグ付け手段と
を有することを特徴とするタグ付け装置。 - 日本語文に、コンピュータを用いて当該日本語文から直接的に導出できない1つ以上のタグを付与するタグ付け方法であって、
前記日本語文と異なる多数の文章情報を蓄積した文章集合蓄積部と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶部とを有し、
形態素解析によって、前記日本語文から1つ以上の第2の語を抽出する第1のステップと、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、前記文章集合蓄積部に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する第2のステップと、
前記カテゴリ毎に、第2の語に対する前記共起頻度の合計となる統計共起頻度を算出する第3のステップと、
前記統計共起頻度が所定閾値以上となる当該カテゴリのタグを、前記日本語文に付与する第4のステップと
を有することを特徴とするタグ付け方法。 - 日本語文に、当該日本語文から直接的に導出できない1つ以上のタグを付与するタグ付けサーバであって、
前記日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
端末から利用者の操作に応じて入力された日本語文を受信する日本語文受信手段と、
形態素解析によって、前記日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、前記文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
前記カテゴリ毎に、第2の語に対する前記共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
前記統計共起頻度が所定閾値以上となる当該カテゴリのタグを、前記日本語文に付与するタグ付け手段と
当該日本語文に付与された1つ以上のタグを前記端末へ返信するタグ送信手段と
を有することを特徴とするタグ付けサーバ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012052461A JP5697164B2 (ja) | 2012-03-09 | 2012-03-09 | 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012052461A JP5697164B2 (ja) | 2012-03-09 | 2012-03-09 | 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013186764A true JP2013186764A (ja) | 2013-09-19 |
JP5697164B2 JP5697164B2 (ja) | 2015-04-08 |
Family
ID=49388111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012052461A Active JP5697164B2 (ja) | 2012-03-09 | 2012-03-09 | 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5697164B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020179478A1 (ja) | 2019-03-05 | 2020-09-10 | 正通 亀井 | アドバイス提示システム |
JP2022003514A (ja) * | 2020-08-11 | 2022-01-11 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | タグマイニング方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002259411A (ja) * | 2001-03-06 | 2002-09-13 | Nec Corp | 文章情報変換システム、文章情報変換方法および文章情報変換プログラム |
JP2006164028A (ja) * | 2004-12-09 | 2006-06-22 | Canon Inc | ウィンドウ型表示装置及びその方法 |
JP2009181301A (ja) * | 2008-01-30 | 2009-08-13 | Nippon Hoso Kyokai <Nhk> | 表現テンプレート生成装置、その方法およびそのプログラム |
-
2012
- 2012-03-09 JP JP2012052461A patent/JP5697164B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002259411A (ja) * | 2001-03-06 | 2002-09-13 | Nec Corp | 文章情報変換システム、文章情報変換方法および文章情報変換プログラム |
JP2006164028A (ja) * | 2004-12-09 | 2006-06-22 | Canon Inc | ウィンドウ型表示装置及びその方法 |
JP2009181301A (ja) * | 2008-01-30 | 2009-08-13 | Nippon Hoso Kyokai <Nhk> | 表現テンプレート生成装置、その方法およびそのプログラム |
Non-Patent Citations (4)
Title |
---|
CSNG200202285001; 湯浅 夏樹: '大量の文書データから自動抽出した名詞間共起関係による文書の自動分類' 情報処理学会研究報告 Vol.93 No.101, 19931119, 81-88ページ, 社団法人情報処理学会 * |
CSNG200900334047; 郡 宏志: 'BlogRadio: Blog情報の感情マイニングと可聴化に基づくWeb閲覧補完' DEWS2005論文集 , 20050502, 1-8ページ, (社)電子情報通信学会データ工学研究専門委員会 * |
JPN6015004575; 湯浅 夏樹: '大量の文書データから自動抽出した名詞間共起関係による文書の自動分類' 情報処理学会研究報告 Vol.93 No.101, 19931119, 81-88ページ, 社団法人情報処理学会 * |
JPN6015004576; 郡 宏志: 'BlogRadio: Blog情報の感情マイニングと可聴化に基づくWeb閲覧補完' DEWS2005論文集 , 20050502, 1-8ページ, (社)電子情報通信学会データ工学研究専門委員会 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020179478A1 (ja) | 2019-03-05 | 2020-09-10 | 正通 亀井 | アドバイス提示システム |
JP2020144557A (ja) * | 2019-03-05 | 2020-09-10 | 正通 亀井 | アドバイス提示システム |
CN113508376A (zh) * | 2019-03-05 | 2021-10-15 | 龟井正通 | 建议提示系统 |
KR20210132061A (ko) | 2019-03-05 | 2021-11-03 | 마사미치 가메이 | 어드바이스 제시 시스템 |
US11768879B2 (en) | 2019-03-05 | 2023-09-26 | Land Business Co., Ltd. | Advice presentation system |
JP2022003514A (ja) * | 2020-08-11 | 2022-01-11 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | タグマイニング方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム |
JP7277502B2 (ja) | 2020-08-11 | 2023-05-19 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | タグマイニング方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5697164B2 (ja) | 2015-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Montejo-Ráez et al. | Ranked wordnet graph for sentiment polarity classification in twitter | |
Khan et al. | eSAP: A decision support framework for enhanced sentiment analysis and polarity classification | |
Su et al. | Rephrasing profanity in chinese text | |
Saha et al. | Proposed approach for sarcasm detection in twitter | |
Teso et al. | Application of text mining techniques to the analysis of discourse in eWOM communications from a gender perspective | |
Loia et al. | A fuzzy-oriented sentic analysis to capture the human emotion in Web-based content | |
JP6466952B2 (ja) | 文章生成システム | |
Gianfortoni et al. | Modeling of stylistic variation in social media with stretchy patterns | |
Donato et al. | Investigating redundancy in emoji use: Study on a twitter based corpus | |
JP6381775B2 (ja) | 情報処理システム及び情報処理方法 | |
Kim et al. | Acquisition and use of long-term memory for personalized dialog systems | |
Qiu et al. | Advanced sentiment classification of tibetan microblogs on smart campuses based on multi-feature fusion | |
Badugu et al. | Emotion detection on twitter data using knowledge base approach | |
Silva et al. | Evaluating topic models in Portuguese political comments about bills from Brazil’s chamber of deputies | |
Wright | Stylistics versus Statistics: A corpus linguistic approach to combining techniques in forensic authorship analysis using Enron emails | |
Biba et al. | Sentiment analysis through machine learning: an experimental evaluation for Albanian | |
Roy et al. | Automated linguistic personalization of targeted marketing messages mining user-generated text on social media | |
Xu et al. | RIP emojis and words to contextualize mourning on Twitter | |
KR101928074B1 (ko) | 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법 | |
Itani | Sentiment analysis and resources for informal Arabic text on social media | |
JP5697164B2 (ja) | 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ | |
Valvason | The semantics of sustainable development: A corpus-assisted, ecological analysis of discourse across languages | |
Shi et al. | EOSentiMiner: an opinion-aware system based on emotion ontology for sentiment analysis of Chinese online reviews | |
Kisilevich et al. | What do you think about this photo? A novel approach to opinion and sentiment analysis of photo comments | |
Diamantini et al. | Semantic disambiguation in a social information discovery system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5697164 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |