JP2013186764A - 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ - Google Patents

対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ Download PDF

Info

Publication number
JP2013186764A
JP2013186764A JP2012052461A JP2012052461A JP2013186764A JP 2013186764 A JP2013186764 A JP 2013186764A JP 2012052461 A JP2012052461 A JP 2012052461A JP 2012052461 A JP2012052461 A JP 2012052461A JP 2013186764 A JP2013186764 A JP 2013186764A
Authority
JP
Japan
Prior art keywords
word
sentence
category
tagging
japanese sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012052461A
Other languages
English (en)
Other versions
JP5697164B2 (ja
Inventor
Masami Suzuki
雅実 鈴木
Toshihiro Ono
智弘 小野
Hajime Hattori
元 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2012052461A priority Critical patent/JP5697164B2/ja
Publication of JP2013186764A publication Critical patent/JP2013186764A/ja
Application granted granted Critical
Publication of JP5697164B2 publication Critical patent/JP5697164B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】タグ付与対象の日本語文を構成する単語からは直接的に導出できないタグを日本語文に付与することができるタグ付けプログラム等を提供する。
【解決手段】多数の文章情報を蓄積した文章集合蓄積手段と、1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段とを有し、形態素解析によって、日本語文から1つ以上の第2の語を抽出し、第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出し、そのカテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する。算出された統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与する。
【選択図】図1

Description

本発明は、日本語文にタグを付与する技術に関する。
従来、電子ファイルに対して、予め定めた記法によりメタデータを埋め込むタグ付与の技術がある。コンピュータによって電子ファイルから所望する情報を検索する場合、コンピュータは付与されたタグを参照して検索する。日本語の文又は文章に対しても、様々なタグが付与されてきた。付与されるタグの種類としては、例えば、品詞タグ、文節係り受け関係を示す係り受けタグ、照応解析結果に対する照応タグ、及び、意味解析結果に対する意味タグがある。同様に、文又は文章が表す感情に対しては、感情タグが付与されてきた。
例えば、電子メッセージに、「喜び」、「怒り」、「悲しさ」、「楽しさ」、又は「普通」のような感情情報を付与する技術がある。この技術では、受信した電子メッセージの感情情報に対応した返信メッセージ用の感情情報を自動生成して、その感情情報を返信メッセージと共に送信する。感情辞書は、予め単語毎に感情情報を関連付けて蓄積する(例えば特許文献1参照)。
また、入力された文に含まれる単語に対して、感情極性語辞書と推定ルールとを適用し、入力文の感情極性を推定する技術がある。ここで感情極性語辞書は、単語の感情極性について、ポジティブ、ネガティブ及び不明の何れかを定義して蓄積したものである(例えば特許文献2参照)。
更に、「悲しい−うれしい」及び「怒る−喜ぶ」の二つの感情尺度に対する評価値に基づいて、Webニュース記事の喜怒哀楽の程度を決定する技術がある。感情尺度に対する評価値は、Webニュース記事に含まれる語と、感情語との共起頻度の比率から算出される(例えば非特許文献1参照)。
更に、ナイーブベイズ分類器を使用して、文に任意の感情タグを自動付与する技術がある。ナイーブベイズ分類器は、対象文中の単語の出現頻度に基づいて文を感情カテゴリに分類する。対象文は、分類された感情カテゴリに基づいて、感情タグを付与される(例えば非特許文献2参照)。
表現中に感情のような主観的な情報を含むものの一つに、俳句、川柳もしくは短歌のような短詩、又は、各種名句がある。俳句及び川柳は合計17モーラ(mora)、短歌は合計31モーラから成る短く凝縮された日本語の定型詩である。また、名言は、事柄の本質をとらえた語句であって、一般に、短いモーラ数で表現される。
モーラとは、音韻論上、一定の時間的長さをもった音の分節単位をいう。日本語では、仮名1文字が、原則、同じ長さで発音されるため、仮名1文字が1モーラに相当する。俳句は、17モーラを5モーラ・7モーラ・5モーラの3句に区切って、また、短歌は、31モーラを5モーラ・7モーラ・5モーラ・7モーラ・7モーラの5句に区切って表現される。
これらの短詩又は各種名言は、芸術的な側面だけでなく、作者が作品を通して他者とコミュニケーションを図る機能も有する。短いモーラ数では、内容を過不足なく伝達することは難しい。そこで、個々の単語、又は、断片的な単語の組み合わせから、作者と他者とが共通のイメージを喚起することによって、内容が伝達され、コミュニケーションが図られる。
過去から現在に至る膨大な短詩の作品は、短詩中に出現する単語に基づく文字列マッチングによって検索される。しかし、短詩は、個々の単語そのものではなく、単語及び単語の組み合わせから喚起されるイメージによって表現されているため、直接的な文字列マッチングでは、適切な検索ができない。
短詩を検索する場合も、予めタグを付与し、そのタグを有する短詩を抽出することはできる。また、例えば、俳句中の季語を階層的に体系化して、季節を属性として俳句に付与しておき、属性を検索することで俳句を抽出することもできる。
特許文献1及び2に記載された技術によれば、人手により構築した感情語辞書に基づいて、その語の出現に応じて、感情情報や感情極性を決定している。ここで、人手による辞書構築作業には、コストと時間とを要する。非特許文献2に記載された技術によれば、ナイーブベイズは、過去の事例に基づいて予め分類カテゴリを決定しておき、未知の文章をそのカテゴリに分類する。この技術によれば、辞書は必要としないが、分類カテゴリの決定のために、予め人手によって分類した正解データを作成する必要がある。
人手による正解データ作成作業にも、辞書構築と同様に、コストと時間とを要する。そこで、非特許文献1に記載された技術によれば、辞書については自動構築し、正解データについては必要としないシステムを設計している。
特開2007−271655号公報 特開2010−020390号公報
熊本忠彦、田中克己、「Webニュース記事を対象とする喜怒哀楽抽出システム」、インタラクション2005(インタラクティブ発表),No.4(A-103),pp.25-26,2005 山本麻由、土屋誠司、黒岩眞吾、任福継、「感情コーパス構築のための文中の語に基づく感情分類手法」、情報処理学会研究報告,No.158,pp.31-35,2007
しかしながら、前述した技術によれば、予めタグが付与されたものしか検索することができない。また、季節のような属性の有無に基づく検索でも、その属性が付与されたものしか検索することができない。
また、これらの技術によれば、文又は文章に現れる表現のみを対象としており、周辺文脈又は関連する文章に現れる表現は対象としていない。電子メッセージ又はWebニュース記事のように文字数の多い文又は文章の場合は、文章中の情動、感情又は感覚に関する表現が出現するため、タグ又は属性を付与することが可能である。一方、短詩及び各種名言のように文字数の少ない文の場合は、情動、感情又は感覚に関する表現が文中に出現しないことも多い。そのため、適切なタグを付与できない場合がある。
そこで、本発明は、タグ付与対象の日本語文を構成する単語からは直接的に導出できないタグを日本語文に付与することができるタグ付けプログラム、装置、方法及びサーバを提供することを目的とする。
本発明によれば、日本語文に、当該日本語文から直接的に導出できない1つ以上のタグを付与するようにコンピュータを機能させるタグ付けプログラムであって、
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
形態素解析によって、日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
カテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与するタグ付け手段と
してコンピュータを機能させることを特徴とする。
本発明のタグ付けプログラムにおける他の実施形態によれば、
カテゴリは、情動、感情又は感覚に応じて区分されており、
日本語文に付与されるカテゴリのタグは、情動タグ、感情タグ又は感覚タグであることも好ましい。
本発明のタグ付けプログラムにおける他の実施形態によれば、
第1の語は、漢字であり、
第1の語の漢字は、全てのカテゴリについて同一の部首を含むことも好ましい。
本発明のタグ付けプログラムにおける他の実施形態によれば、
第1の語の漢字は、全てのカテゴリについて部首「心」を含むことも好ましい。
本発明のタグ付けプログラムにおける他の実施形態によれば、
マスメディアによって発行された文章を蓄積した拡張用文章蓄積手段を更に有し、
拡張用文章蓄積手段を用いて、第1の語と、当該第1の語の同義語及び類義語と共起する拡張語を抽出し、
カテゴリ記憶手段は、第1の語として拡張語を更に含むことも好ましい。
本発明のタグ付けプログラムにおける他の実施形態によれば、
文章集合蓄積手段に蓄積された文章情報は、ブログサーバ又はSNS(Social Networking Service)サーバによって公開される個人によって記述された文章であることも好ましい。
本発明のタグ付けプログラムにおける他の実施形態によれば、
カテゴリのタグを付与した第1の日本語文と、他の第2の日本語文との編集距離を算出する編集距離算出手段を更に有し、
タグ付け手段は、編集距離が所定閾値以下であれば、第1の日本語文に付与されたタグと同一のタグを、第2の日本語文に対しても付与することも好ましい。
本発明のタグ付けプログラムにおける他の実施形態によれば、
形態素解析手段は、第2の語として自立語を抽出することも好ましい。
本発明のタグ付けプログラムにおける他の実施形態によれば、
日本語文は、俳句、川柳若しくは短歌のような短詩、又は、各種名言であることも好ましい。
本発明によれば、日本語文に、当該日本語文から直接的に導出できない1つ以上のタグを付与するタグ付け装置であって、
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
形態素解析によって、日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
カテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与するタグ付け手段と
を有することを特徴とする。
本発明によれば、日本語文に、当該日本語文から直接的に導出できないコンピュータを用いて1つ以上のタグを付与するタグ付け方法であって、
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積部と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶部とを有し、
形態素解析によって、日本語文から1つ以上の第2の語を抽出する第1のステップと、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、文章集合蓄積部に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する第2のステップと、
カテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する第3のステップと、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与する第4のステップと
を有することを特徴とする。
本発明によれば、日本語文に、当該日本語文から直接的に導出できない1つ以上のタグを付与するタグ付けサーバであって、
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
端末から利用者の操作に応じて入力された日本語文を受信する日本語文受信手段と、
形態素解析によって、日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
カテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与するタグ付け手段と
当該日本語文に付与された1つ以上のタグを端末へ返信するタグ送信手段と
を有することを特徴とする。
本発明のタグ付けプログラム、装置、方法及びサーバによれば、タグ付与対象の日本語文と直接又は間接に関係し得る文章から、カテゴリに属する語を抽出することによって、日本語文を構成する単語からは直接的に導出できないカテゴリを推定し、そのカテゴリのタグを日本語文に付与することができる。
本発明におけるタグ付けプログラムの第1の機能構成図である。 本発明における第2の語抽出及び共起頻度算出並びに統計共起頻度算出の説明図である。 本発明におけるタグ付けプログラムの第2の機能構成図である。 本発明におけるタグ付けプログラムの第3の機能構成図である。 本発明におけるタグ付けサーバのシステム構成図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明におけるタグ付けプログラムの第1の機能構成図である。
図2は、本発明における第2の語抽出及び共起頻度算出並びに統計共起頻度算出の説明図である。
図1によれば、タグ付けプログラム1は、日本語文に1つ以上のタグを付与するものであって、入力部10と、形態素解析部11と、カテゴリ記憶部12と、文章集合蓄積部13と、共起頻度算出部14と、統計共起頻度算出部15と、タグ付け部16と、タグ付け結果蓄積部17とを有する。カテゴリ記憶部12と、文章集合蓄積部13を除くこれら機能部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。尚、各機能部の処理の流れは、タグ付け方法としても実行できる。
入力部10は、日本語文を入力する。日本語文は、俳句、川柳若しくは短歌のような短詩、又は、各種名言であってもよい。ここでは、日本語文として、例えば、川柳の句、「帰る家あるのも重し五月闇」が入力される。入力部10は、日本語文を形態素解析部11へ出力する。
形態素解析部11は、入力部10から入力した日本語文を形態素解析する。形態素解析とは、文法及び単語辞書を情報源として用いて、自然言語で書かれた文を言語として意味を持つ最小単位である形態素(Morpheme)に分割し、それぞれの品詞を判別する技術をいう。例えば、日本語文「帰る家あるのも重し五月闇」は、以下のように解析される(図2の形態素解析部11参照)。
帰る -> 動詞(自立語)
家 -> 名詞(自立語)
ある -> 動詞(自立語)
の -> 助詞
も -> 助詞
重し -> 形容詞(自立語)
五月闇 -> 名詞(自立語)
形態素解析部11は、形態素解析結果から自立語を、第2の語として抽出する。自立語が活用語である場合、語幹のみを抽出する。ここでは、「帰」「家」「ある」「重」「五月闇」を第2の語として抽出する。抽出された第2の語は、共起頻度算出部14へ出力される。
カテゴリ記憶部12は、1つ以上の第1の語を含む複数のカテゴリを記憶する。カテゴリは、情動(emotion)、感情(feeling)又は感覚(sensation)に応じて区分されたものであってもよい。
「情動」とは、急激な生理的変化や本能に基づく身体的反応を伴う心の作用をいう。情動には、例えば、食料を得るための「接近」行動や、敵に対する「攻撃・回避」行動を引き起こす心の作用がある。感情が認知的側面を有し、個人差が大きいのに対し、情動は生理学的側面を有し、個人差が小さい。
「感情」とは、物事に対する認知及び解釈によって引き起こされる、主観的な体験及び態度をいう。感情には、例えば、快・不快のような「気持ち」、「興味」、「嫉妬」及び「情操」がある。また、「情動」は近道の神経回路を使用し、短時間で起動されるものであるのに対し、「感情」がノーマルの神経回路を使用するものである。
「感覚」とは、身体の内外からの刺激を感じ取る働きをいう。感覚は、素材的・分析的な意識経験を表現する。感覚には、例えば、視覚、聴覚、触覚、味覚、嗅覚、圧覚、痛覚、冷覚、温覚、運動感覚、平衡感覚及び内部感覚がある。
情動、感情又は感覚に応じたカテゴリの区分は、心理学等の領域で人間の基本感情として分類されている喜・怒・哀・楽・愛・憎に代表されるものを、更にさらに拡張したものであってもよい。
カテゴリに含まれる第1の語は、全てのカテゴリについて同一の部首を含む漢字であってもよい。例えば、部首「心」を含む以下の漢字約20文字が、10のカテゴリに分類され、第1の語としてカテゴリ記憶部12に記憶される(図2のカテゴリ記憶部12参照)。
カテゴリ1 愉(たのしむ)
カテゴリ2 懐(なつかしむ)
カテゴリ3 恋(こい) ・愛(あい)
カテゴリ4 慕(したう) ・憧(あこがれ
カテゴリ5 忍(しのぶ) ・恥(はじらう)
カテゴリ6 悔(くやむ) ・恨(うらむ)
カテゴリ7 惜(おしむ) ・悼(いたむ) ・忌(いむ)
カテゴリ8 悲(かなしい)・愁/憂 (うれえる)
カテゴリ9 怖(こわい) ・恐(おそれる)
カテゴリ10 怒(いかる) ・憎(にくむ)
文章集合蓄積部13は、多数の文章情報を蓄積する。これらの文章は、日本語文と、直接又は間接に関係し得る文章であってもよい。例えば、日本語文が川柳であれば、その川柳と関連のあるその句の解説文章であってもよいし、それに準じた文章であってもよい。また、例えば、多次元単語ベクトル間距離に基づく類似文書検索手法により検索した、その川柳と表現が近い文章であってもよい。このような文章は、タグ付け対象の川柳が喚起するイメージの全体または一部を包含するイメージを同様に喚起するものと仮定できる。
共起頻度算出部14は、形態素解析部11から第2の語を入力すると共に、カテゴリ記憶部12から第1の語を取得する。共起頻度算出部14は、第2の語と、カテゴリ毎の各第1の語との組み合わせについて、文章集合蓄積部13から検索する。ここでは、以下のように全ての組み合わせを検索する。
第2の語「帰」 − 第1の語「愉」
第2の語「帰」 − 第1の語「懐」

第2の語「五月闇」− 第1の語「憎」
次に、共起頻度算出部14は、検索結果について、以下のように第2の語に対する第1の語毎の共起頻度を算出する。算出された共起頻度は、統計共起頻度算出部15へ出力される(図2の共起頻度算出部14参照)。
第2の語「帰」−第1の語「慕」:検索結果「太郎を慕って、花子が帰ってきた。」
第2の語「帰」−第1の語「慕」:検索結果「犬は飼い主を慕って、帰ってくる。」
「帰」に対する「慕」共起頻度 --> 2
統計共起頻度算出部15は、共起頻度算出部14が算出した共起頻度を入力する。統計共起頻度算出部15は、カテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する。例えば、「帰」に対する「忍」の共起頻度が「25」、「帰」に対する「恥」の共起頻度が「13」であるとする。ここで、「忍」と「恥」は、同一のカテゴリ5に属する第1の語である。よって、第2の語「帰」に対するカテゴリ5に属する語の統計共起頻度は、25と13の和の「38」として算出される。統計共起頻度算出部15は、算出した統計共起頻度をタグ付け部16へ出力する(図2の統計共起頻度算出部15参照)。
タグ付け部16は、算出された統計共起頻度を入力する。タグ付け部16は、入力した統計共起頻度を所定閾値と比較する。ここで、カテゴリ4(慕・憧)及びカテゴリ5(忍・恥)の統計共起頻度が、所定閾値以上となったとする。統計共起頻度算出部15は、カテゴリ4及びカテゴリ5のタグを、日本語文「帰る家あるのも重し五月闇」に付与する。タグ付け部16は、タグ付け結果をタグ付け結果蓄積部17へ出力する。また、タグ付け部16は、重みを付与したタグ付け結果を出力してもよい。
以上の処理により、日本語文「帰る家あるのも重し五月闇」を特徴付ける感情及び感情として、「慕・憧」及び「忍・恥」のカテゴリが認定される。
図3は、本発明におけるタグ付けプログラムの第2の機能構成図である。
図3によれば、図1と比較して、拡張用文章蓄積部18が、タグ付けプログラム1に配置されている。
拡張用文章蓄積部18は、例えば、インターネットを介して、マスメディアサーバ31からマスメディアによって発行された文章を取得するものであってもよい。例えば、新聞記事文章は、一定の質が保たれており、多くの文章が入手可能である。また、拡張用文章蓄積部18は、例えば、CD−ROMからマスメディア文章を取得するものであってもよい。
一方で、文章集合蓄積部13は、例えば、インターネットを介して、一般的なWebサーバによって公開される文章を取得するものであってもよい。しかしながら、一般的なWebサーバによって公開されている文章では、俳句に出現する季語のような短詩に関する特定表現の出現頻度が、他の文章と(例えば新聞記事)と比較して低いことが知られている。また、短詩について直接言及しているような解説文章又は引用文章は、その短詩の周辺文脈となる。タグ付け対象の日本語文を短詩とした場合、このような解説文章又は引用文章は、短詩中の語である第2の語と、カテゴリに属する第1の語との共起頻度を求めるには適切な文章と考えられる。ただし、そのような解説文章又は引用文章は、量的に少ない。そのため、出現する単語が疎らであったり(スパース性)、単語の出現頻度に偏りが生じる可能性がある。そこで、次のように、カテゴリ記憶部12に記憶されている第1の語と、文章集合蓄積部13に蓄積される文章とを拡張する。
文章集合蓄積部13に蓄積される文章は、ブログサーバ又はSNS(Social Networking Service)サーバによって公開される個人によって記述された文章に限定する。これらの文章は、個人が様々な社会的又は文化的な話題について、意見及び感想を述べたものであることが多い。
また、カテゴリ記憶部12は、拡張用文章蓄積部18から検索した拡張語を、第1の語として更に加えることで、第1の語を拡張する。拡張用文章蓄積部18は、カテゴリ記憶部12に記憶されている第1の語と、第1の語の同義語及び類義語と共起する拡張語を抽出する。拡張語は、例えば2つの確率変数の相互依存の尺度を表す相互情報量(Mutual information)のような確率的手法を用いて、第1の語と、第1の語の同義語及び類義語と共起する頻度の高い語を抽出してもよい。相互情報量によって一定値以上を示す共起語を、カテゴリ記憶部12に記憶する潜在的な第1の語とする。これにより、単語のスパース性及び出現頻度の偏りの問題を回避する。
図4は、本発明におけるタグ付けプログラムの第3の機能構成図である。
図1から図3で説明した実施形態では、文章集合蓄積部13に蓄積される文章と、カテゴリ記憶部12に記憶される第1の語との共起頻度によっては、タグ付けができない場合も想定される。そこで、本実施例では、既にタグが付与された日本語文の表現との近さに基づいて、カテゴリを推定し、タグを付与する。例えば、日本語文が、俳句又は川柳のように五・七・五の句形で構成されている場合、同様の形式の別の表現との編集距離(レーベンシュタイン距離)を算出することで、表現が近い文を探すことができる。
編集距離とは、情報理論において、二つの文字列がどの程度異なっているかを示す数値をいう。具体的には、文字の挿入や削除、置換によって、一つの文字列を別の文字列に変形するのに必要な手順の最小回数として与えられる。例えば、「まくら(枕)」を「くらい(位)」に変形する場合は、以下のように最小でも2回の手順が必要となるので、2単語間の編集距離は2と計算出される。
(1)「まくら」
(2)「くら」(「ま」を削除)
(3)「くらい」(「い」を挿入)
本実施例では、カテゴリ記憶部12に記憶されている感情カテゴリ毎に、そのカテゴリに属するタグ付与済みの日本語文と、新たにタグ付与対象とする日本語文との編集距離を算出する。次に、平均編集距離の短いカテゴリを、新たにタグ付与対象とする日本語文のカテゴリとして推定し、タグを付与する。
図4によれば、図1と比較して、第2の入力部190と、編集距離算出部191と、第2のタグ付け部192とが、タグ付けプログラム1に配置されている。
第2の入力部190は、第1の日本語文と、第2の日本語文とを入力する。ここでは、第1の日本語文として「帰る家あるのも重し五月闇」を、第2の日本語文として「帰る家あるのも嬉し五月晴れ」を入力する。第2の入力部190は、入力された第1の日本語文と、第2の日本語文とを、編集距離算出部191へ出力する。
編集距離算出部191は、第1の日本語文と、第2の日本語文とを入力し、2つの文の編集距離を算出する。算出された編集距離は、第2のタグ付け部192へ出力される。
第2のタグ付け部192は、タグ付け結果蓄積部17から、第1の日本語文に付与されたタグを入力する。第2のタグ付け部192は、入力した編集距離が所定閾値以下であれば、第1の日本語文に付与されたタグと同一のタグを、第2の日本語文に対しても付与する。
また、編集距離算出部191は、既にタグ付与された複数の日本語文と、第2の日本語文との編集距離を算出し、それらの平均編集距離を第2のタグ付け部192へ出力するものであってもよい。
図5は、本発明におけるタグ付けサーバのシステム構成図である。
図5によれば、タグ付けサーバ2は、通信インタフェース部20と、日本語文受信部21と、タグ送信部22とを有する。タグ付けサーバ2は、通信インタフェース部20を介してインターネットに接続する。また、タグ付けサーバ2は、インターネット及び通信インタフェース部20を介して、ユーザ端末4から接続される。
また、図5によれば、タグ付けサーバ2は、インターネットを介して、マスメディアサーバ31と、ブログサーバ32と、SNSサーバ33と通信することができる。また、ブログサーバ32は、ユーザ端末4から接続される。
ブログサーバ32及びSNSサーバ33は、ユーザ端末4から受信した、投稿文章であるブログテキストをWeb文書として公開する。タグ付けサーバ2は、インターネットを介して、ブログサーバ32及びSNSサーバ33から、そのWeb文書を文章集合蓄積部13に蓄積する文章として取得する。
同様に、マスメディアサーバ31も、Web文書を公開する。タグ付けサーバ2は、インターネットを介して、マスメディアサーバ31から、そのWeb文書を拡張用文章蓄積部18に蓄積する文章として取得する。勿論、拡張用文章としてCD−ROMから取得するものであってもよい。
日本語文受信部21は、通信インタフェース部20を介して、端末から利用者の操作に応じて入力された日本語文を受信する。入力された日本語文は、形態素解析部へ出力される。
形態素解析部11と、カテゴリ記憶部12と、文章集合蓄積部13と、共起頻度算出部14と、統計共起頻度算出部15と、タグ付け部16とは、図1で詳述した機能構成部と同様に機能する。タグ付け部16は、タグ付け結果をタグ送信部22へ出力する。
タグ送信部22は、通信インタフェース部20を介して、日本語文に付与された1つ以上のタグをユーザ端末4へ返信する。
以上、詳細に説明したように、本発明のタグ付けプログラム、装置、方法及びサーバによれば、タグ付与対象の日本語文と直接又は間接に関係し得る文章から、カテゴリに属する語を抽出することによって、日本語文を構成する単語からは直接的に導出できないカテゴリを推定し、そのカテゴリのタグを日本語文に付与することができる。付与されたタグに基づいて、利用者の感覚又は感情との結びつきが強い日本語文を検索するこができる。
また、本発明によれば、感情語に基づいて、その感情と関連性が強い日本語文を検索することができる。他の用途として、ユーザのその時の気分や感情に応じて、短詩又は各種名句を検索することができる。また、検索結果に基づいて、ユーザのその時の気分や感情に適合した短詩又は各種名句を推薦することができる。
更に、他の用途として、逆にカテゴリを指定することにより、そのカテゴリと関連度合いの高い文を検索することもできる。これを応用すれば、ユーザがメニュー画面から自分自身の感情や気分を選択し、選択した感情や気分に合った短詩又は各種名言を検索するシステムを提供することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 タグ付けプログラム
10 入力部
11 形態素解析部
12 カテゴリ記憶部
13 文章集合蓄積部
14 共起頻度算出部
15 統計共起頻度算出部
16 タグ付け部
17 タグ付け結果蓄積部
18 拡張用文章蓄積部
190 第2の入力部
191 編集距離算出部
192 第2のタグ付け部
2 タグ付けサーバ
20 通信インタフェース部
21 日本語文受信部
22 タグ送信部
31 マスメディアサーバ
32 ブログサーバ
33 SNSサーバ
4 ユーザ端末

Claims (12)

  1. 日本語文に、当該日本語文から直接的に導出できない1つ以上のタグを付与するようにコンピュータを機能させるタグ付けプログラムであって、
    前記日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
    1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
    形態素解析によって、前記日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
    第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、前記文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
    前記カテゴリ毎に、第2の語に対する前記共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
    前記統計共起頻度が所定閾値以上となる当該カテゴリのタグを、前記日本語文に付与するタグ付け手段と
    してコンピュータを機能させることを特徴とするタグ付けプログラム。
  2. 前記カテゴリは、情動、感情又は感覚に応じて区分されており、
    前記日本語文に付与される前記カテゴリのタグは、情動タグ、感情タグ又は感覚タグである
    ようにコンピュータを機能させることを特徴とする請求項1に記載のタグ付けプログラム。
  3. 第1の語は、漢字であり、
    第1の語の漢字は、全てのカテゴリについて同一の部首を含む
    ようにコンピュータを機能させることを特徴とする請求項2に記載のタグ付けプログラム。
  4. 第1の語の漢字は、全てのカテゴリについて部首「心」を含む
    ようにコンピュータを機能させることを特徴とする請求項3に記載のタグ付けプログラム。
  5. マスメディアによって発行された文章を蓄積した拡張用文章蓄積手段を更に有し、
    前記拡張用文章蓄積手段を用いて、第1の語と、当該第1の語の同義語及び類義語と共起する拡張語を抽出し、
    前記カテゴリ記憶手段は、第1の語として前記拡張語を更に含む
    ようにコンピュータを機能させることを特徴とする請求項1から4に記載のタグ付けプログラム。
  6. 前記文章集合蓄積手段に蓄積された前記文章情報は、ブログサーバ又はSNS(Social Networking Service)サーバによって公開される個人によって記述された文章である
    ようにコンピュータを機能させることを特徴とする請求項1から5に記載のタグ付けプログラム。
  7. 前記カテゴリのタグを付与した第1の日本語文と、他の第2の日本語文との編集距離を算出する編集距離算出手段を更に有し、
    前記タグ付け手段は、前記編集距離が所定閾値以下であれば、第1の日本語文に付与された前記タグと同一のタグを、第2の日本語文に対しても付与する
    ようにコンピュータを機能させることを特徴とする請求項1から6に記載のタグ付けプログラム。
  8. 前記形態素解析手段は、第2の語として自立語を抽出する
    ようにコンピュータを機能させることを特徴とする請求項1から7に記載のタグ付けプログラム。
  9. 前記日本語文は、俳句、川柳若しくは短歌のような短詩、又は、各種名言である
    ようにコンピュータを機能させることを特徴とする請求項1から8に記載のタグ付けプログラム。
  10. 日本語文に、当該日本語文から直接的に導出できない1つ以上のタグを付与するようにコンピュータを機能させるタグ付け装置であって、
    前記日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
    1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
    形態素解析によって、前記日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
    第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、前記文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
    前記カテゴリ毎に、第2の語に対する前記共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
    前記統計共起頻度が所定閾値以上となる当該カテゴリのタグを、前記日本語文に付与するタグ付け手段と
    を有することを特徴とするタグ付け装置。
  11. 日本語文に、コンピュータを用いて当該日本語文から直接的に導出できない1つ以上のタグを付与するタグ付け方法であって、
    前記日本語文と異なる多数の文章情報を蓄積した文章集合蓄積部と、
    1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶部とを有し、
    形態素解析によって、前記日本語文から1つ以上の第2の語を抽出する第1のステップと、
    第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、前記文章集合蓄積部に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する第2のステップと、
    前記カテゴリ毎に、第2の語に対する前記共起頻度の合計となる統計共起頻度を算出する第3のステップと、
    前記統計共起頻度が所定閾値以上となる当該カテゴリのタグを、前記日本語文に付与する第4のステップと
    を有することを特徴とするタグ付け方法。
  12. 日本語文に、当該日本語文から直接的に導出できない1つ以上のタグを付与するタグ付けサーバであって、
    前記日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
    1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
    端末から利用者の操作に応じて入力された日本語文を受信する日本語文受信手段と、
    形態素解析によって、前記日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
    第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、前記文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
    前記カテゴリ毎に、第2の語に対する前記共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
    前記統計共起頻度が所定閾値以上となる当該カテゴリのタグを、前記日本語文に付与するタグ付け手段と
    当該日本語文に付与された1つ以上のタグを前記端末へ返信するタグ送信手段と
    を有することを特徴とするタグ付けサーバ。
JP2012052461A 2012-03-09 2012-03-09 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ Active JP5697164B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012052461A JP5697164B2 (ja) 2012-03-09 2012-03-09 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012052461A JP5697164B2 (ja) 2012-03-09 2012-03-09 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ

Publications (2)

Publication Number Publication Date
JP2013186764A true JP2013186764A (ja) 2013-09-19
JP5697164B2 JP5697164B2 (ja) 2015-04-08

Family

ID=49388111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012052461A Active JP5697164B2 (ja) 2012-03-09 2012-03-09 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ

Country Status (1)

Country Link
JP (1) JP5697164B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020179478A1 (ja) 2019-03-05 2020-09-10 正通 亀井 アドバイス提示システム
JP2022003514A (ja) * 2020-08-11 2022-01-11 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド タグマイニング方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259411A (ja) * 2001-03-06 2002-09-13 Nec Corp 文章情報変換システム、文章情報変換方法および文章情報変換プログラム
JP2006164028A (ja) * 2004-12-09 2006-06-22 Canon Inc ウィンドウ型表示装置及びその方法
JP2009181301A (ja) * 2008-01-30 2009-08-13 Nippon Hoso Kyokai <Nhk> 表現テンプレート生成装置、その方法およびそのプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259411A (ja) * 2001-03-06 2002-09-13 Nec Corp 文章情報変換システム、文章情報変換方法および文章情報変換プログラム
JP2006164028A (ja) * 2004-12-09 2006-06-22 Canon Inc ウィンドウ型表示装置及びその方法
JP2009181301A (ja) * 2008-01-30 2009-08-13 Nippon Hoso Kyokai <Nhk> 表現テンプレート生成装置、その方法およびそのプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200202285001; 湯浅 夏樹: '大量の文書データから自動抽出した名詞間共起関係による文書の自動分類' 情報処理学会研究報告 Vol.93 No.101, 19931119, 81-88ページ, 社団法人情報処理学会 *
CSNG200900334047; 郡 宏志: 'BlogRadio: Blog情報の感情マイニングと可聴化に基づくWeb閲覧補完' DEWS2005論文集 , 20050502, 1-8ページ, (社)電子情報通信学会データ工学研究専門委員会 *
JPN6015004575; 湯浅 夏樹: '大量の文書データから自動抽出した名詞間共起関係による文書の自動分類' 情報処理学会研究報告 Vol.93 No.101, 19931119, 81-88ページ, 社団法人情報処理学会 *
JPN6015004576; 郡 宏志: 'BlogRadio: Blog情報の感情マイニングと可聴化に基づくWeb閲覧補完' DEWS2005論文集 , 20050502, 1-8ページ, (社)電子情報通信学会データ工学研究専門委員会 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020179478A1 (ja) 2019-03-05 2020-09-10 正通 亀井 アドバイス提示システム
JP2020144557A (ja) * 2019-03-05 2020-09-10 正通 亀井 アドバイス提示システム
CN113508376A (zh) * 2019-03-05 2021-10-15 龟井正通 建议提示系统
KR20210132061A (ko) 2019-03-05 2021-11-03 마사미치 가메이 어드바이스 제시 시스템
US11768879B2 (en) 2019-03-05 2023-09-26 Land Business Co., Ltd. Advice presentation system
JP2022003514A (ja) * 2020-08-11 2022-01-11 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド タグマイニング方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
JP7277502B2 (ja) 2020-08-11 2023-05-19 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド タグマイニング方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム

Also Published As

Publication number Publication date
JP5697164B2 (ja) 2015-04-08

Similar Documents

Publication Publication Date Title
Montejo-Ráez et al. Ranked wordnet graph for sentiment polarity classification in twitter
Khan et al. eSAP: A decision support framework for enhanced sentiment analysis and polarity classification
Su et al. Rephrasing profanity in chinese text
Saha et al. Proposed approach for sarcasm detection in twitter
Teso et al. Application of text mining techniques to the analysis of discourse in eWOM communications from a gender perspective
Loia et al. A fuzzy-oriented sentic analysis to capture the human emotion in Web-based content
JP6466952B2 (ja) 文章生成システム
Gianfortoni et al. Modeling of stylistic variation in social media with stretchy patterns
Donato et al. Investigating redundancy in emoji use: Study on a twitter based corpus
JP6381775B2 (ja) 情報処理システム及び情報処理方法
Kim et al. Acquisition and use of long-term memory for personalized dialog systems
Qiu et al. Advanced sentiment classification of tibetan microblogs on smart campuses based on multi-feature fusion
Badugu et al. Emotion detection on twitter data using knowledge base approach
Silva et al. Evaluating topic models in Portuguese political comments about bills from Brazil’s chamber of deputies
Wright Stylistics versus Statistics: A corpus linguistic approach to combining techniques in forensic authorship analysis using Enron emails
Biba et al. Sentiment analysis through machine learning: an experimental evaluation for Albanian
Roy et al. Automated linguistic personalization of targeted marketing messages mining user-generated text on social media
Xu et al. RIP emojis and words to contextualize mourning on Twitter
KR101928074B1 (ko) 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법
Itani Sentiment analysis and resources for informal Arabic text on social media
JP5697164B2 (ja) 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ
Valvason The semantics of sustainable development: A corpus-assisted, ecological analysis of discourse across languages
Shi et al. EOSentiMiner: an opinion-aware system based on emotion ontology for sentiment analysis of Chinese online reviews
Kisilevich et al. What do you think about this photo? A novel approach to opinion and sentiment analysis of photo comments
Diamantini et al. Semantic disambiguation in a social information discovery system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150205

R150 Certificate of patent or registration of utility model

Ref document number: 5697164

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150