JP2013186764A

JP2013186764A - 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ

Info

Publication number: JP2013186764A
Application number: JP2012052461A
Authority: JP
Inventors: Masami Suzuki; 雅実鈴木; Toshihiro Ono; 智弘小野; Hajime Hattori; 元服部
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2012-03-09
Filing date: 2012-03-09
Publication date: 2013-09-19
Anticipated expiration: 2032-03-09
Also published as: JP5697164B2

Abstract

【課題】タグ付与対象の日本語文を構成する単語からは直接的に導出できないタグを日本語文に付与することができるタグ付けプログラム等を提供する。
【解決手段】多数の文章情報を蓄積した文章集合蓄積手段と、１つ以上の第１の語を含む複数のカテゴリを記憶するカテゴリ記憶手段とを有し、形態素解析によって、日本語文から１つ以上の第２の語を抽出し、第２の語と、カテゴリ毎の各第１の語との全ての組み合わせについて、文章集合蓄積手段に対して検索し、第２の語に対する第１の語毎の共起頻度を算出し、そのカテゴリ毎に、第２の語に対する共起頻度の合計となる統計共起頻度を算出する。算出された統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与する。
【選択図】図１

Description

本発明は、日本語文にタグを付与する技術に関する。

従来、電子ファイルに対して、予め定めた記法によりメタデータを埋め込むタグ付与の技術がある。コンピュータによって電子ファイルから所望する情報を検索する場合、コンピュータは付与されたタグを参照して検索する。日本語の文又は文章に対しても、様々なタグが付与されてきた。付与されるタグの種類としては、例えば、品詞タグ、文節係り受け関係を示す係り受けタグ、照応解析結果に対する照応タグ、及び、意味解析結果に対する意味タグがある。同様に、文又は文章が表す感情に対しては、感情タグが付与されてきた。

例えば、電子メッセージに、「喜び」、「怒り」、「悲しさ」、「楽しさ」、又は「普通」のような感情情報を付与する技術がある。この技術では、受信した電子メッセージの感情情報に対応した返信メッセージ用の感情情報を自動生成して、その感情情報を返信メッセージと共に送信する。感情辞書は、予め単語毎に感情情報を関連付けて蓄積する（例えば特許文献１参照）。

また、入力された文に含まれる単語に対して、感情極性語辞書と推定ルールとを適用し、入力文の感情極性を推定する技術がある。ここで感情極性語辞書は、単語の感情極性について、ポジティブ、ネガティブ及び不明の何れかを定義して蓄積したものである（例えば特許文献２参照）。

更に、「悲しい−うれしい」及び「怒る−喜ぶ」の二つの感情尺度に対する評価値に基づいて、Ｗｅｂニュース記事の喜怒哀楽の程度を決定する技術がある。感情尺度に対する評価値は、Ｗｅｂニュース記事に含まれる語と、感情語との共起頻度の比率から算出される（例えば非特許文献１参照）。

更に、ナイーブベイズ分類器を使用して、文に任意の感情タグを自動付与する技術がある。ナイーブベイズ分類器は、対象文中の単語の出現頻度に基づいて文を感情カテゴリに分類する。対象文は、分類された感情カテゴリに基づいて、感情タグを付与される（例えば非特許文献２参照）。

表現中に感情のような主観的な情報を含むものの一つに、俳句、川柳もしくは短歌のような短詩、又は、各種名句がある。俳句及び川柳は合計１７モーラ(mora)、短歌は合計３１モーラから成る短く凝縮された日本語の定型詩である。また、名言は、事柄の本質をとらえた語句であって、一般に、短いモーラ数で表現される。

モーラとは、音韻論上、一定の時間的長さをもった音の分節単位をいう。日本語では、仮名１文字が、原則、同じ長さで発音されるため、仮名１文字が１モーラに相当する。俳句は、１７モーラを５モーラ・７モーラ・５モーラの３句に区切って、また、短歌は、３１モーラを５モーラ・７モーラ・５モーラ・７モーラ・７モーラの５句に区切って表現される。

これらの短詩又は各種名言は、芸術的な側面だけでなく、作者が作品を通して他者とコミュニケーションを図る機能も有する。短いモーラ数では、内容を過不足なく伝達することは難しい。そこで、個々の単語、又は、断片的な単語の組み合わせから、作者と他者とが共通のイメージを喚起することによって、内容が伝達され、コミュニケーションが図られる。

過去から現在に至る膨大な短詩の作品は、短詩中に出現する単語に基づく文字列マッチングによって検索される。しかし、短詩は、個々の単語そのものではなく、単語及び単語の組み合わせから喚起されるイメージによって表現されているため、直接的な文字列マッチングでは、適切な検索ができない。

短詩を検索する場合も、予めタグを付与し、そのタグを有する短詩を抽出することはできる。また、例えば、俳句中の季語を階層的に体系化して、季節を属性として俳句に付与しておき、属性を検索することで俳句を抽出することもできる。

特許文献１及び２に記載された技術によれば、人手により構築した感情語辞書に基づいて、その語の出現に応じて、感情情報や感情極性を決定している。ここで、人手による辞書構築作業には、コストと時間とを要する。非特許文献２に記載された技術によれば、ナイーブベイズは、過去の事例に基づいて予め分類カテゴリを決定しておき、未知の文章をそのカテゴリに分類する。この技術によれば、辞書は必要としないが、分類カテゴリの決定のために、予め人手によって分類した正解データを作成する必要がある。

人手による正解データ作成作業にも、辞書構築と同様に、コストと時間とを要する。そこで、非特許文献１に記載された技術によれば、辞書については自動構築し、正解データについては必要としないシステムを設計している。

特開２００７−２７１６５５号公報特開２０１０−０２０３９０号公報

熊本忠彦、田中克己、「Ｗｅｂニュース記事を対象とする喜怒哀楽抽出システム」、インタラクション２００５（インタラクティブ発表），No.4（A-103），pp.25-26，2005 山本麻由、土屋誠司、黒岩眞吾、任福継、「感情コーパス構築のための文中の語に基づく感情分類手法」、情報処理学会研究報告，No.158，pp.31-35，2007

しかしながら、前述した技術によれば、予めタグが付与されたものしか検索することができない。また、季節のような属性の有無に基づく検索でも、その属性が付与されたものしか検索することができない。

また、これらの技術によれば、文又は文章に現れる表現のみを対象としており、周辺文脈又は関連する文章に現れる表現は対象としていない。電子メッセージ又はＷｅｂニュース記事のように文字数の多い文又は文章の場合は、文章中の情動、感情又は感覚に関する表現が出現するため、タグ又は属性を付与することが可能である。一方、短詩及び各種名言のように文字数の少ない文の場合は、情動、感情又は感覚に関する表現が文中に出現しないことも多い。そのため、適切なタグを付与できない場合がある。

そこで、本発明は、タグ付与対象の日本語文を構成する単語からは直接的に導出できないタグを日本語文に付与することができるタグ付けプログラム、装置、方法及びサーバを提供することを目的とする。

本発明によれば、日本語文に、当該日本語文から直接的に導出できない１つ以上のタグを付与するようにコンピュータを機能させるタグ付けプログラムであって、
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
１つ以上の第１の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
形態素解析によって、日本語文から１つ以上の第２の語を抽出する形態素解析手段と、
第２の語と、カテゴリ毎の各第１の語との全ての組み合わせについて、文章集合蓄積手段に対して検索し、第２の語に対する第１の語毎の共起頻度を算出する共起頻度算出手段と、
カテゴリ毎に、第２の語に対する共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与するタグ付け手段と
してコンピュータを機能させることを特徴とする。

本発明のタグ付けプログラムにおける他の実施形態によれば、
カテゴリは、情動、感情又は感覚に応じて区分されており、
日本語文に付与されるカテゴリのタグは、情動タグ、感情タグ又は感覚タグであることも好ましい。

本発明のタグ付けプログラムにおける他の実施形態によれば、
第１の語は、漢字であり、
第１の語の漢字は、全てのカテゴリについて同一の部首を含むことも好ましい。

本発明のタグ付けプログラムにおける他の実施形態によれば、
第１の語の漢字は、全てのカテゴリについて部首「心」を含むことも好ましい。

本発明のタグ付けプログラムにおける他の実施形態によれば、
マスメディアによって発行された文章を蓄積した拡張用文章蓄積手段を更に有し、
拡張用文章蓄積手段を用いて、第１の語と、当該第１の語の同義語及び類義語と共起する拡張語を抽出し、
カテゴリ記憶手段は、第１の語として拡張語を更に含むことも好ましい。

本発明のタグ付けプログラムにおける他の実施形態によれば、
文章集合蓄積手段に蓄積された文章情報は、ブログサーバ又はＳＮＳ(Social Networking Service)サーバによって公開される個人によって記述された文章であることも好ましい。

本発明のタグ付けプログラムにおける他の実施形態によれば、
カテゴリのタグを付与した第１の日本語文と、他の第２の日本語文との編集距離を算出する編集距離算出手段を更に有し、
タグ付け手段は、編集距離が所定閾値以下であれば、第１の日本語文に付与されたタグと同一のタグを、第２の日本語文に対しても付与することも好ましい。

本発明のタグ付けプログラムにおける他の実施形態によれば、
形態素解析手段は、第２の語として自立語を抽出することも好ましい。

本発明のタグ付けプログラムにおける他の実施形態によれば、
日本語文は、俳句、川柳若しくは短歌のような短詩、又は、各種名言であることも好ましい。

本発明によれば、日本語文に、当該日本語文から直接的に導出できない１つ以上のタグを付与するタグ付け装置であって、
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
１つ以上の第１の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
形態素解析によって、日本語文から１つ以上の第２の語を抽出する形態素解析手段と、
第２の語と、カテゴリ毎の各第１の語との全ての組み合わせについて、文章集合蓄積手段に対して検索し、第２の語に対する第１の語毎の共起頻度を算出する共起頻度算出手段と、
カテゴリ毎に、第２の語に対する共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与するタグ付け手段と
を有することを特徴とする。

本発明によれば、日本語文に、当該日本語文から直接的に導出できないコンピュータを用いて１つ以上のタグを付与するタグ付け方法であって、
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積部と、
１つ以上の第１の語を含む複数のカテゴリを記憶するカテゴリ記憶部とを有し、
形態素解析によって、日本語文から１つ以上の第２の語を抽出する第１のステップと、
第２の語と、カテゴリ毎の各第１の語との全ての組み合わせについて、文章集合蓄積部に対して検索し、第２の語に対する第１の語毎の共起頻度を算出する第２のステップと、
カテゴリ毎に、第２の語に対する共起頻度の合計となる統計共起頻度を算出する第３のステップと、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与する第４のステップと
を有することを特徴とする。

本発明によれば、日本語文に、当該日本語文から直接的に導出できない１つ以上のタグを付与するタグ付けサーバであって、
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
１つ以上の第１の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
端末から利用者の操作に応じて入力された日本語文を受信する日本語文受信手段と、
形態素解析によって、日本語文から１つ以上の第２の語を抽出する形態素解析手段と、
第２の語と、カテゴリ毎の各第１の語との全ての組み合わせについて、文章集合蓄積手段に対して検索し、第２の語に対する第１の語毎の共起頻度を算出する共起頻度算出手段と、
カテゴリ毎に、第２の語に対する共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与するタグ付け手段と
当該日本語文に付与された１つ以上のタグを端末へ返信するタグ送信手段と
を有することを特徴とする。

本発明のタグ付けプログラム、装置、方法及びサーバによれば、タグ付与対象の日本語文と直接又は間接に関係し得る文章から、カテゴリに属する語を抽出することによって、日本語文を構成する単語からは直接的に導出できないカテゴリを推定し、そのカテゴリのタグを日本語文に付与することができる。

本発明におけるタグ付けプログラムの第１の機能構成図である。本発明における第２の語抽出及び共起頻度算出並びに統計共起頻度算出の説明図である。本発明におけるタグ付けプログラムの第２の機能構成図である。本発明におけるタグ付けプログラムの第３の機能構成図である。本発明におけるタグ付けサーバのシステム構成図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図１は、本発明におけるタグ付けプログラムの第１の機能構成図である。
図２は、本発明における第２の語抽出及び共起頻度算出並びに統計共起頻度算出の説明図である。

図１によれば、タグ付けプログラム１は、日本語文に１つ以上のタグを付与するものであって、入力部１０と、形態素解析部１１と、カテゴリ記憶部１２と、文章集合蓄積部１３と、共起頻度算出部１４と、統計共起頻度算出部１５と、タグ付け部１６と、タグ付け結果蓄積部１７とを有する。カテゴリ記憶部１２と、文章集合蓄積部１３を除くこれら機能部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。尚、各機能部の処理の流れは、タグ付け方法としても実行できる。

入力部１０は、日本語文を入力する。日本語文は、俳句、川柳若しくは短歌のような短詩、又は、各種名言であってもよい。ここでは、日本語文として、例えば、川柳の句、「帰る家あるのも重し五月闇」が入力される。入力部１０は、日本語文を形態素解析部１１へ出力する。

形態素解析部１１は、入力部１０から入力した日本語文を形態素解析する。形態素解析とは、文法及び単語辞書を情報源として用いて、自然言語で書かれた文を言語として意味を持つ最小単位である形態素(Morpheme)に分割し、それぞれの品詞を判別する技術をいう。例えば、日本語文「帰る家あるのも重し五月闇」は、以下のように解析される（図２の形態素解析部１１参照）。
帰る -> 動詞（自立語）
家 -> 名詞（自立語）
ある -> 動詞（自立語）
の -> 助詞
も -> 助詞
重し -> 形容詞（自立語）
五月闇 -> 名詞（自立語）

形態素解析部１１は、形態素解析結果から自立語を、第２の語として抽出する。自立語が活用語である場合、語幹のみを抽出する。ここでは、「帰」「家」「ある」「重」「五月闇」を第２の語として抽出する。抽出された第２の語は、共起頻度算出部１４へ出力される。

カテゴリ記憶部１２は、１つ以上の第１の語を含む複数のカテゴリを記憶する。カテゴリは、情動(emotion)、感情(feeling)又は感覚(sensation)に応じて区分されたものであってもよい。

「情動」とは、急激な生理的変化や本能に基づく身体的反応を伴う心の作用をいう。情動には、例えば、食料を得るための「接近」行動や、敵に対する「攻撃・回避」行動を引き起こす心の作用がある。感情が認知的側面を有し、個人差が大きいのに対し、情動は生理学的側面を有し、個人差が小さい。

「感情」とは、物事に対する認知及び解釈によって引き起こされる、主観的な体験及び態度をいう。感情には、例えば、快・不快のような「気持ち」、「興味」、「嫉妬」及び「情操」がある。また、「情動」は近道の神経回路を使用し、短時間で起動されるものであるのに対し、「感情」がノーマルの神経回路を使用するものである。

「感覚」とは、身体の内外からの刺激を感じ取る働きをいう。感覚は、素材的・分析的な意識経験を表現する。感覚には、例えば、視覚、聴覚、触覚、味覚、嗅覚、圧覚、痛覚、冷覚、温覚、運動感覚、平衡感覚及び内部感覚がある。

情動、感情又は感覚に応じたカテゴリの区分は、心理学等の領域で人間の基本感情として分類されている喜・怒・哀・楽・愛・憎に代表されるものを、更にさらに拡張したものであってもよい。

カテゴリに含まれる第１の語は、全てのカテゴリについて同一の部首を含む漢字であってもよい。例えば、部首「心」を含む以下の漢字約２０文字が、１０のカテゴリに分類され、第１の語としてカテゴリ記憶部１２に記憶される（図２のカテゴリ記憶部１２参照）。
カテゴリ１愉（たのしむ）
カテゴリ２懐（なつかしむ）
カテゴリ３恋（こい）・愛（あい）
カテゴリ４慕（したう）・憧（あこがれ
カテゴリ５忍（しのぶ）・恥（はじらう）
カテゴリ６悔（くやむ）・恨（うらむ）
カテゴリ７惜（おしむ）・悼（いたむ）・忌（いむ）
カテゴリ８悲（かなしい）・愁／憂（うれえる）
カテゴリ９怖（こわい）・恐（おそれる）
カテゴリ１０怒（いかる）・憎（にくむ）

文章集合蓄積部１３は、多数の文章情報を蓄積する。これらの文章は、日本語文と、直接又は間接に関係し得る文章であってもよい。例えば、日本語文が川柳であれば、その川柳と関連のあるその句の解説文章であってもよいし、それに準じた文章であってもよい。また、例えば、多次元単語ベクトル間距離に基づく類似文書検索手法により検索した、その川柳と表現が近い文章であってもよい。このような文章は、タグ付け対象の川柳が喚起するイメージの全体または一部を包含するイメージを同様に喚起するものと仮定できる。

共起頻度算出部１４は、形態素解析部１１から第２の語を入力すると共に、カテゴリ記憶部１２から第１の語を取得する。共起頻度算出部１４は、第２の語と、カテゴリ毎の各第１の語との組み合わせについて、文章集合蓄積部１３から検索する。ここでは、以下のように全ての組み合わせを検索する。
第２の語「帰」 − 第１の語「愉」
第２の語「帰」 − 第１の語「懐」
：
第２の語「五月闇」− 第１の語「憎」

次に、共起頻度算出部１４は、検索結果について、以下のように第２の語に対する第１の語毎の共起頻度を算出する。算出された共起頻度は、統計共起頻度算出部１５へ出力される（図２の共起頻度算出部１４参照）。
第２の語「帰」−第１の語「慕」：検索結果「太郎を慕って、花子が帰ってきた。」
第２の語「帰」−第１の語「慕」：検索結果「犬は飼い主を慕って、帰ってくる。」
「帰」に対する「慕」共起頻度 --> ２

統計共起頻度算出部１５は、共起頻度算出部１４が算出した共起頻度を入力する。統計共起頻度算出部１５は、カテゴリ毎に、第２の語に対する共起頻度の合計となる統計共起頻度を算出する。例えば、「帰」に対する「忍」の共起頻度が「２５」、「帰」に対する「恥」の共起頻度が「１３」であるとする。ここで、「忍」と「恥」は、同一のカテゴリ５に属する第１の語である。よって、第２の語「帰」に対するカテゴリ５に属する語の統計共起頻度は、２５と１３の和の「３８」として算出される。統計共起頻度算出部１５は、算出した統計共起頻度をタグ付け部１６へ出力する（図２の統計共起頻度算出部１５参照）。

タグ付け部１６は、算出された統計共起頻度を入力する。タグ付け部１６は、入力した統計共起頻度を所定閾値と比較する。ここで、カテゴリ４（慕・憧）及びカテゴリ５（忍・恥）の統計共起頻度が、所定閾値以上となったとする。統計共起頻度算出部１５は、カテゴリ４及びカテゴリ５のタグを、日本語文「帰る家あるのも重し五月闇」に付与する。タグ付け部１６は、タグ付け結果をタグ付け結果蓄積部１７へ出力する。また、タグ付け部１６は、重みを付与したタグ付け結果を出力してもよい。

以上の処理により、日本語文「帰る家あるのも重し五月闇」を特徴付ける感情及び感情として、「慕・憧」及び「忍・恥」のカテゴリが認定される。

図３は、本発明におけるタグ付けプログラムの第２の機能構成図である。

図３によれば、図１と比較して、拡張用文章蓄積部１８が、タグ付けプログラム１に配置されている。

拡張用文章蓄積部１８は、例えば、インターネットを介して、マスメディアサーバ３１からマスメディアによって発行された文章を取得するものであってもよい。例えば、新聞記事文章は、一定の質が保たれており、多くの文章が入手可能である。また、拡張用文章蓄積部１８は、例えば、ＣＤ−ＲＯＭからマスメディア文章を取得するものであってもよい。

一方で、文章集合蓄積部１３は、例えば、インターネットを介して、一般的なＷｅｂサーバによって公開される文章を取得するものであってもよい。しかしながら、一般的なＷｅｂサーバによって公開されている文章では、俳句に出現する季語のような短詩に関する特定表現の出現頻度が、他の文章と（例えば新聞記事）と比較して低いことが知られている。また、短詩について直接言及しているような解説文章又は引用文章は、その短詩の周辺文脈となる。タグ付け対象の日本語文を短詩とした場合、このような解説文章又は引用文章は、短詩中の語である第２の語と、カテゴリに属する第１の語との共起頻度を求めるには適切な文章と考えられる。ただし、そのような解説文章又は引用文章は、量的に少ない。そのため、出現する単語が疎らであったり（スパース性）、単語の出現頻度に偏りが生じる可能性がある。そこで、次のように、カテゴリ記憶部１２に記憶されている第１の語と、文章集合蓄積部１３に蓄積される文章とを拡張する。

文章集合蓄積部１３に蓄積される文章は、ブログサーバ又はＳＮＳ(Social Networking Service)サーバによって公開される個人によって記述された文章に限定する。これらの文章は、個人が様々な社会的又は文化的な話題について、意見及び感想を述べたものであることが多い。

また、カテゴリ記憶部１２は、拡張用文章蓄積部１８から検索した拡張語を、第１の語として更に加えることで、第１の語を拡張する。拡張用文章蓄積部１８は、カテゴリ記憶部１２に記憶されている第１の語と、第１の語の同義語及び類義語と共起する拡張語を抽出する。拡張語は、例えば２つの確率変数の相互依存の尺度を表す相互情報量(Mutual information)のような確率的手法を用いて、第１の語と、第１の語の同義語及び類義語と共起する頻度の高い語を抽出してもよい。相互情報量によって一定値以上を示す共起語を、カテゴリ記憶部１２に記憶する潜在的な第１の語とする。これにより、単語のスパース性及び出現頻度の偏りの問題を回避する。

図４は、本発明におけるタグ付けプログラムの第３の機能構成図である。

図１から図３で説明した実施形態では、文章集合蓄積部１３に蓄積される文章と、カテゴリ記憶部１２に記憶される第１の語との共起頻度によっては、タグ付けができない場合も想定される。そこで、本実施例では、既にタグが付与された日本語文の表現との近さに基づいて、カテゴリを推定し、タグを付与する。例えば、日本語文が、俳句又は川柳のように五・七・五の句形で構成されている場合、同様の形式の別の表現との編集距離（レーベンシュタイン距離）を算出することで、表現が近い文を探すことができる。

編集距離とは、情報理論において、二つの文字列がどの程度異なっているかを示す数値をいう。具体的には、文字の挿入や削除、置換によって、一つの文字列を別の文字列に変形するのに必要な手順の最小回数として与えられる。例えば、「まくら（枕）」を「くらい（位）」に変形する場合は、以下のように最小でも２回の手順が必要となるので、２単語間の編集距離は２と計算出される。
（１）「まくら」
（２）「くら」（「ま」を削除）
（３）「くらい」（「い」を挿入）

本実施例では、カテゴリ記憶部１２に記憶されている感情カテゴリ毎に、そのカテゴリに属するタグ付与済みの日本語文と、新たにタグ付与対象とする日本語文との編集距離を算出する。次に、平均編集距離の短いカテゴリを、新たにタグ付与対象とする日本語文のカテゴリとして推定し、タグを付与する。

図４によれば、図１と比較して、第２の入力部１９０と、編集距離算出部１９１と、第２のタグ付け部１９２とが、タグ付けプログラム１に配置されている。

第２の入力部１９０は、第１の日本語文と、第２の日本語文とを入力する。ここでは、第１の日本語文として「帰る家あるのも重し五月闇」を、第２の日本語文として「帰る家あるのも嬉し五月晴れ」を入力する。第２の入力部１９０は、入力された第１の日本語文と、第２の日本語文とを、編集距離算出部１９１へ出力する。

編集距離算出部１９１は、第１の日本語文と、第２の日本語文とを入力し、２つの文の編集距離を算出する。算出された編集距離は、第２のタグ付け部１９２へ出力される。

第２のタグ付け部１９２は、タグ付け結果蓄積部１７から、第１の日本語文に付与されたタグを入力する。第２のタグ付け部１９２は、入力した編集距離が所定閾値以下であれば、第１の日本語文に付与されたタグと同一のタグを、第２の日本語文に対しても付与する。

また、編集距離算出部１９１は、既にタグ付与された複数の日本語文と、第２の日本語文との編集距離を算出し、それらの平均編集距離を第２のタグ付け部１９２へ出力するものであってもよい。

図５は、本発明におけるタグ付けサーバのシステム構成図である。

図５によれば、タグ付けサーバ２は、通信インタフェース部２０と、日本語文受信部２１と、タグ送信部２２とを有する。タグ付けサーバ２は、通信インタフェース部２０を介してインターネットに接続する。また、タグ付けサーバ２は、インターネット及び通信インタフェース部２０を介して、ユーザ端末４から接続される。

また、図５によれば、タグ付けサーバ２は、インターネットを介して、マスメディアサーバ３１と、ブログサーバ３２と、ＳＮＳサーバ３３と通信することができる。また、ブログサーバ３２は、ユーザ端末４から接続される。

ブログサーバ３２及びＳＮＳサーバ３３は、ユーザ端末４から受信した、投稿文章であるブログテキストをＷｅｂ文書として公開する。タグ付けサーバ２は、インターネットを介して、ブログサーバ３２及びＳＮＳサーバ３３から、そのＷｅｂ文書を文章集合蓄積部１３に蓄積する文章として取得する。

同様に、マスメディアサーバ３１も、Ｗｅｂ文書を公開する。タグ付けサーバ２は、インターネットを介して、マスメディアサーバ３１から、そのＷｅｂ文書を拡張用文章蓄積部１８に蓄積する文章として取得する。勿論、拡張用文章としてＣＤ−ＲＯＭから取得するものであってもよい。

日本語文受信部２１は、通信インタフェース部２０を介して、端末から利用者の操作に応じて入力された日本語文を受信する。入力された日本語文は、形態素解析部へ出力される。

形態素解析部１１と、カテゴリ記憶部１２と、文章集合蓄積部１３と、共起頻度算出部１４と、統計共起頻度算出部１５と、タグ付け部１６とは、図１で詳述した機能構成部と同様に機能する。タグ付け部１６は、タグ付け結果をタグ送信部２２へ出力する。

タグ送信部２２は、通信インタフェース部２０を介して、日本語文に付与された１つ以上のタグをユーザ端末４へ返信する。

以上、詳細に説明したように、本発明のタグ付けプログラム、装置、方法及びサーバによれば、タグ付与対象の日本語文と直接又は間接に関係し得る文章から、カテゴリに属する語を抽出することによって、日本語文を構成する単語からは直接的に導出できないカテゴリを推定し、そのカテゴリのタグを日本語文に付与することができる。付与されたタグに基づいて、利用者の感覚又は感情との結びつきが強い日本語文を検索するこができる。

また、本発明によれば、感情語に基づいて、その感情と関連性が強い日本語文を検索することができる。他の用途として、ユーザのその時の気分や感情に応じて、短詩又は各種名句を検索することができる。また、検索結果に基づいて、ユーザのその時の気分や感情に適合した短詩又は各種名句を推薦することができる。

更に、他の用途として、逆にカテゴリを指定することにより、そのカテゴリと関連度合いの高い文を検索することもできる。これを応用すれば、ユーザがメニュー画面から自分自身の感情や気分を選択し、選択した感情や気分に合った短詩又は各種名言を検索するシステムを提供することができる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１タグ付けプログラム
１０入力部
１１形態素解析部
１２カテゴリ記憶部
１３文章集合蓄積部
１４共起頻度算出部
１５統計共起頻度算出部
１６タグ付け部
１７タグ付け結果蓄積部
１８拡張用文章蓄積部
１９０第２の入力部
１９１編集距離算出部
１９２第２のタグ付け部
２タグ付けサーバ
２０通信インタフェース部
２１日本語文受信部
２２タグ送信部
３１マスメディアサーバ
３２ブログサーバ
３３ＳＮＳサーバ
４ユーザ端末

Claims

日本語文に、当該日本語文から直接的に導出できない１つ以上のタグを付与するようにコンピュータを機能させるタグ付けプログラムであって、
前記日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
１つ以上の第１の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
形態素解析によって、前記日本語文から１つ以上の第２の語を抽出する形態素解析手段と、
第２の語と、カテゴリ毎の各第１の語との全ての組み合わせについて、前記文章集合蓄積手段に対して検索し、第２の語に対する第１の語毎の共起頻度を算出する共起頻度算出手段と、
前記カテゴリ毎に、第２の語に対する前記共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
前記統計共起頻度が所定閾値以上となる当該カテゴリのタグを、前記日本語文に付与するタグ付け手段と
してコンピュータを機能させることを特徴とするタグ付けプログラム。
前記カテゴリは、情動、感情又は感覚に応じて区分されており、
前記日本語文に付与される前記カテゴリのタグは、情動タグ、感情タグ又は感覚タグである
ようにコンピュータを機能させることを特徴とする請求項１に記載のタグ付けプログラム。
第１の語は、漢字であり、
第１の語の漢字は、全てのカテゴリについて同一の部首を含む
ようにコンピュータを機能させることを特徴とする請求項２に記載のタグ付けプログラム。
第１の語の漢字は、全てのカテゴリについて部首「心」を含む
ようにコンピュータを機能させることを特徴とする請求項３に記載のタグ付けプログラム。
マスメディアによって発行された文章を蓄積した拡張用文章蓄積手段を更に有し、
前記拡張用文章蓄積手段を用いて、第１の語と、当該第１の語の同義語及び類義語と共起する拡張語を抽出し、
前記カテゴリ記憶手段は、第１の語として前記拡張語を更に含む
ようにコンピュータを機能させることを特徴とする請求項１から４に記載のタグ付けプログラム。
前記文章集合蓄積手段に蓄積された前記文章情報は、ブログサーバ又はＳＮＳ(Social Networking Service)サーバによって公開される個人によって記述された文章である
ようにコンピュータを機能させることを特徴とする請求項１から５に記載のタグ付けプログラム。
前記カテゴリのタグを付与した第１の日本語文と、他の第２の日本語文との編集距離を算出する編集距離算出手段を更に有し、
前記タグ付け手段は、前記編集距離が所定閾値以下であれば、第１の日本語文に付与された前記タグと同一のタグを、第２の日本語文に対しても付与する
ようにコンピュータを機能させることを特徴とする請求項１から６に記載のタグ付けプログラム。
前記形態素解析手段は、第２の語として自立語を抽出する
ようにコンピュータを機能させることを特徴とする請求項１から７に記載のタグ付けプログラム。
前記日本語文は、俳句、川柳若しくは短歌のような短詩、又は、各種名言である
ようにコンピュータを機能させることを特徴とする請求項１から８に記載のタグ付けプログラム。
日本語文に、当該日本語文から直接的に導出できない１つ以上のタグを付与するようにコンピュータを機能させるタグ付け装置であって、
前記日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
１つ以上の第１の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
形態素解析によって、前記日本語文から１つ以上の第２の語を抽出する形態素解析手段と、
第２の語と、カテゴリ毎の各第１の語との全ての組み合わせについて、前記文章集合蓄積手段に対して検索し、第２の語に対する第１の語毎の共起頻度を算出する共起頻度算出手段と、
前記カテゴリ毎に、第２の語に対する前記共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
前記統計共起頻度が所定閾値以上となる当該カテゴリのタグを、前記日本語文に付与するタグ付け手段と
を有することを特徴とするタグ付け装置。
日本語文に、コンピュータを用いて当該日本語文から直接的に導出できない１つ以上のタグを付与するタグ付け方法であって、
前記日本語文と異なる多数の文章情報を蓄積した文章集合蓄積部と、
１つ以上の第１の語を含む複数のカテゴリを記憶するカテゴリ記憶部とを有し、
形態素解析によって、前記日本語文から１つ以上の第２の語を抽出する第１のステップと、
第２の語と、カテゴリ毎の各第１の語との全ての組み合わせについて、前記文章集合蓄積部に対して検索し、第２の語に対する第１の語毎の共起頻度を算出する第２のステップと、
前記カテゴリ毎に、第２の語に対する前記共起頻度の合計となる統計共起頻度を算出する第３のステップと、
前記統計共起頻度が所定閾値以上となる当該カテゴリのタグを、前記日本語文に付与する第４のステップと
を有することを特徴とするタグ付け方法。
日本語文に、当該日本語文から直接的に導出できない１つ以上のタグを付与するタグ付けサーバであって、
前記日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
１つ以上の第１の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
端末から利用者の操作に応じて入力された日本語文を受信する日本語文受信手段と、
形態素解析によって、前記日本語文から１つ以上の第２の語を抽出する形態素解析手段と、
第２の語と、カテゴリ毎の各第１の語との全ての組み合わせについて、前記文章集合蓄積手段に対して検索し、第２の語に対する第１の語毎の共起頻度を算出する共起頻度算出手段と、
前記カテゴリ毎に、第２の語に対する前記共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
前記統計共起頻度が所定閾値以上となる当該カテゴリのタグを、前記日本語文に付与するタグ付け手段と
当該日本語文に付与された１つ以上のタグを前記端末へ返信するタグ送信手段と
を有することを特徴とするタグ付けサーバ。