JP5423282B2 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP5423282B2
JP5423282B2 JP2009221469A JP2009221469A JP5423282B2 JP 5423282 B2 JP5423282 B2 JP 5423282B2 JP 2009221469 A JP2009221469 A JP 2009221469A JP 2009221469 A JP2009221469 A JP 2009221469A JP 5423282 B2 JP5423282 B2 JP 5423282B2
Authority
JP
Japan
Prior art keywords
emoticon
extracted
search
unit
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009221469A
Other languages
English (en)
Other versions
JP2011070440A (ja
Inventor
貴明 水野
英之 前川
正人 萩原
Original Assignee
バイドゥ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ株式会社 filed Critical バイドゥ株式会社
Priority to JP2009221469A priority Critical patent/JP5423282B2/ja
Publication of JP2011070440A publication Critical patent/JP2011070440A/ja
Application granted granted Critical
Publication of JP5423282B2 publication Critical patent/JP5423282B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関する。
コンピュータ環境の発展およびインターネットの普及に伴い、大量のコンテンツの中から、任意の検索条件に合致したコンテンツを検索することが容易になっている。コンテンツの検索は、例えば、コンテンツに含まれるキーワードを抽出して、当該キーワードとコンテンツの格納場所を表すURLとを対応づけたインデックスを予め作成しておき、当該インデックス基づいて実施される(例えば、特許文献1)。
特開2009−32292
コンテンツの中には、絵文字または顔文字のような自然言語以外の記号が含まれる場合がある。これらの記号は、エモチコン(emoticon)とも呼ばれ、コンテンツを装飾するだけでなく、自然言語と同様に所定の意味を有する単語の代わりとしても使用されている。近年では、emoji4unicodeのように、ディスプレイ上に絵文字または顔文字を表示させる目的で、絵文字の画像に対応する共通のコードが作成されている。
しかしながら、自然言語と同様に、多くのエモチコンは複数の意味を有する。絵文字の画像とコードとが対応づけられているだけでは、コンテンツを精度よく検索することが難しい。そこで、エモチコンを含むコンテンツを精度よく検索することが望まれている。
上記課題を解決するために、本発明の第1の態様においては、検索条件を受け付ける受付部と、少なくとも一つの記憶装置に格納されたコンテンツに含まれるエモチコンを抽出し、抽出されたエモチコンと自然言語との対応関係を解析する解析部と、解析部の解析結果に基づき、抽出されたエモチコンが対応する自然言語を有する場合には抽出されたエモチコンを対応する自然言語と認識し、抽出されたエモチコンが対応する自然言語を有しない場合には抽出されたエモチコンが装飾目的で用いられていると認識し、抽出されたエモチコンが検索条件に適合すると判断した場合に、コンテンツを検索結果として出力する検索部とを備える情報処理装置が提供される。
上記情報処理装置において、複数のコンテンツのそれぞれについて、それぞれのコンテンツの格納場所をそれぞれのコンテンツに含まれるエモチコンの意味と対応づけて格納する記憶部を更に備えてよい。上記情報処理装置において、解析部は、複数のコンテンツのそれぞれについて、それぞれのコンテンツ含まれるエモチコンを抽出し、抽出されたエモチコンがどのような意味で用いられているかを解析し、抽出されたエモチコンの意味と複数のコンテンツのそれぞれの格納場所とを対応づけて記憶部に格納し、検索部は、記憶部に格納されたそれぞれのコンテンツに含まれるエモチコンの意味と検索条件とを比較して、複数のコンテンツの中から、検索条件に適合するエモチコンを含むコンテンツを検索結果として出力してよい。
上記情報処理装置において、解析部は、抽出されたエモチコンが複数の意味を有するエモチコンである場合には、抽出されたエモチコンの画像を示すコードに複数の意味のそれぞれに対応する識別記号を付与してよい。上記情報処理装置において、解析部は、検索条件に含まれるエモチコンを抽出し、抽出されたエモチコンと自然言語との対応関係を解析し、検索部は、検索条件に含まれるエモチコンについて、解析部の解析結果に基づき、抽出されたエモチコンが対応する自然言語を有する場合には抽出されたエモチコンを対応する自然言語と認識し、抽出されたエモチコンが対応する自然言語を有しない場合には抽出されたエモチコンが装飾目的で用いられていると認識してよい。
上記情報処理装置において、解析部は、複数のエモチコンが連続して使用されている場合には、複数のエモチコンのそれぞれに対応する自然言語がないと判断してよい。上記情報処理装置において、解析部は、機械学習法により、抽出されたエモチコンと自然言語との対応関係を解析してよい。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
検索装置100の一例を概略的に示す。 コンテンツ200の一例を概略的に示す。 検索装置100の内部構成の一例を概略的に示す。 分類テーブル400の一例を概略的に示す。 インデックステーブル500の一例を概略的に示す。 検索装置100によるインデックス作成方法の一例を概略的に示す。 検索装置100による検索方法の一例を概略的に示す。 検索装置100を実現するコンピュータ1900のハードウェア構成の一例を概略的に示す。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、検索装置100をネットワーク10に接続して利用する場合の一例を概略的に示す。本実施例において、ネットワーク10には、検索装置100と、ユーザ端末110と、コンテンツサーバ120とが接続されている。ネットワーク10としては、インターネット、専用回線、無線パケット通信網等を例示できる。
本実施形態において、検索装置100のユーザは、ユーザ端末110を用いて、ネットワーク10を介して検索装置100との間で情報をやりとりする。ユーザは、ユーザ端末110に検索条件を入力することで、ネットワーク10に接続されたコンテンツサーバ120から、検索条件に適合するコンテンツを取得する。検索条件としては、キーワード、キーワードを含む文章、検索目的とする文書に類似する他の文書などを例示できる。
検索装置100は、ユーザ端末110から検索条件を受け付ける。検索装置100は、コンテンツサーバ120に格納された複数のコンテンツの中から、当該検索条件に適合するコンテンツを検索する。検索装置100は、検索結果をユーザ端末110に出力する。
検索装置100は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスクドライブ等を含んで構成される。検索装置100は、ネットワーク10を介してユーザ端末110およびコンテンツサーバ120と通信できる装置であればよく、例えば、サーバ用コンピュータにより実現できる。検索装置100は、情報処理装置の一例であってよい。
ユーザ端末110は、ネットワーク10を介して検索装置100と通信できる装置であればよく、例えば、Webブラウザソフトが導入されたパーソナルコンピュータ、携帯端末または携帯電話により実現できる。ユーザ端末110は、記憶装置の一例であってもよい。
コンテンツサーバ120は、コンテンツを格納する。コンテンツサーバ120は、ネットワーク10を介して検索装置100およびユーザ端末110と通信できる装置であればよく、例えば、サーバ用コンピュータにより実現できる。コンテンツサーバ120は、例えば、CPU、RAM、ROM、ハードディスクドライブ等を含んで構成される。コンテンツサーバ120は、記憶装置の一例であってよい。
図2は、コンテンツ200の一例を概略的に示す。以下、コンテンツ200が各地の天気予報を示す文書である場合を例として、エモチコンについて説明する。コンテンツ200は、絵文字212、絵文字214、絵文字216、絵文字218、絵文字222、絵文字224、絵文字242、絵文字244、顔文字262および顔文字264を含む。
絵文字212、絵文字214、絵文字216および絵文字218は、ディスプレイ上では同一の画像として表示される。絵文字212は、「明日の天気予報」という文章を装飾する目的で使用されており、絵文字212がなくても読者は文書の意味を正確に理解できる。この場合、絵文字212は、特定の自然言語または感情を意味する目的では使用されておらず、特定の自然言語には対応していない。
一方、絵文字214は、東京の天気が「晴れ」であることを意味しており、日本語の「晴れ」という単語に対応する。同様に、絵文字216は「太陽」という単語に対応する。絵文字218は「天気」という単語に対応する。同様に、絵文字222および絵文字224は、ディスプレイ上では同一の画像として表示される。絵文字222は「雲」という単語に対応し、絵文字224は「くもり」という単語に対応する。
絵文字242および絵文字244は、ディスプレイ上では同一の画像として表示される。絵文字242は、日本語の「ビール」という単語に対応する。一方、絵文字244は、文章を装飾する目的で使用されており、絵文字244がなくても読者は文書の意味を理解することができる。この場合、絵文字244は、特定の自然言語には対応していない。しかし、絵文字244は「一杯」という特定の単語を強調する目的で使用されている。これにより、絵文字244は、例えば、作者の感情もしくは意図または文章のニュアンスを伝えることができる。
顔文字262および顔文字264は、複数の文字または記号の組合せにより、当該文字または記号の本来の意味とは異なる意味を表す。顔文字262および顔文字264は、文章を装飾する目的で使用されており、顔文字262および顔文字264がなくても読者は文書の意味を理解することができる。しかし、顔文字262および顔文字264は、例えば、作者の感情もしくは意図または文章のニュアンスを伝える目的で使用される。例えば、顔文字262は「うれしい」という感情を伝えることができ、顔文字264は「残念」という感情を伝えることができる。
絵文字212、絵文字214、絵文字216、絵文字218、絵文字222、絵文字224、絵文字242、絵文字244、顔文字262、顔文字264はエモチコンの一例であってよい。本明細書において、「エモチコン」とは、絵文字のように、特定の自然言語、作者の感情もしくは意図、または文章のニュアンスを意味する画像だけでなく、顔文字、スマイリー、アスキーアートまたはいわゆるギャル文字のように、複数の文字または記号を組み合わせることにより、当該文字または記号の本来の意味とは異なる意味を有するものを含む。上記画像は静止画に限定されず、アニメーションのような動画であってもよい。
図3は、検索装置100の内部構成の一例を概略的に示す。検索装置100は、入力部312と、表示部314と、インターフェース部320と、Webデータ取得部332と、検索条件受付部334と、エモチコン解析部336と、解析情報記憶部340と、コンテンツ情報記憶部350と、コンテンツ検索部360と、検索結果出力部370とを備える。
入力部312は、例えば、検索装置100の設定もしくは操作に関する指示、検索条件またはコンテンツが入力される。上記設定もしくは指示としては、エモチコン解析部336の解析手法に関する情報、または解析情報記憶部340に格納される情報を例示できる。入力部312としては、キーボード、マウス、トラックボール、ジョグタイヤル、タッチパネルディスプレイまたは記憶媒体の読取装置を例示できる。なお、上記の指示等は、ネットワーク10を介して他のコンピュータから検索装置100に入力されてもよい。
表示部314は、例えば、検索装置100の動作状態、入力部312からの入力した内容のエコーバックまたは検索装置100の検索結果を表示する。表示部314としては、液晶表示装置、有機ELディスプレイ、タッチパネルディスプレイまたはプリンタを例示できる。
インターフェース部320は、ネットワーク10を介してユーザ端末110およびコンテンツサーバ120と通信するインターフェースであってよい。インターフェース部320は、入力部312、表示部314、Webデータ取得部332、検索条件受付部334、解析情報記憶部340および検索結果出力部370と接続されて、相互に情報をやり取りさせてよい。
インターフェース部320は、ネットワーク10または入力部312から受け取ったコンテンツに関する情報をWebデータ取得部332に通知してよい。インターフェース部320は、入力部312またはネットワーク10から受け取った検索条件をWebデータ取得部332に通知してよい。インターフェース部320は、入力部312から受け取ったエモチコンの解析に関する情報を解析情報記憶部340に格納してよい。インターフェース部320は、検索結果出力部370から受け取った検索結果を表示部314に通知してよい。インターフェース部320は、検索結果出力部370から受け取った検索結果をネットワーク10を介してユーザ端末110に通知してよい。
Webデータ取得部332は、ネットワーク10を介して少なくとも1つのコンテンツサーバ120と接続し、コンテンツサーバ120に格納されたコンテンツを取得する。Webデータ取得部332は、取得したコンテンツの格納場所に関する情報を取得してよい。コンテンツの格納場所に関する情報としては、URLを例示できる。Webデータ取得部332は、取得したコンテンツをエモチコン解析部336に通知してよい。
検索条件受付部334は、検索条件を受け付ける。検索条件受付部334は、入力部312またはネットワーク10を介して検索条件を受け付けてよい。検索条件受付部334は、受付部の一例であってよい。検索条件受付部334は、受け付けた検索条件から検索キーワードを抽出してよい。検索条件受付部334は、例えば、形態素解析により、検索キーワードを抽出することができる。検索条件受付部334は、抽出した検索キーワードをエモチコン解析部336に通知してよい。
エモチコン解析部336は、Webデータ取得部332から入力されたコンテンツまたは入力部312から入力されたコンテンツに含まれるエモチコンを抽出する。エモチコン解析部336は、抽出されたエモチコンと自然言語との対応関係を解析する。エモチコン解析部336は、例えば、抽出されたエモチコンに対応する自然言語の有無を解析する。エモチコン解析部336は、解析部の一例であってよい。エモチコン解析部336は、コンテンツにおいて、抽出されたエモチコンがどのような意味で用いられているかを解析してよい。
エモチコン解析部336は、抽出されたエモチコンが特定の自然言語を意味する目的で使用されていると判断した場合には、抽出されたエモチコンは当該自然言語に対応すると判断してよい。エモチコン解析部336は、抽出されたエモチコンが特定の自然言語を意味する目的で使用されていないと判断した場合には、抽出されたエモチコンは対応する自然言語を有しない、または、抽出されたエモチコンは装飾目的で用いられていると判断してよい。
エモチコン解析部336は、所定の解析手法、アルゴリズムまたはルールに基づいて、抽出されたエモチコンと自然言語との対応関係を解析してよい。例えば、エモチコン解析部336は、複数のエモチコンが連続して使用されている場合には、複数のエモチコンのそれぞれは、特定の自然言語を意味する目的で使用されていないと判断してよい。
エモチコン解析部336は、抽出されたエモチコンに隣接する文字または単語の種類およびその品詞に基づいて、抽出されたエモチコンに対応する自然言語を決定してよい。例えば、図2に関連して説明した絵文字242を例にすれば、絵文字242に隣接する単語が「が」であることから、絵文字242が主語として用いられていると判断して、絵文字242は「ビール」という特定の単語に対応すると判断してよい。
他の例としては、エモチコン解析部336は、抽出したエモチコンが含まれる文章の他の単語を参照して、対応する当該特定の単語を決定してよい。例えば、絵文字242を例にすれば、絵文字242が含まれる文章に「生」、「おいしい」、「飲」等の単語が含まれている場合には、絵文字242は「ビール」という特定の単語に対応すると判断してよい。一方、絵文字242が含まれる文章に「誘」、「行」等の単語が含まれている場合には、絵文字242は飲みに行くという行為もしくは飲み会を意味していると判断して、「飲み」という特定の単語に対応すると判断してよい。特に、同一文中に共起する単語を利用することが好ましい。その場合、共起する単語からストップワードを除去して、抽出したエモチコンの意味を特定してよい。即ち、共起する単語の中から、助詞または助動詞のように抽出したエモチコンの意味を特定するのに貢献しない単語を除いて、抽出したエモチコンの意味を解析してよい。
エモチコン解析部336は、機械学習法により、抽出されたエモチコンと自然言語との対応関係を解析してよい。これにより、エモチコン解析部336がコンテンツから新たなエモチコンを抽出した場合であっても、当該エモチコンの意味を解析することができる。また、抽出されたエモチコンが特定の自然言語を意味する目的で使用されているか、文章を装飾する目的で使用されているかを厳密に判断することが難しい場合であっても、精度よく解析することができる。
機械学習法では、まず、問題−解の組合せを多数用意する。次に、用意した問題−解の組合せを用いてどのような場合にどのような解を出力すべきかを学習する。その後、学習結果を利用することで新しい問題に対する解を推測する。機械学習法としては、ブートストラッピングのような半機械学習法、または、ナイーブベイズ法、決定リスト法、最大エントロピー法もしくはサポートベクターマシン法のような教師あり機械学習法を例示できる。
エモチコン解析部336は、機械学習法を用いて語義の曖昧性解消(word sense disambiguation)を実施してよい。エモチコン解析部336は、解析情報記憶部340に格納された問題−解の組合せを用いて機械学習法を実施してよい。エモチコン解析部336は、解析結果に基づき、解析情報記憶部340に格納された学習結果の識別モデルまたはパラメータを更新してよい。
エモチコン解析部336は、Webデータ取得部332または入力部312から入力された複数のコンテンツのそれぞれについて、それぞれのコンテンツ含まれるエモチコンを抽出してよい。エモチコン解析部336は、抽出されたエモチコンがどのような意味で用いられているかを解析してよい。
エモチコン解析部336は、抽出されたエモチコンの意味と複数のコンテンツのそれぞれの格納場所とを対応づけてコンテンツ情報記憶部350に格納してよい。これにより、検索装置100は、検索条件に含まれる検索キーワードが自然言語である場合であっても、当該自然言語と同じ意味で用いられているエモチコンが含まれるコンテンツを検索結果として出力することができる。
エモチコン解析部336は、エモチコンが複数の意味を有する場合には、同一の画像を有するエモチコンであっても、異なる意味を有するエモチコンは異なる記号であると判断してよい。エモチコン解析部336は、抽出されたエモチコンが複数の意味を有するエモチコンである場合には、抽出されたエモチコンの画像を示すコードに、抽出されたエモチコンの複数の意味のそれぞれに対応する識別記号を付与して、新たなコードを生成してよい。
例えば、抽出されたエモチコンの画像を示すコードの後ろに上記識別記号を付与してよい。これにより、同一の画像を有するエモチコンであっても、異なる意味を有するエモチコンは異なる記号であると判断することができる。エモチコン解析部336は、抽出されたエモチコンの意味に応じて生成した新たなコードと、複数のコンテンツのそれぞれの格納場所とを対応づけてコンテンツ情報記憶部350に格納してよい。これにより、抽出されたエモチコンの意味と複数のコンテンツのそれぞれの格納場所とを対応づけてコンテンツ情報記憶部350に格納することができる。
エモチコン解析部336は、自然言語からなる検索キーワードを、当該自然言語を意味するエモチコンに置き換えて、コンテンツ検索部360に通知してよい。例えば、検索キーワードが「太陽」という自然言語である場合に、「太陽」に対応するエモチコンを表すコードに置き換えてよい。
これにより、検索装置100は、検索条件に含まれる検索キーワードが自然言語である場合であっても、当該自然言語の意味で使用されているエモチコンが含まれるコンテンツを検索結果として出力することができる。エモチコン解析部336は、自然言語からなる検索キーワードに加えて、置換して得られたエモチコンをコンテンツ検索部360に通知してよい。
他の例として、エモチコン解析部336は、検索条件受付部334から入力された検索条件に含まれるエモチコンを抽出してよい。エモチコン解析部336は、コンテンツから抽出されたエモチコンの場合と同様にして、抽出されたエモチコンがどのような意味で用いられているかを解析してよい。エモチコン解析部336は、抽出したエモチコンを、当該エモチコンの意味に対応する記号に置き換えて、コンテンツ検索部360に通知してよい。上記記号としては、上記のエモチコンの意味に対応する識別記号を付与して得られたコードを例示できる。
これにより、検索装置100は、検索条件に含まれる検索キーワードがエモチコンである場合であっても、当該エモチコンの意味に対応する自然言語またはエモチコンが含まれるコンテンツを検索結果として出力することができる。エモチコン解析部336は、エモチコンの意味に対応する記号に加えて、上記対応する自然言語をコンテンツ検索部360に通知してよい。
他の例として、エモチコン解析部336は、検索条件から抽出したエモチコンを、対応する自然言語に置き換えて、コンテンツ検索部360に通知してもよい。これにより、検索装置100は、検索条件に含まれる検索キーワードがエモチコンである場合であっても、当該エモチコンに対応する自然言語が含まれるコンテンツを検索結果として出力することができる。
解析情報記憶部340は、エモチコン解析部336が抽出したエモチコンを解析するのに必要な情報を格納する。解析情報記憶部340は、エモチコンを解析するアルゴリズムまたはルールを格納してよい。解析情報記憶部340は、機械学習法で用いられる問題−解の組合せを格納してよい。解析情報記憶部340は、機械学習によって学習された学習結果を格納してよい。解析情報記憶部340は、複数の意味を有するエモチコンのそれぞれについて、複数の意味のそれぞれに対応する識別記号を格納してよい。
コンテンツ情報記憶部350は、Webデータ取得部332が取得したコンテンツまたは入力部312から入力されたコンテンツに関する情報を格納する。コンテンツ情報記憶部350は、エモチコン解析部336の解析結果に基づき、複数のコンテンツのそれぞれについて、それぞれのコンテンツの格納場所を、それぞれのコンテンツに含まれるエモチコンの意味と対応づけて格納してよい。コンテンツ情報記憶部350は、記憶部の一例であってよい。
コンテンツ情報記憶部350は、複数のコンテンツのそれぞれについて、コンテンツに含まれるエモチコンに対応する自然言語と、それぞれのコンテンツの格納場所とを対応づけて格納してよい。他の例としては、コンテンツ情報記憶部350は、複数のコンテンツのそれぞれについて、コンテンツに含まれるエモチコンの画像を示すコードに、エモチコンの意味に対応する識別記号を付与して得られたコードと、それぞれのコンテンツの格納場所とを対応づけて格納してよい。
コンテンツ検索部360は、Webデータ取得部332が取得したコンテンツまたは入力部312から入力されたコンテンツの内容と、エモチコン解析部336から入力された検索キーワードとを比較する。コンテンツ検索部360は、コンテンツが検索条件に適合すると判断した場合に、当該コンテンツを検索結果出力部370に出力する。コンテンツ検索部360は、検索部の一例であってよい。
コンテンツ検索部360は、エモチコン解析部336の解析結果に基づき、抽出されたエモチコンが対応する自然言語を有する場合には、抽出されたエモチコンを対応する自然言語と認識してよい。コンテンツ検索部360は、エモチコン解析部336の解析結果に基づき、抽出されたエモチコンが対応する自然言語を有しない場合には、抽出されたエモチコンが装飾目的で用いられていると認識してよい。
コンテンツ検索部360は、検索条件に含まれるエモチコンについて、エモチコン解析部336の解析結果に基づき、抽出されたエモチコンが対応する自然言語を有する場合には、抽出されたエモチコンを対応する自然言語と認識してよい。コンテンツ検索部360は、検索条件に含まれるエモチコンについて、エモチコン解析部336の解析結果に基づき、抽出されたエモチコンが対応する自然言語を有しない場合には、抽出されたエモチコンが装飾目的で用いられていると認識してよい。
コンテンツ検索部360は、コンテンツ情報記憶部350に情報が格納されている複数のコンテンツについて、それぞれのコンテンツに含まれるエモチコンの意味と、検索条件とを比較してよい。例えば、コンテンツ検索部360は、検索条件に含まれる検索キーワードの意味と、それぞれのコンテンツに含まれるエモチコンの意味とを比較してよい。
他の例としては、コンテンツ検索部360は、自然言語からなる検索キーワードと、それぞれのコンテンツに含まれるエモチコンに対応する自然言語とを比較してよい。他の例としては、コンテンツ検索部360は、エモチコンを含む検索キーワードに対応する自然言語と、それぞれのコンテンツに含まれる自然言語またはそれぞれのコンテンツに含まれるエモチコンに対応する自然言語とを比較してよい。
コンテンツ検索部360は、上記エモチコンの画像を示すコードに、上記エモチコンの意味に対応する識別記号を付与して得られたコードに基づいて、上記の比較を実施してよい。コンテンツ検索部360は、抽出されたエモチコンが検索条件に適合すると判断した場合に、当該エモチコンを含むコンテンツを検索結果として出力する。以上の構成により、コンテンツ検索部360は、コンテンツ情報記憶部350に情報が格納された複数のコンテンツの中から、検索条件に適合するエモチコンを含むコンテンツを検索結果として出力することができる。
検索結果出力部370は、コンテンツ検索部360から検索結果を受け取る。検索結果出力部370は、検索結果のレイアウトを調整して、表示部314またはユーザ端末110に通知する。検索結果出力部370は、検索結果をソートしてよい。検索結果出力部370は、エモチコンの有無およびエモチコンの意味に応じて、検索結果をソートしてよい。検索結果出力部370は、エモチコンの有無、エモチコンの意味またはコンテンツ中における検索キーワードの出現位置により重み付けを実施して、検索結果のレイアウトを調整してよい。
図4は、分類テーブル400の一例を概略的に示す。分類テーブル400は、複数の意味を有するエモチコンについて、複数の意味のそれぞれに対応する記号を格納する。分類テーブル400において、テーブルの列は、エモチコンの画像412と、画像412を示すコード414と、エモチコンに対応する単語416と、分類コード418とを含んでよい。分類コード418は、エモチコンをエモチコンの意味に応じて分類する。
分類コード418は、例えば、エモチコンの画像412を示すコード414に、エモチコンの複数の意味のそれぞれに対応する識別記号を付与することで得られる。分類コード418に含まれる「_S1」、「_S2」、「_S3」、「_D」は、識別記号の一例であってよい。
分類コード418は、エモチコン解析部336が生成する新たなコードの一例であってよい。エモチコン解析部336は、抽出されたエモチコンの意味に対応する分類コード418と、複数のコンテンツのそれぞれの格納場所とを対応づけてコンテンツ情報記憶部350に格納してよい。エモチコン解析部336は、エモチコンが装飾目的で用いられているまたはエモチコンに対応する自然言語を認識できない場合には、識別記号として「_D」を付与してよい。
エモチコンに対応する単語416には、複数種類の単語が登録されてよい。例えば、分類コード418がAAABBB_S3の場合を例にとれば、エモチコンに対応する単語416として、「ビール」および「酒」という2種類の単語が登録されている。このように複数種類の単語に対応する分類コード418を用意しておくことで、検索時に「ビール」という検索キーワードを受け付けた場合であっても、「酒」という検索キーワードを受け付けた場合であっても、対応するエモチコンが含まれるコンテンツを検索することができる。これにより、インデックスのサイズを小さくすることができる。
本実施形態において、エモチコンが装飾目的で用いられている場合またはエモチコンに対応する自然言語を認識できない場合の識別記号として、1種類の識別記号を用いる場合について説明した。しかしながら、識別記号はこれに限定されない。例えば、エモチコンが装飾目的で用いられている場合またはエモチコンに対応する自然言語を認識できない場合を、複数の場合に分類して、それぞれに異なる識別記号を付与してよい。
図2に関連して説明した絵文字212および絵文字244を例として説明すれば、絵文字212および絵文字244は、両者とも特定の自然言語には対応していない。しかし、絵文字244は、絵文字212とは異なり、作者の感情もしくは意図または文章のニュアンスを伝えることができる。他の例としては、他のホームページへのリンク先を示す表示の横にカメラの絵文字を配置することで、「リンク先に画像がある」というニュアンスを表現することができる。あるいは、ダウンロードという文字の横にビデオカメラの絵文字を配置して、絵文字にリンクを設定することで、「リンク先に動画がある」ことを表現することができる。
上記のようなエモチコンの機能的な働きに着目すれば、特定の自然言語に対応していないエモチコンを、単に装飾目的で用いられているエモチコンと、作者の感情もしくは意図または文章のニュアンスを伝えたり、特定の機能を有するエモチコンとに分類することができる。これにより、検索の精度をより向上させることができる。また、機能的な働きをしているエモチコンを選択的に検索することもできる。そこで、絵文字212のように、単なる装飾目的で用いられているエモチコンの識別記号として、例えば「_D」を付与してよい。一方、絵文字244または上記のカメラもしくはビデオカメラの絵文字のように、機能的な働きをしているエモチコンの識別記号として「_D」とは異なる識別記号、例えば「_F」を付与してよい。
本実施形態において、分類テーブル400が、画像412と、コード414と、エモチコンに対応する単語416と、分類コード418とを含む場合について説明した。しかし、分類テーブルはこれに限定されない。例えば、分類テーブル400は、コード414と、エモチコンに対応する単語416と、分類コード418から構成されてよい。また、分類コード418の代わりに、エモチコンに対応する単語416を示す識別記号を用いてもよい。
図5は、インデックステーブル500の一例を概略的に示す。インデックステーブル500は、複数のコンテンツのそれぞれについて、それぞれのコンテンツの格納場所を、それぞれのコンテンツに含まれるエモチコンまたは自然言語の意味と対応づけて格納する。インデックステーブル500において、テーブルの列は、キーワード512と、コンテンツ格納場所514とを含んでよい。本実施形態においては、コンテンツ格納場所514として、コンテンツのURLが格納されている。これにより、コンテンツ検索部360は、検索キーワードとキーワード512とを比較して、検索キーワードに適合するコンテンツを検索結果として出力できる。
本実施形態において、インデックステーブル500がキーワード512およびコンテンツ格納場所514を含む場合について説明したが、インデックステーブル500はこれに限定されない。例えば、文書中におけるキーワードの出現位置または各格納場所ごとの重みもしくはランキングを含んでもよい。これらの情報は、インデックステーブル500に記憶されていてもよく、インデックステーブル500には、当該情報が他のファイルのどこに記憶されているかを示す識別子が記憶されていてもよい。
図6は、検索装置100によるインデックステーブル500の作成方法の一例を概略的に示す。S602において、Webデータ取得部332が、ネットワーク10を介して少なくとも1つのコンテンツサーバ120に接続し、コンテンツサーバ120に格納されたコンテンツを取得する。または、入力部312にコンテンツが入力される。
S604において、エモチコン解析部336が、コンテンツに含まれるエモチコンを抽出する。S606において、エモチコン解析部336が、抽出されたエモチコンの意味を解析する。S608において、エモチコン解析部336が、エモチコンの意味に応じて、対応する自然言語または分類コードを決定する。例えば、エモチコン解析部336は、抽出されたエモチコンが含まれる文章を解析して、前後の単語の種類および品詞に基づいて、抽出されたエモチコンに対応する自然言語を決定する。エモチコン解析部336は、分類テーブル400を参照して、抽出したエモチコンの意味に応じて、異なる分類コード418を決定してもよい。
S610において、エモチコン解析部336が、上記コンテンツの格納場所をS608で決定した自然言語または分類コード418に対応付けて、コンテンツ情報記憶部350に格納する。以上の工程により、インデックステーブル500を作成できる。検索装置100は、定期的にインデックステーブル500を更新してよい。
図7は、検索装置100による検索方法の一例を概略的に示す。S702において、検索条件受付部334が、検索条件を受け付ける。S704において、検索条件受付部334が、受け付けた検索条件から検索キーワードを抽出してよい。その後、検索条件受付部334は、抽出した検索キーワードをエモチコン解析部336に通知する。
S706において、エモチコン解析部336が、検索条件受付部334から入力された検索キーワードにエモチコンが含まれるか否かを判断する。S708では、エモチコン解析部336が検索キーワードにエモチコンが含まれると判断した場合に(S706のYes)、エモチコン解析部336が当該エモチコンの意味を解析する。S710において、エモチコン解析部336が検索キーワードに含まれるエモチコンを、対応する自然言語または対応する分類コード418に変換する。対応する自然言語または対応する分類コード418への変換は、図6に関連して説明したS608における方法と同様にして実施できる。
S712では、エモチコン解析部336が検索キーワードにエモチコンが含まれないと判断した場合に(S706のNo)、自然言語からなる検索キーワードを当該自然言語を意味するエモチコンに置き換える。例えば、上記自然言語を意味するエモチコンに対応する分類コード418に変換する。そして、置き換えた結果を検索キーワードに追加する。
S714では、S710またはS712の工程が終了した後、コンテンツ検索部360が検索キーワードに適合するコンテンツを検索する。コンテンツ検索部360は、コンテンツ情報記憶部350に格納されたインデックステーブル500を利用して、検索キーワードに適合するコンテンツを検索してよい。その後、コンテンツ検索部360は、検索結果を検索結果出力部370に出力する。S716では、検索結果出力部370が、検索結果のレイアウトを調整して、表示部314またはユーザ端末110に通知する。以上の工程により、コンテンツおよび検索条件の少なくとも一方にエモチコンが含まれる場合であっても、精度よく検索を実施できる。
本実施形態においては、S712において、自然言語からなる検索キーワードを当該自然言語を意味するエモチコンに置き換えた後、置き換えた結果を検索キーワードに追加する場合について説明した。しかし、検索方法はこれに限定されない。例えば、自然言語からなる検索キーワードを当該自然言語を意味するエモチコンに置き換えた後、置き換えた結果を新たな検索キーワードとして、検索を実行してよい。
本実施形態においては、検索装置100がネットワーク10に接続され、ネットワーク10に接続されたユーザ端末110から検索条件を受け付け、ネットワーク10に接続されたコンテンツサーバ120に格納されたコンテンツを検索し、検索結果をユーザ端末110に通知する場合について説明した。しかし、検索装置100はこれに限定されない。例えば、検索装置100が携帯端末に含まれ、検索装置100は携帯端末に保存されたコンテンツを検索してもよい。
本実施形態においては、検索装置100を例として、検索装置100に含まれる各構成の機能について説明した。しかし、検索装置100の各構成の機能は厳密に区別されるものではなく、検索装置100の構成はこれに限定されない。例えば、エモチコン解析部336が、検索条件受付部334またはWebデータ取得部332の機能の一部を担ってよい。コンテンツ検索部360が、検索結果出力部370の機能の一部を担ってもよい。また、各データベースの構造も上記の構造に限定されない。データサイズを小さくする目的で一部のデータ列を削除してもよく、検索速度を向上する目的で複数のデータベースを統合してもよい。
検索装置100は、ハードウエアにより実現されてもよく、ソフトウエアにより実現されてもよい。検索装置100は、検索に特化したシステムであってもよく、パーソナルコンピュータ等の汎用の情報処理装置により実現されてもよい。例えば、CPU、ROM、RAM、通信インターフェース等を有するデータ処理装置と、入力装置と、出力装置と、記憶装置とを備えた一般的な構成の情報処理装置において、検索装置100の各部の動作を規定したソフトウエアを起動することにより、検索装置100を実現できる。なお、上記特化したシステムおよび上記情報処理装置は、単一のコンピュータにより構成されてもよく、ネットワーク上に分散した複数のコンピュータにより構成されてもよい。
図8は、検索装置100を実現するコンピュータ1900のハードウェア構成の一例を概略的に示す。コンピュータ1900は、ホスト・コントローラ2082により相互に接続されるCPU2000、RAM2020、グラフィック・コントローラ2075、及び表示装置2080を有するCPU周辺部と、入出力コントローラ2084によりホスト・コントローラ2082に接続される通信インターフェイス2030、ハードディスクドライブ2040、及びCD−ROMドライブ2060を有する入出力部と、入出力コントローラ2084に接続されるROM2010、フレキシブルディスク・ドライブ2050、及び入出力チップ2070を有するレガシー入出力部とを備える。
ホスト・コントローラ2082は、RAM2020と、高い転送レートでRAM2020をアクセスするCPU2000及びグラフィック・コントローラ2075とを接続する。CPU2000は、ROM2010及びRAM2020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ2075は、CPU2000等がRAM2020内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置2080上に表示させる。これに代えて、グラフィック・コントローラ2075は、CPU2000等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。
入出力コントローラ2084は、ホスト・コントローラ2082と、比較的高速な入出力装置である通信インターフェイス2030、ハードディスクドライブ2040、CD−ROMドライブ2060を接続する。通信インターフェイス2030は、ネットワークを介して他の装置と通信する。ハードディスクドライブ2040は、コンピュータ1900内のCPU2000が使用するプログラム及びデータを格納する。CD−ROMドライブ2060は、CD−ROM2095からプログラム又はデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。
また、入出力コントローラ2084には、ROM2010と、フレキシブルディスク・ドライブ2050、及び入出力チップ2070の比較的低速な入出力装置とが接続される。ROM2010は、コンピュータ1900が起動時に実行するブート・プログラム、及び/又は、コンピュータ1900のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ2050は、フレキシブルディスク2090からプログラム又はデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。入出力チップ2070は、フレキシブルディスク・ドライブ2050を入出力コントローラ2084へと接続すると共に、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を入出力コントローラ2084へと接続する。
RAM2020を介してハードディスクドライブ2040に提供されるプログラムは、フレキシブルディスク2090、CD−ROM2095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、RAM2020を介してコンピュータ1900内のハードディスクドライブ2040にインストールされ、CPU2000において実行される。
コンピュータ1900にインストールされ、コンピュータ1900を情報処理装置として機能させるプログラムは、受付モジュールと、解析モジュールと、検索モジュールとを備える。これらのプログラム又はモジュールは、CPU2000等に働きかけて、コンピュータ1900を、受付部、解析部および検索部としてそれぞれ機能させる。
プログラムに記述された情報処理命令は、コンピュータ1900に読込まれることにより、コンピュータ1900を、ソフトウェアと上述した各種のハードウェア資源とが協働した具体的手段である表示部314、インターフェース部320、Webデータ取得部332、検索条件受付部334、エモチコン解析部336、解析情報記憶部340、コンテンツ情報記憶部350、コンテンツ検索部360および検索結果出力部370として機能させてよい。そして、これらの具体的手段によって、本実施形態におけるコンピュータ1900の使用目的に応じた情報の演算又は加工を実現することにより、使用目的に応じた特有の検索装置100が構築される。
一例として、コンピュータ1900と外部の装置等との間で通信を行う場合には、CPU2000は、RAM2020上にロードされた通信プログラムを実行し、通信プログラムに記述された処理内容に基づいて、通信インターフェイス2030に対して通信処理を指示する。通信インターフェイス2030は、CPU2000の制御を受けて、RAM2020、ハードディスクドライブ2040、フレキシブルディスク2090、又はCD−ROM2095等の記憶装置上に設けた送信バッファ領域等に記憶された送信データを読み出してネットワークへと送信し、もしくは、ネットワークから受信した受信データを記憶装置上に設けた受信バッファ領域等へと書き込む。このように、通信インターフェイス2030は、DMA(ダイレクト・メモリ・アクセス)方式により記憶装置との間で送受信データを転送してもよく、これに代えて、CPU2000が転送元の記憶装置又は通信インターフェイス2030からデータを読み出し、転送先の通信インターフェイス2030又は記憶装置へとデータを書き込むことにより送受信データを転送してもよい。
CPU2000は、ハードディスクドライブ2040、CD−ROMドライブ2060に挿入されたCD−ROM2095、フレキシブルディスク・ドライブ2050に挿入されたフレキシブルディスク2090等の外部記憶装置に格納されたファイルまたはデータベース等の中から、全部または必要な部分をDMA転送等によりRAM2020へと読み込ませ、RAM2020上のデータに対して各種の処理を行う。そして、CPU2000は、処理を終えたデータを、DMA転送等により外部記憶装置へと書き戻す。このような処理において、RAM2020は、外部記憶装置の内容を一時的に保持するものとみなせるから、本実施形態においてはRAM2020および外部記憶装置等をメモリ、記憶部、または記憶装置等と総称する。本実施形態における各種のプログラム、データ、テーブル、データベース等の各種の情報は、このような記憶装置上に格納されて、情報処理の対象となる。なお、CPU2000は、RAM2020の一部をキャッシュメモリに保持し、キャッシュメモリ上で読み書きを行うこともできる。このような形態においても、キャッシュメモリはRAM2020の機能の一部を担うから、本実施形態においては、区別して示す場合を除き、キャッシュメモリもRAM2020、メモリ、及び/又は記憶装置に含まれるものとする。
CPU2000は、RAM2020から読み出したデータに対して、プログラムの命令列により指定された、本実施形態中に記載した各種の演算、情報の加工、条件判断、情報の検索、置換等を含む各種の処理を行い、RAM2020へと書き戻す。例えば、CPU2000は、条件判断を行う場合においては、本実施形態において示した各種の変数が、他の変数または定数と比較して、大きい、小さい、以上、以下、等しい等の条件を満たすかどうかを判断し、条件が成立した場合(又は不成立であった場合)に、異なる命令列へと分岐し、またはサブルーチンを呼び出す。
CPU2000は、記憶装置内のファイルまたはデータベース等に格納された情報を検索することができる。例えば、第1属性の属性値に対し第2属性の属性値がそれぞれ対応付けられた複数のエントリが記憶装置に格納されている場合において、CPU2000は、記憶装置に格納されている複数のエントリの中から第1属性の属性値が指定された条件と一致するエントリを検索し、そのエントリに格納されている第2属性の属性値を読み出すことにより、所定の条件を満たす第1属性に対応付けられた第2属性の属性値を得ることができる。
以上に示したプログラム又はモジュールは、外部の記録媒体に格納されてもよい。記録媒体としては、フレキシブルディスク2090、CD−ROM2095の他に、DVD又はCD等の光学記録媒体、MO等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワーク又はインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ1900に提供してもよい。
以上の記載によれば、以下の情報処理方法が記載されていることは明らかである。即ち、検索条件を受け付ける段階と、少なくとも一つの記憶装置に格納されたコンテンツに含まれるエモチコンを抽出し、抽出されたエモチコンと自然言語との対応関係を解析する段階と、対応関係を解析する段階の解析結果に基づき、抽出されたエモチコンが対応する自然言語を有する場合には抽出されたエモチコンを対応する自然言語と認識し、抽出されたエモチコンが対応する自然言語を有しない場合には抽出されたエモチコンが装飾目的で用いられていると認識し、抽出されたエモチコンが検索条件に適合すると判断した場合に、コンテンツを検索結果として出力する段階とを備える、情報処理方法が記載されている。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
10 ネットワーク
100 検索装置
110 ユーザ端末
120 コンテンツサーバ
200 コンテンツ
212 絵文字
214 絵文字
216 絵文字
218 絵文字
222 絵文字
224 絵文字
242 絵文字
244 絵文字
262 顔文字
264 顔文字
312 入力部
314 表示部
320 インターフェース部
332 Webデータ取得部
334 検索条件受付部
336 エモチコン解析部
340 解析情報記憶部
350 コンテンツ情報記憶部
360 コンテンツ検索部
370 検索結果出力部
400 分類テーブル
412 画像
414 コード
416 対応する単語
418 分類コード
500 インデックステーブル
512 キーワード
514 コンテンツ格納場所
1900 コンピュータ
2000 CPU
2010 ROM
2020 RAM
2030 通信インターフェイス
2040 ハードディスクドライブ
2050 フレキシブルディスク・ドライブ
2060 CD−ROMドライブ
2070 入出力チップ
2075 グラフィック・コントローラ
2080 表示装置
2082 ホスト・コントローラ
2084 入出力コントローラ
2090 フレキシブルディスク
2095 CD−ROM

Claims (8)

  1. 検索条件を受け付ける受付部と、
    少なくとも一つの記憶装置に格納されたコンテンツに含まれるエモチコンを抽出し、抽出された前記エモチコンと自然言語との対応関係を解析する解析部と、
    前記解析部の解析結果に基づき、前記抽出されたエモチコンが対応する自然言語を有する場合には前記抽出されたエモチコンを前記対応する自然言語と認識し、前記抽出されたエモチコンが対応する自然言語を有しない場合には前記抽出されたエモチコンが装飾目的で用いられていると認識し、前記抽出されたエモチコンが前記検索条件に適合すると判断した場合に、前記コンテンツを検索結果として出力する検索部と、
    を備える、
    情報処理装置。
  2. 複数の前記コンテンツのそれぞれについて、それぞれのコンテンツの格納場所を、それぞれのコンテンツに含まれるエモチコンの意味と対応づけて格納する記憶部を更に備え、
    前記解析部は、前記複数のコンテンツのそれぞれについて、それぞれのコンテンツに含まれるエモチコンを抽出し、抽出された前記エモチコンがどのような意味で用いられているかを解析し、前記抽出されたエモチコンの意味と前記複数のコンテンツのそれぞれの格納場所とを対応づけて前記記憶部に格納し、
    前記検索部は、前記記憶部に格納された前記それぞれのコンテンツに含まれるエモチコンの意味と前記検索条件とを比較して、前記複数のコンテンツの中から、前記検索条件に適合するエモチコンを含むコンテンツを前記検索結果として出力する、
    請求項1に記載の情報処理装置。
  3. 前記解析部は、前記抽出されたエモチコンが複数の意味を有するエモチコンである場合には、前記抽出されたエモチコンの画像を示すコードに前記複数の意味のそれぞれに対応する識別記号を付与する、
    請求項2に記載の情報処理装置。
  4. 前記解析部は、前記検索条件に含まれるエモチコンを抽出し、前記抽出されたエモチコンと自然言語との対応関係を解析し、
    前記検索部は、前記検索条件に含まれるエモチコンについて、前記解析部の解析結果に基づき、前記抽出されたエモチコンが対応する自然言語を有する場合には前記抽出されたエモチコンを前記対応する自然言語と認識し、前記抽出されたエモチコンが対応する自然言語を有しない場合には前記抽出されたエモチコンが装飾目的で用いられていると認識する、
    請求項1から請求項3までの何れか一項に記載の情報処理装置。
  5. 前記解析部は、複数のエモチコンが連続して使用されている場合には、前記複数のエモチコンのそれぞれに対応する自然言語がないと判断する、
    請求項1から請求項4までの何れか一項に記載の情報処理装置。
  6. 前記解析部は、機械学習法により、前記抽出されたエモチコンと自然言語との対応関係を解析する、
    請求項1から請求項5までの何れか一項に記載の情報処理装置。
  7. コンピュータが、検索条件を受け付ける段階と、
    コンピュータが、少なくとも一つの記憶装置に格納されたコンテンツに含まれるエモチコンを抽出し、抽出された前記エモチコンと自然言語との対応関係を解析する段階と、
    コンピュータが、前記対応関係を解析する段階の解析結果に基づき、前記抽出されたエモチコンが対応する自然言語を有する場合には前記抽出されたエモチコンを前記対応する自然言語と認識し、前記抽出されたエモチコンが対応する自然言語を有しない場合には前記抽出されたエモチコンが装飾目的で用いられていると認識し、前記抽出されたエモチコンが前記検索条件に適合すると判断した場合に、前記コンテンツを検索結果として出力する段階と、
    を備える、
    情報処理方法。
  8. コンピュータを、
    検索条件を受け付ける受付部、
    少なくとも一つの記憶装置に格納されたコンテンツに含まれるエモチコンを抽出し、抽出された前記エモチコンと自然言語との対応関係を解析する解析部、
    前記解析部の解析結果に基づき、前記抽出されたエモチコンが対応する自然言語を有する場合には前記抽出されたエモチコンを前記対応する自然言語と認識し、前記抽出されたエモチコンが対応する自然言語を有しない場合には前記抽出されたエモチコンが装飾目的で用いられていると認識し、前記抽出されたエモチコンが前記検索条件に適合すると判断した場合に、前記コンテンツを検索結果として出力する検索部、
    として機能させる、
    プログラム。
JP2009221469A 2009-09-25 2009-09-25 情報処理装置、情報処理方法およびプログラム Active JP5423282B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009221469A JP5423282B2 (ja) 2009-09-25 2009-09-25 情報処理装置、情報処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009221469A JP5423282B2 (ja) 2009-09-25 2009-09-25 情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2011070440A JP2011070440A (ja) 2011-04-07
JP5423282B2 true JP5423282B2 (ja) 2014-02-19

Family

ID=44015666

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009221469A Active JP5423282B2 (ja) 2009-09-25 2009-09-25 情報処理装置、情報処理方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5423282B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160048492A1 (en) * 2014-06-29 2016-02-18 Emoji 3.0 LLC Platform for internet based graphical communication
KR102309175B1 (ko) * 2014-08-29 2021-10-06 삼성전자주식회사 스크랩 정보를 제공하는 전자 장치 및 그 제공 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006107199A (ja) * 2004-10-06 2006-04-20 Vodafone Kk 検索システム
JP2006126886A (ja) * 2004-10-26 2006-05-18 Advanced Telecommunication Research Institute International 文短縮用知識の学習装置、文短縮装置、機械翻訳装置および文短縮のためのコンピュータプログラム
JP2008203984A (ja) * 2007-02-16 2008-09-04 Nec Corp 文字列変換装置及び文字列変換方法

Also Published As

Publication number Publication date
JP2011070440A (ja) 2011-04-07

Similar Documents

Publication Publication Date Title
CN108628971B (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
US20220012296A1 (en) Systems and methods to automatically categorize social media posts and recommend social media posts
WO2015185019A1 (zh) 一种基于语义理解的表情输入方法和装置
US20160328377A1 (en) System and method for inputting text into electronic devices
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
US12032915B2 (en) Creating and interacting with data records having semantic vectors and natural language expressions produced by a machine-trained model
US20210209289A1 (en) Method and apparatus for generating customized content based on user intent
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
JP2004280574A (ja) 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体
US20220269354A1 (en) Artificial intelligence-based system and method for dynamically predicting and suggesting emojis for messages
KR102193228B1 (ko) 딥러닝 기반 비재무정보 평가 장치 및 그 방법
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
Banik et al. Gru based named entity recognition system for bangla online newspapers
CN111814481B (zh) 购物意图识别方法、装置、终端设备及存储介质
CN113204624A (zh) 一种多特征融合的文本情感分析模型及装置
CN113240485B (zh) 文本生成模型的训练方法、文本生成方法和装置
JP2004318510A (ja) 対訳情報作成装置、対訳情報作成用プログラム、対訳情報作成方法、対訳情報検索装置、対訳情報検索用プログラム及び対訳情報検索方法
CN112445862B (zh) 物联网设备数据集构建方法、装置、电子设备和存储介质
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
JP5423282B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN104641367B (zh) 用于格式化电子字符序列的格式化模块、系统和方法
JP2002251412A (ja) 文書検索装置および方法ならびに記憶媒体
Yadlapalli et al. Advanced Twitter sentiment analysis using supervised techniques and minimalistic features

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131111

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5423282

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250