JP2010271870A - Analysis device for consecutive pictographs or the like - Google Patents
Analysis device for consecutive pictographs or the like Download PDFInfo
- Publication number
- JP2010271870A JP2010271870A JP2009122389A JP2009122389A JP2010271870A JP 2010271870 A JP2010271870 A JP 2010271870A JP 2009122389 A JP2009122389 A JP 2009122389A JP 2009122389 A JP2009122389 A JP 2009122389A JP 2010271870 A JP2010271870 A JP 2010271870A
- Authority
- JP
- Japan
- Prior art keywords
- continuous
- pictograms
- sentence
- dictionary
- article
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 72
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 13
- 238000012217 deletion Methods 0.000 claims description 7
- 230000037430 deletion Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007717 exclusion Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Abstract
Description
本発明は、インターネット上のブログ(日記風のサイト)や掲示板等に用いられる絵文字を解析する技術に関する。 The present invention relates to a technique for analyzing pictograms used for blogs (diary-like sites) on the Internet, bulletin boards, and the like.
イラスト文字による絵文字や、通常の文字を並べて人の顔を表現した顔文字等が、電子メールやブログ、掲示板等で多く用いられている。 Pictographs based on illustration characters and emoticons expressing human faces by arranging normal characters are often used in e-mails, blogs, bulletin boards, and the like.
携帯電話等に搭載された文字変換機能は、単独の絵文字や顔文字に対応しているものも多く、文章の入力の過程で絵文字や顔文字を容易に入力することができる。 Many of the character conversion functions installed in mobile phones and the like support single pictograms and emoticons, and it is possible to easily input pictograms and emoticons during the text input process.
特許文献1には、絵文字(顔文字)の種類を解析し、テキストデータの表示と同期して、絵文字に対応するアニメ画像や音声を再生する技術が開示されている。
上述したように、一つ一つの絵文字や顔文字については変換辞書の整備等が進んできている。しかし、最近では更に複数の絵文字や顔文字を連続させることで特定の意味(単語)を表現することが行われてきている。ここでは、このような複数の絵文字等を連続させたものを「連続絵文字等」と呼ぶこととする。なお、単独の絵文字や顔文字を「絵文字等」と呼ぶこととする。 As described above, for each pictogram or emoticon, a conversion dictionary has been developed. However, recently, a specific meaning (word) has been expressed by continuing a plurality of pictograms and emoticons. Here, such a series of a plurality of pictograms is called “continuous pictograms”. A single pictogram or emoticon is referred to as “pictogram etc.”.
このような連続絵文字等については、変換辞書の整備は行われておらず、ユーザは一文字ずつ入力しなければならないため、入力が煩雑であるという問題があった。また、サーバ側でコンテンツの解析を行う場合、連続絵文字等の意味するところが解釈できないため、有効なコンテンツの解析が行えないものであった。 For such continuous pictographs, the conversion dictionary has not been maintained, and the user has to input characters one by one. Further, when analyzing content on the server side, meanings such as continuous pictographs cannot be interpreted, and therefore effective content analysis cannot be performed.
本発明は上記の従来の問題点に鑑み提案されたものであり、その目的とするところは、連続絵文字等について、実際の使われ方に基づいて辞書を生成することのできる連続絵文字等解析装置を提供することにある。 The present invention has been proposed in view of the above-described conventional problems, and an object of the present invention is to provide a continuous pictograph analysis device capable of generating a dictionary for continuous pictographs based on how they are actually used. Is to provide.
上記の課題を解決するため、本発明にあっては、請求項1に記載されるように、解析対象となるコンテンツデータベースからコンテンツデータを取得するコンテンツ取得手段と、取得されたコンテンツデータから、単独絵文字等辞書を参照して、連続絵文字等と、当該連続絵文字等が含まれる文章と、当該文章を含む記事とを抽出する連続絵文字等・文章・記事抽出手段と、抽出された記事から単語辞書を参照して記事特徴語を抽出する記事特徴語抽出手段と、取得されたコンテンツデータから、抽出された文章の連続絵文字等を除外した部分に一致する他の文章を抽出する連続絵文字等除外文章抽出手段と、抽出された他の文章から単語辞書を参照して文章特徴語を抽出する文章特徴語抽出手段と、抽出された記事特徴語と文章特徴語から類義語辞書を参照して類似するか否か判定する特徴語類似判定手段と、類似すると判定された場合に、抽出された連続絵文字等と文章特徴語とを対応付けて連続絵文字等辞書に登録する連続絵文字等データ登録手段とを備える連続絵文字等解析装置を要旨としている。
In order to solve the above-described problems, in the present invention, as described in
また、請求項2に記載されるように、請求項1に記載の連続絵文字等解析装置において、前記連続絵文字等辞書を参照し、連続絵文字等の出現回数の記録に基づき、その出現回数の更新が一定期間行なわれない場合に、その連続絵文字等を削除する連続絵文字等データ削除手段を備えるようにすることができる。
In addition, as described in claim 2, in the continuous pictograph etc. analyzing device according to
また、請求項3に記載されるように、解析対象となるコンテンツデータベースからコンテンツデータを取得するコンテンツ取得工程と、取得されたコンテンツデータから、単独絵文字等辞書を参照して、連続絵文字等と、当該連続絵文字等が含まれる文章と、当該文章を含む記事とを抽出する連続絵文字等・文章・記事抽出工程と、抽出された記事から単語辞書を参照して記事特徴語を抽出する記事特徴語抽出工程と、取得されたコンテンツデータから、抽出された文章の連続絵文字等を除外した部分に一致する他の文章を抽出する連続絵文字等除外文章抽出工程と、抽出された他の文章から単語辞書を参照して文章特徴語を抽出する文章特徴語抽出工程と、抽出された記事特徴語と文章特徴語から類義語辞書を参照して類似するか否か判定する特徴語類似判定工程と、類似すると判定された場合に、抽出された連続絵文字等と文章特徴語とを対応付けて連続絵文字等辞書に登録する連続絵文字等データ登録工程とを備える連続絵文字等解析方法として構成することができる。
In addition, as described in
本発明の連続絵文字等解析装置にあっては、連続絵文字等について、実際の使われ方に基づいて辞書を生成することができ、連続絵文字等の入力や解析に用いることができる。 In the continuous pictogram analyzing apparatus of the present invention, a dictionary can be generated based on the actual usage of continuous pictograms and the like, and can be used for input and analysis of continuous pictograms and the like.
以下、本発明の好適な実施形態につき説明する。 Hereinafter, preferred embodiments of the present invention will be described.
<構成>
図1は本発明の一実施形態にかかるシステムの構成例を示す図である。
<Configuration>
FIG. 1 is a diagram showing a configuration example of a system according to an embodiment of the present invention.
図1において、インターネット等のネットワーク1には、ユーザが操作するPC(Personal Computer)、携帯電話、PDA(Personal Digital Assistants)等のユーザ端末2が複数接続されている。ユーザ端末2は、一般的なブラウザ(Webブラウザ)21を備えている。ブラウザ21は、インターネットの標準プロトコルであるHTTP(Hyper Text Transfer Protocol)等に従い、HTML(Hyper Text Markup Language)等の言語で記述されたページデータの要求・取得・表示およびフォームデータの送信等を行う機能を有している。
In FIG. 1, a plurality of user terminals 2 such as a PC (Personal Computer), a mobile phone, and a PDA (Personal Digital Assistants) operated by a user are connected to a
一方、ネットワーク1には、ユーザの操作するユーザ端末2のブラウザ21からのアクセスに対してブログ/掲示板の閲覧・記事掲載の管理を行うブログ/掲示板サーバ3が接続されている。ブログ/掲示板サーバ3には、コンテンツデータベース301が設けられている。このデータベースは、データベースを保持するコンピュータ内のHDD(Hard Disk Drive)等の記憶媒体上に所定のデータを体系的に保持するものである。
On the other hand, connected to the
また、ネットワーク1には、ブログ/掲示板サーバ3の記事内容を解析する絵文字等解析サーバ4が接続されている。
The
絵文字等解析サーバ4は、機能部として、ブログ/掲示板コンテンツ取得部41と連続絵文字等・文章・記事抽出部42と記事特徴語抽出・地域判定部43と連続絵文字等除外文章抽出部44と文章特徴語抽出部45と特徴語類似判定部46と連続絵文字等データ登録部47と連続絵文字等データ削除部48とを備えている。これらの機能部は、絵文字等解析サーバ4を構成するコンピュータのCPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等のハードウェア資源上で実行されるコンピュータプログラムによって実現されるものである。これらの機能部は、単一のコンピュータ上に配置される必要はなく、必要に応じて分散される形態であってもよい。
The pictographic etc.
また、絵文字等解析サーバ4が参照・更新する辞書もしくはデータベースとして、単独絵文字等辞書401と単語辞書402と類義語辞書403と抽出作業用データベース404と連続絵文字等辞書405とが設けられている。これらの辞書等は、辞書等を保持するコンピュータ内のHDD等の記憶媒体上に所定のデータを体系的に保持するものである。
Further, as a dictionary or database that the
図2はブログ/掲示板サーバ3のコンテンツデータベース301のデータ構造例を示す図である。コンテンツデータベース301は、「登録日時」「登録者ユーザID」「登録者IPアドレス」「記事内容」等の項目を有している。「登録日時」は、記事が登録(掲載)された日時である。「登録者ユーザID」は、記事の登録を行ったユーザのユーザIDである。「登録者IPアドレス」は、記事の登録を行ったユーザの登録時の送信元のIPアドレスである。「記事内容」は、記事の内容のデータであり、テキスト、画像、音声等を含む。
FIG. 2 shows an example of the data structure of the
図3は絵文字等解析サーバ4の単独絵文字等辞書401のデータ構造例を示す図である。単独絵文字等辞書401は、「絵文字等」「コード」「単語」等の項目を有している。「絵文字等」は、1文字の絵文字あるいは一つの意味を表す顔文字である。「コード」は、絵文字等を識別する情報である。「単語」は、絵文字等に対応する単語である。
FIG. 3 is a diagram showing an example of the data structure of the
図4は単語辞書402のデータ構造例を示す図であり、「単語」「品詞」等の項目を有している。「単語」は、見出しとなる単語である。「品詞」は、その単語の品詞である。
FIG. 4 is a diagram showing an example of the data structure of the
図5は類義語辞書403のデータ構造例を示す図であり、「単語」「類義語」等の項目を有している。「単語」は、見出しとなる単語である。「類義語」は、その単語に類似する他の単語(複数可)である。
FIG. 5 is a diagram showing an example of the data structure of the
図6は抽出作業用データベース404のデータ構造例を示す図であり、「連続絵文字等」「単語」「出現回数(更新日時)」「地域」等の項目を有している。「連続絵文字等」は、複数の連続する絵文字あるいは顔文字である。「単語」は、連続絵文字等に対応する単語である。「出現回数(更新日時)」は、解析により出現した回数および最後の更新日時である。「地域」は、連続絵文字等が出現した記事を書き込んだユーザの所在する地域である。
FIG. 6 is a diagram showing an example of the data structure of the
図7は連続絵文字等辞書405のデータ構造例を示す図であり、「連続絵文字等」「単語」「出現回数(更新日時)」「地域」等の項目を有している。項目は図6の抽出作業用データベース404と同様である。
FIG. 7 is a diagram showing an example of the data structure of the
図1に戻り、絵文字等解析サーバ4のブログ/掲示板コンテンツ取得部41は、絵文字等解析処理時に、ブログ/掲示板サーバ3のコンテンツデータベース301からコンテンツデータを取得する機能を有している。
Returning to FIG. 1, the blog / bulletin board
連続絵文字等・文章・記事抽出部42は、コンテンツデータベース301により取得されたコンテンツデータから、単独絵文字等辞書401を参照して、連続絵文字等と、その連続絵文字等が含まれる文章と、その文章を含む記事とを抽出する機能を有している。
The continuous pictogram / text /
記事特徴語抽出・地域判定部43は、連続絵文字等・文章・記事抽出部42により抽出された記事から、単語辞書402を参照して、特徴語を抽出する機能を有している。また、記事特徴語抽出・地域判定部43は、記事に含まれるテキスト、登録者IPアドレス、登録者ユーザID等に基づいて登録者の所在する地域を判定する機能も有している。
The article feature word extraction /
連続絵文字等除外文章抽出部44は、連続絵文字等・文章・記事抽出部42により抽出された文章から連続絵文字等を除外した部分をベースに、コンテンツデータベース301により取得されたコンテンツデータから、一致する文章を抽出する機能を有している。
The consecutive pictogram etc. excluded
文章特徴語抽出部45は、連続絵文字等除外文章抽出部44により抽出された文章から、単語辞書402を参照して、特徴語を抽出する機能を有している。
The sentence feature
特徴語類似判定部46は、記事特徴語抽出・地域判定部43により抽出された特徴語(記事特徴語)と文章特徴語抽出部45により抽出された特徴語(文章特徴語)とを、類義語辞書403を参照して、類似するか否か判定する機能を有している。また、特徴語類似判定部46は、類似すると判定した場合、連続絵文字等を抽出作業用データベース404に仮登録し、出現回数が所定値を超えた場合に本登録を連続絵文字等データ登録部47に指示する機能も有している。
The feature word
連続絵文字等データ登録部47は、特徴語類似判定部46から本登録の指示を受けた場合に、連続絵文字等辞書405に連続絵文字等を登録する機能を有している。
The continuous pictogram
連続絵文字等データ削除部48は、適当なタイミングで抽出作業用データベース404および連続絵文字等辞書405を参照し、廃れたと判断される連続絵文字等を削除する機能を有している。
The continuous pictogram
図8は絵文字等解析サーバ4のハードウェア構成例を示す図である。
FIG. 8 is a diagram illustrating a hardware configuration example of the
図8において、絵文字等解析サーバ4は、システムバス4001に接続されたCPU4002、ROM4003、RAM4004、NVRAM(Non-Volatile Random Access Memory)4005、I/F(Interface)4006と、I/F4006に接続された、キーボード、マウス、モニタ、CD/DVD(Compact Disk/Digital Versatile Disk)ドライブ等のI/O(Input/Output Device)4007、HDD4008、NIC(Network Interface Card)4009等を備えている。Mはプログラムもしくはデータが格納されたCD/DVD等のメディア(記録媒体)である。
In FIG. 8, the
<動作>
図9および図10は上記の実施形態の処理例を示すシーケンス図である。
<Operation>
FIG. 9 and FIG. 10 are sequence diagrams showing a processing example of the above embodiment.
図9において、ユーザ端末2のユーザがブログもしくは掲示板に投稿を行なう場合、ユーザ端末2のブラウザ21からブログ/掲示板サーバ3にアクセスして投稿ページ要求を行なう(ステップS101)。ページ要求は、インターネットの標準プロトコルであるHTTPに従ったGETメソッドとリクエストURI(Uniform Resource Indicator)等を含むメッセージがユーザ端末2のブラウザ21からブログ/掲示板サーバ3に送信されることで行なわれる。
In FIG. 9, when the user of the user terminal 2 makes a posting on a blog or bulletin board, the blog /
これを受け、ブログ/掲示板サーバ3は、内部に保持あるいは動的に生成した投稿ページのページデータをユーザ端末2のブラウザ21に返送する(ステップS102)。ページデータはHTML等により記述されており、HTTPのレスポンス等に従ってブログ/掲示板サーバ3からユーザ端末2のブラウザ21に送信される。
In response to this, the blog /
ユーザ端末2のブラウザ21は投稿ページを表示し(ステップS103)、ユーザは投稿内容の入力を行なう(ステップS104)。
The
投稿ページへの入力が完了すると、ユーザ端末2のブラウザ21からブログ/掲示板サーバ3に投稿内容が送信される(ステップS105)。入力内容はHTTPのPOSTメソッドあるいはPUTメソッド等に付加されたHTML等のデータあるいはGETメソッド等に付加されたパラメータとしてユーザ端末2のブラウザ21からブログ/掲示板サーバ3に送信される。
When the input to the posting page is completed, the posting content is transmitted from the
投稿内容を受信したブログ/掲示板サーバ3は、コンテンツデータベース301(図2)に、登録日時、登録者ユーザID、登録者IPアドレス等と関連付けて記事内容(投稿内容)を登録する(ステップS106)。
The blog /
その後、適当なタイミングにおいて、絵文字等解析サーバ4は動作を開始し、ブログ/掲示板コンテンツ取得部41は、ブログ/掲示板サーバ3のコンテンツデータベース301からコンテンツデータを取得する(ステップS111)。取得するコンテンツデータは、古いものは参考とならないため、登録日時を考慮して、所定の鮮度が保てる期間のものに限定することができる。取得したコンテンツデータは、内部に一時的に保持し、連続絵文字等・文章・記事抽出部42および連続絵文字等除外文章抽出部44が利用できる状態とする(ステップS112、S113)。
Thereafter, at an appropriate timing, the
次いで、連続絵文字等・文章・記事抽出部42は、コンテンツデータベース301により取得されたコンテンツデータから、単独絵文字等辞書401を参照して、連続絵文字等と、その連続絵文字等が含まれる文章と、その文章を含む記事とを抽出する(ステップS114)。すなわち、単独絵文字等辞書401に登録された絵文字等をキーにしてコンテンツデータ全体に対して検索を行い、あるいは、コンテンツデータをスキャンして単独絵文字等辞書401に登録された絵文字等が出現するか否かを判断し、出現した連続絵文字等と、連続絵文字等が含まれる文章と、その文章を含む記事とを抽出する。なお、前回の解析時に抽出した連続絵文字等は、コンテンツデータの登録日時を考慮して、重複して抽出しないようにすることができる。図11は連続絵文字等L1を含む文章S1と、この文章S1を含む記事A1が抽出された状態を示している。
Next, the continuous pictogram / text /
図9に戻り、連続絵文字等・文章・記事抽出部42は、抽出した連続絵文字等(コード)と文章と記事とを、記事特徴語抽出・地域判定部43に引き渡す(ステップS115)。
Returning to FIG. 9, the continuous pictograph / text /
次いで、記事特徴語抽出・地域判定部43は、連続絵文字等・文章・記事抽出部42により抽出された記事から、単語辞書402を参照して、特徴語(記事特徴語)を抽出する(ステップS116)。特徴語の抽出は、例えば、記事に含まれる文字列と単語辞書402に登録された単語とを、最長一致法等により一致の比較判断を行い、一致した頻度の高い単語を特徴語として決定する。図11に示した記事A1の場合、例えば、「1年生」を特徴語C1として抽出する。
Next, the article feature word extraction /
図9に戻り、記事特徴語抽出・地域判定部43は、記事に含まれるテキスト、登録者IPアドレス、登録者ユーザID等に基づいて登録者の所在する地域を判定する(ステップS117)。すなわち、記事に含まれるテキストに地名を示す単語が含まれている場合にはそれを地域とする。予め、IPアドレス範囲と地域とを対応付けたテーブル(図示せず)のIPアドレス範囲に登録者IPアドレスが含まれる場合は対応する地域を取得する。登録者ユーザIDからユーザDB(図示せず)を参照し、プロフィールから住所が取得できる場合は、その住所を地域とする。
Returning to FIG. 9, the article feature word extraction /
次いで、記事特徴語抽出・地域判定部43は、連続絵文字等・文章・記事抽出部42から渡された連続絵文字等と文章と、自ら抽出した記事特徴語と判定した地域とを、連続絵文字等除外文章抽出部44に引き渡す(ステップS118)。
Next, the article feature word extraction /
次いで、連続絵文字等除外文章抽出部44は、連続絵文字等・文章・記事抽出部42により抽出された文章から連続絵文字等を除外した部分をベースに、コンテンツデータベース301により取得されたコンテンツデータから、一致する文章を抽出する(ステップS119)。すなわち、連続絵文字等・文章・記事抽出部42により抽出された文章の文字列から連続絵文字等を除外した文字列を生成し、当該文字列をキーにしてコンテンツデータ全体に対して検索を行い、あるいは、コンテンツデータをスキャンして当該文字列が出現するか否かを判断し、当該文字列が含まれる文章を抽出する。図11の文章S1からは連続絵文字等L1を除くことで「おめでとう。」の文字列が生成される。図12は、この文字列「おめでとう。」に基づいてコンテンツデータから文章S2、S3が抽出された状態を示している。
Next, the consecutive pictograms excluded
図9に戻り、連続絵文字等除外文章抽出部44は、記事特徴語抽出・地域判定部43から渡された連続絵文字等と記事特徴語と地域と、自ら抽出した文章とを、文章特徴語抽出部45に引き渡す(ステップS120)。
Returning to FIG. 9, the consecutive pictograms and other excluded
次いで、図10において、文章特徴語抽出部45は、連続絵文字等除外文章抽出部44により抽出された文章から、単語辞書402を参照して、特徴語(文章特徴語)を抽出する(ステップS121)。特徴語の抽出は、例えば、文章に含まれる文字列と単語辞書402に登録された単語とを、最長一致法等により一致の比較判断を行い、一致した頻度の高い単語を特徴語として決定する。図12に示した文章S2の場合、この文章S2に含まれる文字列「入学式」を特徴語C2として抽出する。文章S3の場合、この文章S3に含まれる「誕生日」を特徴語C3として抽出する。
Next, in FIG. 10, the sentence feature
図10に戻り、文章特徴語抽出部45は、連続絵文字等除外文章抽出部44から渡された連続絵文字等と記事特徴語と地域と、自ら抽出した文章特徴語とを、特徴語類似判定部46に引き渡す(ステップS122)。
Returning to FIG. 10, the sentence feature
次いで、特徴語類似判定部46は、記事特徴語抽出・地域判定部43により抽出された記事特徴語と文章特徴語抽出部45により抽出された文章特徴語とを、類義語辞書403を参照して、類似するか否か判定する(ステップS123)。すなわち、一方の特徴語をキーにして類義語辞書403を参照し、他方の特徴語が類義語として登録されているか否かにより類似するか否か判定する。図11で抽出された特徴語C1「1年生」と、図12で抽出された特徴語C2「入学式」と特徴語C3「誕生日」との間では、「1年生」と「入学式」が類似するものとしている。
Next, the feature word
図10に戻り、特徴語類似判定部46は、類似と判定した場合、類似と判定した組み合わせにつき、連続絵文字等を抽出作業用データベース404に仮登録する(ステップS124)。すなわち、その文章特徴語を単語とし、抽出作業用データベース404に既に同じ連続絵文字等と単語と地域のレコードがある場合は、出現回数を1加算する。レコードがない場合は連続絵文字等と単語と地域のレコードを作成し、出願回数を1とする。
Returning to FIG. 10, when the feature word
次いで、特徴語類似判定部46は、出現回数が所定値を超えるか否か判断し(ステップS125)、出現回数が所定値を超えた場合には、連続絵文字等と単語と出現回数と地域を連続絵文字等データ登録部47に引き渡し、本登録を指示する(ステップS126)。
Next, the feature word
これを受け、連続絵文字等データ登録部47は、連続絵文字等辞書405に連続絵文字等と単語と出現回数と地域を登録する(ステップS127)。既に、出現回数以外の連続絵文字等と単語と地域が同じレコードが存在する場合には、出現回数のみを更新する。
In response, the continuous pictogram
一方、その後の適当なタイミングにおいて、連続絵文字等データ削除部48は、抽出作業用データベース404および連続絵文字等辞書405を参照し(ステップS131)、廃れたと判断される削除対象の連続絵文字等を判定する(ステップS132)。すなわち、更新日時が所定期間以上経過していることで出現回数が所定期間にわたって増加がなく、他に同じ連続絵文字等のレコードが存在するものを削除対象とする。この場合、同じ連続絵文字等のレコードとは、地域も含めて同じという意味である。地域が異なれば、違う意味で使われる連続絵文字等が併存するのは普通であるからである。
On the other hand, at an appropriate timing thereafter, the continuous pictogram
そして、連続絵文字等データ登録部47は、該当するレコードを抽出作業用データベース404および連続絵文字等辞書405から削除する(ステップS133)。
Then, the continuous pictograph
<総括>
以上説明したように、本実施形態によれば、ブログ/掲示板サーバ3における連続絵文字等の実際の使われ方に基づいて連続絵文字等辞書405を最新の状態に保つことができ、連続絵文字等の入力や解析に有効に用いることができる。
<Summary>
As described above, according to the present embodiment, the
以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更を加えることができることは明らかである。すなわち、具体例の詳細および添付の図面により本発明が限定されるものと解釈してはならない。 The present invention has been described above by the preferred embodiments of the present invention. While the invention has been described with reference to specific embodiments, various modifications and changes may be made to the embodiments without departing from the broad spirit and scope of the invention as defined in the claims. Obviously you can. In other words, the present invention should not be construed as being limited by the details of the specific examples and the accompanying drawings.
1 ネットワーク
2 ユーザ端末
21 ブラウザ
3 ブログ/掲示板サーバ
301 コンテンツデータベース
4 絵文字等解析サーバ
41 ブログ/掲示板コンテンツ取得部
42 連続絵文字等・文章・記事抽出部
43 記事特徴語抽出・地域判定部
44 連続絵文字等除外文章抽出部
45 文章特徴語抽出部
46 特徴語類似判定部
47 連続絵文字等データ登録部
48 連続絵文字等データ削除部
401 単独絵文字等辞書
402 単語辞書
403 類義語辞書
404 抽出作業用データベース
405 連続絵文字等辞書
DESCRIPTION OF
Claims (3)
取得されたコンテンツデータから、単独絵文字等辞書を参照して、連続絵文字等と、当該連続絵文字等が含まれる文章と、当該文章を含む記事とを抽出する連続絵文字等・文章・記事抽出手段と、
抽出された記事から単語辞書を参照して記事特徴語を抽出する記事特徴語抽出手段と、
取得されたコンテンツデータから、抽出された文章の連続絵文字等を除外した部分に一致する他の文章を抽出する連続絵文字等除外文章抽出手段と、
抽出された他の文章から単語辞書を参照して文章特徴語を抽出する文章特徴語抽出手段と、
抽出された記事特徴語と文章特徴語から類義語辞書を参照して類似するか否か判定する特徴語類似判定手段と、
類似すると判定された場合に、抽出された連続絵文字等と文章特徴語とを対応付けて連続絵文字等辞書に登録する連続絵文字等データ登録手段と
を備えたことを特徴とする連続絵文字等解析装置。 Content acquisition means for acquiring content data from a content database to be analyzed;
With reference to a dictionary of single pictograms, etc., from the acquired content data, continuous pictograms, etc., continuous pictograms etc., text / article extraction means for extracting sentences containing the continuous pictograms, etc., and articles containing the text, and ,
Article feature word extraction means for extracting an article feature word from the extracted article by referring to a word dictionary;
Excluded sentence extraction means such as continuous pictograms for extracting other sentences that match the part of the extracted text excluding the continuous pictograms of the extracted text,
A sentence feature word extracting means for extracting a sentence feature word from another extracted sentence by referring to a word dictionary;
Feature word similarity determination means for determining whether or not they are similar by referring to a synonym dictionary from the extracted article feature words and sentence feature words;
A continuous pictogram etc. analyzing device characterized by comprising continuous pictogram etc. data registration means for registering the extracted continuous pictogram etc. and the sentence feature word in association with each other when it is determined to be similar .
前記連続絵文字等辞書を参照し、連続絵文字等の出現回数の記録に基づき、その出現回数の更新が一定期間行なわれない場合に、その連続絵文字等を削除する連続絵文字等データ削除手段
を備えたことを特徴とする連続絵文字等解析装置。 In the analysis apparatus for continuous pictograms according to claim 1,
With reference to the continuous pictogram dictionary, based on the record of the number of appearances of continuous pictograms, and the like, provided with a continuous pictogram data deletion means for deleting the continuous pictograms and the like when the number of appearances is not updated for a certain period of time. A device for analyzing continuous pictograms, etc.
取得されたコンテンツデータから、単独絵文字等辞書を参照して、連続絵文字等と、当該連続絵文字等が含まれる文章と、当該文章を含む記事とを抽出する連続絵文字等・文章・記事抽出工程と、
抽出された記事から単語辞書を参照して記事特徴語を抽出する記事特徴語抽出工程と、
取得されたコンテンツデータから、抽出された文章の連続絵文字等を除外した部分に一致する他の文章を抽出する連続絵文字等除外文章抽出工程と、
抽出された他の文章から単語辞書を参照して文章特徴語を抽出する文章特徴語抽出工程と、
抽出された記事特徴語と文章特徴語から類義語辞書を参照して類似するか否か判定する特徴語類似判定工程と、
類似すると判定された場合に、抽出された連続絵文字等と文章特徴語とを対応付けて連続絵文字等辞書に登録する連続絵文字等データ登録工程と
を備えたことを特徴とする連続絵文字等解析方法。 A content acquisition process for acquiring content data from a content database to be analyzed;
From the acquired content data, referring to a dictionary of single pictograms, continuous pictograms, etc., continuous pictograms etc., text / article extraction process for extracting texts containing the continuous pictograms, etc., and articles containing the texts, ,
An article feature word extraction step of extracting an article feature word from the extracted article by referring to a word dictionary;
From the acquired content data, an extracted sentence extraction process such as continuous pictograms that extracts other sentences that match the part of the extracted text that excludes continuous pictograms, and the like,
A sentence feature word extraction step of extracting a sentence feature word from another extracted sentence with reference to a word dictionary;
A feature word similarity determination step for determining whether or not they are similar by referring to a synonym dictionary from the extracted article feature words and sentence feature words;
A continuous pictogram etc. data registration method comprising: a continuous pictogram etc. data registration step of registering the extracted continuous pictogram etc. and a text feature word in association with each other in a dictionary of continuous pictograms, etc., when determined to be similar .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009122389A JP5049314B2 (en) | 2009-05-20 | 2009-05-20 | Continuous pictogram analyzer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009122389A JP5049314B2 (en) | 2009-05-20 | 2009-05-20 | Continuous pictogram analyzer |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010271870A true JP2010271870A (en) | 2010-12-02 |
JP5049314B2 JP5049314B2 (en) | 2012-10-17 |
Family
ID=43419855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009122389A Expired - Fee Related JP5049314B2 (en) | 2009-05-20 | 2009-05-20 | Continuous pictogram analyzer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5049314B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2461522A1 (en) | 2010-12-06 | 2012-06-06 | Sony Corporation | Appliance control device, registration method of appliance control device, and program |
CN102637163A (en) * | 2011-01-09 | 2012-08-15 | 华东师范大学 | Method and system for controlling multi-level ontology matching based on semantemes |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11296516A (en) * | 1998-04-14 | 1999-10-29 | Nippon Telegr & Teleph Corp <Ntt> | Device and method for glyph processing and storage medium where glyph processing program is recorded |
JP2008203984A (en) * | 2007-02-16 | 2008-09-04 | Nec Corp | Character string conversion apparatus and character string conversion method |
-
2009
- 2009-05-20 JP JP2009122389A patent/JP5049314B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11296516A (en) * | 1998-04-14 | 1999-10-29 | Nippon Telegr & Teleph Corp <Ntt> | Device and method for glyph processing and storage medium where glyph processing program is recorded |
JP2008203984A (en) * | 2007-02-16 | 2008-09-04 | Nec Corp | Character string conversion apparatus and character string conversion method |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2461522A1 (en) | 2010-12-06 | 2012-06-06 | Sony Corporation | Appliance control device, registration method of appliance control device, and program |
CN102637163A (en) * | 2011-01-09 | 2012-08-15 | 华东师范大学 | Method and system for controlling multi-level ontology matching based on semantemes |
Also Published As
Publication number | Publication date |
---|---|
JP5049314B2 (en) | 2012-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8463598B2 (en) | Word detection | |
JP5647508B2 (en) | System and method for identifying short text communication topics | |
US10423649B2 (en) | Natural question generation from query data using natural language processing system | |
US20110282903A1 (en) | Dictionary Word and Phrase Determination | |
WO2007143914A1 (en) | Method, device and inputting system for creating word frequency database based on web information | |
KR20100047221A (en) | Dictionary word and phrase determination | |
CN106649778B (en) | Interaction method and device based on deep question answering | |
US20180024986A1 (en) | Extracting actionable information from emails | |
RU2009109687A (en) | LOGOKONI - ADVERTISING PRODUCT FOR BRAND ADVERTISERS | |
JP5049314B2 (en) | Continuous pictogram analyzer | |
US8245127B2 (en) | Method and apparatus for a document annotation service | |
US11354358B1 (en) | Organization and retrieval of conditioned data | |
CN100422987C (en) | Method and system of intelligent information processing in network | |
JP2008090709A (en) | Common translation apparatus | |
US20180293508A1 (en) | Training question dataset generation from query data | |
KR20020017966A (en) | Method and apparatus in a data processing system for word based render browser for skimming or speed reading web pages | |
KR100742130B1 (en) | Method and system for detecting spam based on keyword | |
JP2012038064A (en) | Conference keyword extraction device, conference keyword extraction method and conference keyword extraction program | |
JP2011070541A (en) | Method and device for supporting internet marketing | |
JP5086303B2 (en) | Advertisement providing device | |
JP2003099429A (en) | Glossary generation device, glossary generation program and glossary retrieval device | |
CN111310465B (en) | Parallel corpus acquisition method and device, electronic equipment and storage medium | |
JP2013069246A (en) | Topic word extraction device, topic word extraction method and program | |
JP3622602B2 (en) | Topic-specific interest level calculation method and apparatus, and storage medium storing topical interest level calculation program | |
JP2011180646A (en) | Information processor, communication terminal, interest information provision method and interest information provision program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120424 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120703 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120720 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150727 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5049314 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees | ||
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |