JP2014071541A - 辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム - Google Patents

辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム Download PDF

Info

Publication number
JP2014071541A
JP2014071541A JP2012215245A JP2012215245A JP2014071541A JP 2014071541 A JP2014071541 A JP 2014071541A JP 2012215245 A JP2012215245 A JP 2012215245A JP 2012215245 A JP2012215245 A JP 2012215245A JP 2014071541 A JP2014071541 A JP 2014071541A
Authority
JP
Japan
Prior art keywords
word
content data
content
dictionary
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012215245A
Other languages
English (en)
Other versions
JP5987608B2 (ja
Inventor
Kazuhisa Ono
和久 大野
Yugo Nishikawa
侑吾 西川
Naoyuki Ito
直之 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2012215245A priority Critical patent/JP5987608B2/ja
Publication of JP2014071541A publication Critical patent/JP2014071541A/ja
Application granted granted Critical
Publication of JP5987608B2 publication Critical patent/JP5987608B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】時代とともに変化する新語を辞書に登録することが可能な辞書登録管理装置等を提供する。
【解決手段】サーバ装置30は、取得したテキストデータ毎に共通する2種類の文字とその他の文字の組み合わせから構成される文字列のパターンと比較し、パターンに合致する文字列を第1の単語として、コンテンツデータから抽出し、第1の単語、及び、取得した文字配列の他のパターンに従って、第2の単語を作成し、作成した第2の単語を含むコンテンツデータを第2のコンテンツデータとして他の取得した複数のコンテンツデータの中から特定し、特定した第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1コンテンツと、の間の類似度を算出し、類似度が所定の条件を満たす場合に、第1の単語、及び、第2の単語を辞書データに登録する、
【選択図】図1

Description

本発明は、新語を登録する辞書登録管理装置、当該辞書登録管理装置を利用したコンテンツ解析装置、辞書登録方法、及び、プログラムに関する。
近年、アンケート又は投稿データなどテキストデータを含むコンテンツデータに対して言語解析を、コンピュータを用いて実行する場合には、テキストデータによって構築される文書を、単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することによって、有用な情報を取り出すテキスト解析(すなわち、テキストマイニング)を実行し、又は、当該テキストデータに対して形態素解析を実行することが知られている。
また、テキストマイニング、又は、形態素解析等の解析を的確に実行するためには、単語、助詞、品詞等の語彙が登録された各種の辞書を用いて文書を構成する各品詞を認識しつつ、これらの解析を実行するのが一般的である。
このため、辞書に未だ登録されていない新語、例えば、「きそきそ」、「もえもえ」、「モフモフ」、「ゆるふわ」「モフる」等の擬音語及び擬態語を含む擬声語、(以下「オノマトペ」という。)がアンケート等に対応するコンテンツデータに含まれている場合には、当該新語を正確に抽出できなくなるので、有用な言語解析が作成できなくなっている。
特に、オノマトペは、消費者の感想を適切に表現していることが多く、有用な言語解析を実施するためには必要であるにもかかわらず、流行に合わせて使い方や表現方法が変化するため、当該オノマトペを辞書に登録しておいても、表現方法が変化してしまい、直ぐに、有用性を確保できなくなる可能性が高い。
そこで、最近では、文章に対する形態素解析に際して、予め登録された擬音語や擬態語のパターン、及び、前後の品詞や文節の接続状態から、オノマトペと想定される文字列を抽出し、文章に対する形態素解析の正確性を向上させる装置(例えば、特許文献1)及び事前にオノマトペ専用の辞書を設け、文章中に含まれるオノマトペを抽出する装置(例えば、特許文献2)が提案されている。
特開平5−110099号公報 特開平11−203278号公報
しかしながら、上記特許文献1に開示された装置にあっては、オノマトペ候補が誤っている場合でも、当該オノマトペ候補に続く単語によっては、正しいオノマトペとして抽出されてしまう可能性があり、形態素解析の正確性を確保することが難しい。
また、特許文献2に記載の装置にあっては、文章中のオノマトペを正確に特定できるものの、辞書に未登録のオノマトペを抽出することができない。
本発明は、上記課題を解決するためになされたものであり、その目的は、時代とともに変化する新語を辞書に登録することが可能な辞書登録管理装置及びその辞書登録管理装置を用いたコンテンツ解析装置等を提供することにある。
(1)上述した課題を解決するため、本発明に係る辞書登録管理装置は、文字列を含む複数のコンテンツを個々にコンテンツデータとして外部から取得するコンテンツ取得手段と、複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得手段と、前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出手段と、前記第1の単語、及び、前記取得された文字配列の他のパターンに従って、第2の単語を作成する単語作成手段と、前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段と、前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1コンテンツと、の間の類似度を算出する算出手段と、前記類似度が所定の条件を満たす場合に、前記第1の単語、及び、第2の単語の少なくともいずれか一方を辞書に登録する登録手段と、を備える構成を有している。
この構成により、本発明に係る辞書登録管理装置は、コンテンツデータから抽出された所定の文字配列のパターンを有する第1の単語に基づいて、当該単語の要素を用いつつ、他の文字配列のパターンを構成する第2の単語が検出された場合には、当該第1の単語又は第2の単語を、新語として登録することができる。
したがって、本発明に係る辞書登録管理装置は、複数の文字の組み合わせによって所定の状態を表す単語であって、複数の文字配列のパターンで表現可能な単語を、新語として登録することができるので、例えば、擬態語及び擬音語を含む擬声語(すなわち、オノマトペ)などの時代とともに変化する新語を辞書に登録することができる。
(2)また、本発明に係る辞書登録管理装置は、文字列のパターンが、擬態語及び擬音語を含む擬声語を構成するパターンである、構成を有している。
この構成により、本発明に係る辞書登録管理装置は、時代とともに変化する擬態語及び擬音語を含む擬声語(オノマトペ)を新語として辞書に登録することができる。
(3)また、本発明に係る辞書登録管理装置は、前記第1の単語、または、第2の単語が前記辞書に登録済みであるか否かを判定する判定手段を更に備え、前記登録手段が、前記判定手段によって未登録と判定した単語を前記辞書に登録する、構成を有している。
この構成により、本発明に係る辞書登録管理装置は、既に辞書登録済みの単語の重複登録を防止することができる。
(4)また、本発明に係る辞書登録管理装置は、前記算出手段が、前記第1コンテンツと前記第2コンテンツに含まれ前記辞書に登録されている単語の出現頻度を算出し、当該算出した各単語の出現頻度に基づいて前記類似度を算出する、構成を有している。
この構成により、本発明に係る辞書登録管理装置は、コンテンツデータ間の類似度を求めることによって、第1の単語と第2の単語とが類似する文章表現で用いられているか否かを判定することができるので、第1の単語と第2の単語の類似性を判定することができる。
したがって、本発明に係る辞書登録管理装置は、複数の文字配列のパターンで表現可能であて類似性の高い単語として用いられる擬態語及び擬音語を含む擬声語(オノマトペ)を、新語として登録することができる。
(5)また、本発明に係る辞書登録管理装置は、前記文字配列のパターンが、共通する2種類の文字とその他の文字の組み合わせから構成される構成を有している。
この構成により、本発明に係る辞書登録管理装置は、2種類の文字とその他の文字の組み合わせから構成されることが多い擬態語及び擬音語を含む擬声語(オノマトペ)を的確に抽出することが可能となる。
(6)また、本発明に係る辞書登録管理装置は、前記コンテンツ取得手段が、ネットワークを介して接続された通信端末装置から前記コンテンツデータを取得する構成を有している。
この構成により、本発明に係る辞書登録管理装置は、ネットワークを介して接続される通信端末装置により投稿される、アンケートデータ、及び、投稿データ等のコンテンツから擬態語及び擬音語を含む擬声語(オノマトペ)を抽出して、辞書登録することができるので、常に新しい単語を有するオンライン辞書として、または、辞書データを端末装置に提供することができる。
(6)また、本発明に係る辞書登録管理装置は、前記登録された辞書を前記通信端末装置に利用可能に提供する提供手段を更に備える構成を有している。
この構成により、本発明に係る辞書登録管理装置は、擬態語及び擬音語を含む擬声語(オノマトペ)等の常に新しい単語を有するオンライン辞書として、または、辞書データを端末装置に提供することができる。
(7)上述した課題を解決するため、本発明に係るプログラムは、コンピュータシステムを、文字列を含む複数のコンテンツを個々にコンテンツデータとして外部から取得するコンテンツ取得手段、複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得手段、前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出手段、前記第1の単語、及び、前記取得された文字配列の他のパターンに従って、第2の単語を作成する単語作成手段、前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段、前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1の含まれる第2コンテンツと、の間の類似度を算出する算出手段、前記類似度が所定の条件を満たす場合に、前記第1の単語、及び、第二の単語の少なくともいずれか一方を辞書に登録する登録手段、として機能させる構成を有している
この構成により、本発明に係るプログラムは、コンテンツデータから抽出された所定の文字配列のパターンを有する第1の単語に基づいて、当該単語の要素を用いつつ、他の文字配列のパターンを構成する第2の単語が検出された場合には、当該第1の単語又は第2の単語を、新語として登録することができる。
したがって、本発明に係るプログラムは、複数の文字の組み合わせによって所定の状態を表す単語であって、複数の文字配列のパターンで表現可能な単語を、新語として登録することができるので、例えば、擬態語及び擬音語を含む擬声語(すなわち、オノマトペ)などの時代とともに変化する新語を辞書に登録することができる。
(8)上述した課題を解決するため、本発明に係る辞書登録方法は、文字列を含む複数のコンテンツを個々にコンテンツデータとして外部から取得するコンテンツ取得ステップと、複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得ステップと、前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出ステップと、前記第1の単語と、前記取得された文字配列の他のパターンと、に従って第2の単語を作成する単語作成ステップと、前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定ステップと、前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される含まれる第1コンテンツと、の間の類似度を算出する算出ステップと、前記類似度が所定の条件を満たす場合に、前記第1の単語、及び、第2の単語の少なくともいずれか一方を辞書に登録する登録ステップと、を備える構成を有している。
この構成により、本発明に係る辞書登録方法は、コンテンツデータから抽出された所定の文字配列のパターンを有する第1の単語に基づいて、当該単語の要素を用いつつ、他の文字配列のパターンを構成する第2の単語が検出された場合には、当該第1の単語又は第2の単語を、新語として登録することができる。
したがって、本発明に係る辞書登録方法は、複数の文字の組み合わせによって所定の状態を表す単語であって、複数の文字配列のパターンで表現可能な単語を、新語として登録することができるので、例えば、擬態語及び擬音語を含む擬声語(すなわち、オノマトペ)などの時代とともに変化する新語を辞書に登録することができる。
(9)上述した課題を解決するため、本発明に係るコンテンツ解析装置は、文字列を含む複数のコンテンツを個々にコンテンツデータとして外部から取得するコンテンツ取得手段と、複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得手段と、前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出手段と、前記第1の単語、及び、前記取得された文字配列の他のパターンに従って、第2の単語を作成する単語作成手段と、前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段と、前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1コンテンツと、の間の類似度を算出する算出手段と、前記類似度が所定の条件を満たす場合に、前記第1の単語、及び、第2の単語の少なくともいずれか一方を辞書に登録する登録手段と、前記辞書に基づいてコンテンツを解析する解析手段と、を備える構成を有している。
この構成により、本発明に係るコンテンツ解析装置は、例えば、擬態語及び擬音語を含むオノマトペなどの新語を辞書に登録した状態にてコンテンツを解析することができるので、コンテンツを解析する際に的確に解析することができる。
(9)上述した課題を解決するため、本発明に係るプログラムは、文字列を含む複数のコンテンツを個々にコンテンツデータとして外部から取得するコンテンツ取得手段、複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得手段、前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出手段、前記第1の単語、及び、前記取得された文字配列の他のパターンに従って、第2の単語を作成する単語作成手段、前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段、前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1コンテンツと、の間の類似度を算出する算出手段、前記類似度が所定の条件を満たす場合に、前記第1の単語、及び、第2の単語の少なくともいずれか一方を辞書に登録する登録手段、及び、前記辞書に基づいてコンテンツを解析する解析手段と、を備える、構成を有している。
この構成により、本発明に係るプログラムは、例えば、擬態語及び擬音語を含むオノマトペなどの新語を辞書に登録した状態にてコンテンツを解析することができるので、コンテンツを解析する際に的確に解析することができる。
本発明に係る辞書登録管理装置、プログラム及び辞書登録方法は、複数の文字の組み合わせによって所定の状態を表す単語であって、複数の文字配列のパターンで表現可能な単語を、新語として登録することができるので、例えば、擬態語及び擬音語を含む擬声語(すなわち、オノマトペ)などの時代とともに変化する新語を辞書に登録することができる。
また、本発明に係るコンテンツ解析装置及びプログラムは、擬態語及び擬音語を含むオノマトペなどの新語を辞書に登録した状態にてコンテンツを解析することができるので、コンテンツを解析する際に的確に解析することができる。
本発明に係る一実施形態の通信システムにおける構成を示すシステム構成図である。 一実施形態において用いるオノマトペパターンの一例を示す図である。 一実施形態のサーバ装置の構成を示すブロック図である。 一実施形態のサーバ装置内に設けられたアンケートデータベースに記録されるデータの一例を示す図である。 一実施形態のサーバ装置において実行される類似度算出処理のイメージを示す概念図である。 一実施形態のサーバ装置において実行される、テキストマイニング処理を概念的に示す、イメージ図である。 一実施形態のサーバ装置において実行される辞書更新処理を示すフローチャート(その1)である。 一実施形態のサーバ装置において実行される辞書更新処理を示すフローチャート(その2)である。 一実施形態のサーバ装置において実行される分析レポート作成処理を示すフローチャートである。
以下、図面を参照しつつ、本発明の実施形態について説明する。なお、以下の実施形態は、通信端末装置と、当該通信端末装置とネットワークを介して接続されるサーバ装置と、を有する通信システムに対し、本発明に係る、辞書登録管理装置、プログラム、辞書登録方法、コンテンツ解析装置を適用した場合の実施形態である。
[1]通信システム
まず、図1を用いて本実施形態における通信システム1の構成及び概要について説明する。なお、図1は、本実施形態における通信システム1の構成を示すシステム構成図である。また、図が煩雑になることを防止するために、図1においては、一部のユーザのみを示している。すなわち、実際の通信システム1においては、表示するよりも多数のユーザ、及び、通信端末装置が存在している。
本実施形態の通信システム1は、商品またはサービス等(以下、「商品等」という。)を購入又は利用したユーザに対して実施されたアンケート等の複数の文字列(すなわち、テキスト)を含むコンテンツデータ(以下、「アンケートデータ」という。)に対して有用な情報を取り出すためのテキスト解析(すなわち、テキストマイニング)を実行するシステムであって、例えば、コンテンツデータに基づいて商品等に対する評価、評価理由、又は、要望等のユーザ評価又はその感想を含む文書(テキスト)に基づく分析レポートを作成するためのシステムである。
そして、通信システム1は、テキストマイニングの処理(以下、「テキストマイニング処理」という。)を実行する際に、擬態語及び擬音語を含む擬声語(すなわち、オノマトペ)などの複数の文字の組み合わせによって所定の状態を表す単語であって、複数の文字配列のパターンで表現可能な単語を、新語として登録することが可能なシステムである。
上記機能を実現するため、本実施形態の通信システム1は、図1に示すように、商品等の消費ユーザ(以下、「消費者」という。)によってそれぞれ所持され、アンケートデータ等のテキストデータを提供する複数の通信端末装置10と、ネットワーク20と、アンケートデータに基づいて新語の登録を実行しつつ、テキストマイニング処理を実行するサーバ装置30と、ネットワーク20に接続された基地局BSと、を有している。
なお、ネットワーク20は、例えば、携帯電話網を含む公衆電話網と、IP(Internet Protocol)ネットワークが相互接続されて構成される。ただし、当該ネットワーク20の構成は、これに限られない。
通信端末装置10は、例えば、携帯型音楽プレーヤー、携帯型ゲーム機、タブレット型情報端末装置、スマートフォン、又は、携帯用電話機等のユーザによって携帯可能な通信端末装置である。そして、通信端末装置10は、基地局BSを介して、又は、直接的にネットワーク20に接続される。
また、この通信端末装置10は、XML(eXtensible Markup Language)等のマークアップ言語によって記述されているWWWシステム用のリソースデータと、当該リソースデータのネットワークアドレスを示す固有のURL(Uniform Resource Locator)とを用いつつ、サーバ装置30と、データ通信を行うブラウジング機能を有している。そして、通信端末装置10は、当該ブラウジング機能を用いて所定の文書を有するテキストデータを生成して、サーバ装置30に提供する構成を有している。
本実施形態のサーバ装置30は、通信端末装置10から提供されたアンケート等のテキストデータに基づいて、オノマトペなど新語を登録しつつ、テキストマイニング処理を実行して当該アンケート等の文書に対する分析レポートを作成するサーバ装置である。
具体的には、サーバ装置30は、取得したテキストデータに基づいてオノマトペなど複数の文字の組み合わせによって所定の状態を表す単語を新語として登録する新語登録処理を実行する場合には、
(1)文字列を含む複数のコンテンツ(例えば、アンケート)を個々にコンテンツデータとして外部(すなわち、通信端末装置10)から取得し、
(2)予め定められた文字配列(例えば、共通する2種類の文字とその他の文字の組み合わせから構成される文字列)のパターン(例えば、オノマトペのパターン)をデータベースから取得し、
(3)取得したコンテンツデータ毎に、各コンテンツに含まれる文字列を配列パターンと比較し、パターンに合致する文字列を第1の単語として、コンテンツデータから抽出し、
(4)第1の単語、及び、取得した文字配列の他のパターンに従って、第2の単語を作成し、
(5)作成した第2の単語を含むコンテンツデータを第2のコンテンツデータとして他の取得した複数のコンテンツデータの中から特定し、
(6)特定した第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1コンテンツと、の間の類似度を算出し、
(7)類似度が所定の条件を満たす場合に、前記第1の単語、及び、第2の単語を辞書データに登録する、
構成を有している。
特に、サーバ装置30は、第1の単語、または、第2の単語が辞書に登録済みであるか否かを判定しつつ、当該判定により未登録と判定された場合に、当該第1の単語及び第2の単語を新語として辞書データに登録する構成を有している。
そして、サーバ装置30は、新語が登録された辞書データを用いて各通信端末装置10のユーザによって投稿された商品等に対するコンテンツデータのテキストマイニング処理を実行し、そのレポートを作成する構成を有している。
このような構成を有することによって、本実施形態の通信システム1においては、コンテンツデータから抽出された所定の文字配列のパターンを有する第1の単語に基づいて、当該単語の要素を用いつつ、他の文字配列のパターンを構成する第2の単語が検出された場合には、当該第1の単語又は第2の単語を、新語として登録することができるようになっている。
したがって、本実施形態の通信システム1においては、複数の文字の組み合わせによって所定の状態を表す単語であって、複数の文字配列のパターンで表現可能な単語を、新語として登録することができるので、例えば、擬態語及び擬音語を含む擬声語(すなわち、オノマトペ)などの時代とともに変化する新語を辞書に登録することができるようになっている。
また、本実施形態の通信システム1においては、擬態語及び擬音語を含むオノマトペなどの新語を辞書に登録した状態にてコンテンツを解析することができるので、コンテンツを解析する際に的確に解析することができる。
なお、本実施形態においては、サーバ装置30は、SNS等のネットワークサービスを提供するサーバ機能を有していてもよく、各サービスを享受するサービスユーザによるブログ又はコメント等のSNSを介して取得したコンテンツに基づいて新語登録処理及びテキストマイニング処理を実行してもよい。ただし、以下の実施形態においては、通信端末装置10から取得した商品毎又はサービス毎のアンケートに基づいて、新語登録及び分析レポートの作成を行うものとして説明する。
[2]サーバ装置
[2.1]サーバ装置における新語の登録原理
次に、図2を用いて本実施形態のサーバ装置30における新語の登録原理について説明する。なお、図2は、代表的なオノマトペパターンを示す図である。
本実施形態のサーバ装置30は、複数の文字の組み合わせによって所定の状態を表す単語を新語として登録するための構成を有している。具体的には、サーバ装置30は、共通する2種類の文字とその他の文字の組み合わせから構成されるとともに、異なる2種類の文字配列のパターンを有し、かつ、それぞれ類似する意味を持つ擬態語及び擬音語を含む擬声語であるオノマトペを新語として登録することができるように構成されている。
一般的に、オノマトペは、人間、動物又は物が発する音、及び、感情又は状態を表現する音であり、図2に示すように、「A」と「B」が異なる文字種とすると、
(1)ABAB、
(2)AっBり、
(3)AんBり、
(4)ABっと、
(5)AっBん、
(6)ABりと、
(7)ABんと、
(8)ABと
(9)ABんABん
(10)ABりABり
の10パターンの文字配列のパターンによって定義される。
なお、図2においては、各オノマトペパターンの「A」及び「B」に所定の文字を当てはめた場合の単語(オノマトペ)の例としてパターンID「a」において、「A=が」、「B=た」の場合、及び、「A=ど」、「B=き」の場合を示している。
また、オノマトペは、単語の文字配列を変えた複数のパターンにおいては、類似する意味を有することが多く、少なくとも2つの文字配列のパターンを有し、かつ、類似する表現に用いられていれば、オノマトペとして認定することができる。しかしながら、2つの新しい単語においてそれらが類似しているか否かを直接的に判断することは難しく、新たな基準を導入する必要がある。
そこで、本実施形態のサーバ装置30は、
(1)上記のパターンを用いて第1の単語を検出し、
(2)当該第1の単語とオノマトペのパターンに基づいて第2の単語を生成し、
(3)当該第1の単語を検出した文書と第2の単語を有する文書の類似度を算出し、
(4)算出した類似度に基づいて、第1の単語と第2の単語との類似性を判定し、
(5)判定結果に基づいて、第1の単語及び第2の単語を新語として辞書に登録するようになっている。
すなわち、2つの新しい単語がそれぞれ含まれる異なる2つの文書において、高い類似度を示す場合(すなわち、内容的に似ている場合)には、2つの単語が同一又は類似する事象を表現していると想定され、2つのそれぞれの単語が類似していると想定することができる。その一方、2つの文書において、類似度が低い場合(すなわち、内容的にかけ離れている場合)には、2つの単語が異なる事象を表現しているため、2つのそれぞれの単語が非類似であると想定することができる。
したがって、本実施形態のサーバ装置30は、当該原理を用いることによって、2つの単語の類似性を判定し、その結果に基づいて、第1の単語及び第2の単語を新語として辞書に登録することができるようになっている。
例えば、第1の単語が「モフモフ」であり「モ」と「フ」を用いて、第2の単語として「モフっと」、「モッフり」、及び、「モんフり」が生成された場合に、サーバ装置30は、これら「モフっと」、「モッフり」、及び、「もんふり」が使われている他の文書と、「第1の単語「モフモフ」を含む文章と、の類似度を算出する。そして、「モッフり」、及び、「モフっと」を含むコンテンツデータに関する類似度のみが閾値を超え、「もんふり」を含むコンテンツデータについては類似度が閾値を超えない場合には、「モフモフ」及び「モッフり」、及び「モフっと」のみを辞書登録の対象とし、「もんふり」については、登録の対象から除外するようになっている。ただし、サーバ装置30は、「モフモフ」が既に辞書データに登録済みと判定した場合には、登録対象から除外するようになっている。
[2.2]サーバ装置の構成
次に、図3及び図4を用いて本実施形態のサーバ装置30の構成について説明する。なお、図3は、本実施形態のサーバ装置30の構成を示すブロック図であり、図4は、本実施形態のサーバ装置30内に設けられるアンケートDB331に記録されるデータの一例を示す図である。
本実施形態のサーバ装置30は、図3に示すように、ネットワーク20に接続される通信制御部310と、各種のメモリとして機能するROM/RAM320と、各種のDBを有する記録装置330と、装置全体を制御するサーバ管理制御部340と、所定のタイミングにて、辞書更新処理、分析レポート作成処理、及び、その他の処理を実行するデータ処理部350と、現在日時を特定するためのタイマ380と、を有する。なお、上記の各部は、バスBによって相互に接続され、各構成要素間におけるデータの転送が実行される。
通信制御部310は、所定のネットワークインターフェースであり、通信端末装置10と通信チャネルを構築し、各種データの授受を行う。
ROM/RAM320には、サーバ装置30の駆動に必要な各種のプログラムが記録されている。また、ROM/RAM320は、各種の処理が実行される際のワークエリアとして用いられる。
記録装置330は、HDD、又は、SSD(Solid State Drive)により構成され、その記録領域内に、少なくとも、アンケートDB331と、オノマトペパターンDB332と、辞書DB334と、が設けられている。
アンケートDB331は、商品等の消費者が通信端末装置10を用いて回答したアンケートデータを格納(記録)するためのデータベースであり、例えば、図4に示すように、
(1)各商品等を識別するための商品等IDと、
(2)各商品等に関するアンケートに回答した消費者を識別する消費者IDと、
(3)各商品の商品名と、
(4)ユーザ(消費者)により入力された回答が記載されたアンケートデータと、
が対応付けて登録される。
特に、図4は、アンケートDB331に、商品ID「101」により特定される「猫カフェ」について消費者ID「101」、「102」、「103」、「104」及び「105」に対応する消費者によって解答された以下のような文書を有するアンケートデータが記録されている状態を例示している。
(1)消費者「101」:「猫が、モフモフしてとても可愛い。」:評価「☆☆☆」
(2)消費者「102」:「ふわふわなサンドイッチが美味しい。」:評価「☆☆☆☆☆」
(3)消費者「103」:「お手頃。」:評価「☆☆☆」
(4)消費者「104」:「もう少しサンドイッチにもっちり感が欲しい。」:評価「☆☆」、
(5)消費者「105」:「近いからいきやすい。」:評価「☆☆☆」
なお、回答日時は、アンケートデータがサーバ装置30により受信された日時をタイマ380によって特定することにより定められる。また、消費者IDは、商品等の購入時、又は、利用時にユーザ登録を行うことによって、商品等の提供者によって割り当てられるものである。さらに、各アンケートデータには、製造メーカに関する情報、商品のイメージ等の各種の内容が含まれる。
オノマトペパターンDB332は、上述した10個のオノマトペパターンを記録するためのDBであり、例えば、図2に示すように、各オノマトペパターンを識別するためのオノマトペIDと対応付けてオノマトペパターンが記録される。
辞書DB334は、名詞、助詞、助動詞、擬態語及び擬音語を含む擬声語、活用語尾等の一般的な語彙が登録された辞書データが記録され、コンテンツデータ分割処理の実行時に用いられるデータベースである。
サーバ管理制御部340は、主に中央演算処理装置(CPU)によって構成され、プログラムを実行することによって、サーバ装置30の各部を統合制御する。
データ処理部350は、各種のアプリケーションを実行することにより、各種の機能を実現する。特に、データ処理部350は、新語を検出するとともに、当該新語を検出し場合に当該検出した単語を辞書データに登録する新語登録処理と、登録された新語を含む辞書データに基づいてアンケートデータに対するテキストマイニング処理を実行して分析レポートを作成する分析処理と、を実行する。
具体的には、データ処理部350は、新語登録処理を実行する辞書登録管理部360と、新テキストマイニング処理を含む分析処理を実行する分析レポート生成部370と、を有している。そして、辞書登録管理部360は、少なくとも、単語抽出部361、検索単語生成部362、コンテンツ特定部363、類似度算出部364及びDB管理部365を含み、分析レポート生成部370は、テキストマイニング処理部371、レポートデータ生成部372及びレポートデータ提供部373を含む。
例えば、本実施形態の単語抽出部361は、本発明に係る抽出手段を構成し、検索単語生成部362は、本発明に係る単語生成手段を構成する。また、例えば、本実施形態のコンテンツ特定部363は、本発明に係る特定手段を構成し、類似度算出部364は、本発明に係る算出手段を構成する。さらに、例えば、本実施形態のDB管理部365は、本発明に係る登録手段を構成し、分析レポート生成部370は、本発明の解析手段を構成する。
なお、本実施形態のデータ処理部350における辞書登録管理部360及び分析レポート生成部370の詳細については後述する。
[2.3]辞書登録管理部
次に、図5を用いて本実施形態のデータ処理部350における辞書登録管理部360について説明する。なお、図5は、本実施形態のサーバ装置30において実行される類似度算出処理を概念的に示すイメージ図である。
本実施形態の辞書登録管理部360は、所与のタイミングにて、アンケートデータによって構成される文書と、オノマトペパターンDB332に記録されたオノマトペパターンと、に基づいて、第1の単語を抽出するとともに、当該抽出した第1の単語に基づいて第2の単語を生成し、辞書DB334内の辞書に登録及び管理するための新語登録処理を実行する。
なお、辞書登録管理部360は、任意のタイミングにおいて新語登録処理を実行する。また、オノマトペパターン毎にかつアンケートデータ毎に新語登録処理を実行してもよいし、複数のオノマトペパターンに対して、アンケートデータ毎に、又は、全てのアンケートデータに対して同時に並列的に新語登録処理を実行してもよい。
単語抽出部361は、例えば、特定の日、曜日又は分析レポートの生成を希望するユーザから指定されたタイミング等の所定のタイミングに、特定の商品、特定のサービス又は特定の商品の製造メーカ等の対象となるアンケートデータを読み出す。そして、単語抽出部361は、読み出したアンケートデータに対してオノマトペパターンDB332に記録されている各オノマトペパターンと同一のパターンを有する文字列を検索し、該当する文字列がある場合には、当該文字列を第1の単語として抽出する。
また、単語抽出部361は、このとき、抽出した文字列が辞書DB334に既に登録されているか否かを判定し、既に登録されていると判定した抽出した文字列については、新語登録処理を中断する。
具体的には、単語抽出部361は、対象となるアンケートデータを読み出してROM/RAM320に展開するとともに、各オノマトペパターンと、展開されたアンケートデータに含まれる文書と、を比較し、当該オノマトペパターンに合致する文字列を第1の単語として抽出する。
例えば、単語抽出部361は、「ABAB」のオノマトペパターンの場合には、展開されたアンケートデータの中から、「どきどき」、「がたがた」、「モフモフ」、「モエモエ」又は「パクパク」等の文字種「AB」が反復されている文字列を第1の単語として抽出する。
そして、単語抽出部361は、抽出した第1の単語を検索キーに辞書DB334に既に登録されているか否かを判定するとともに、既に登録されていると判定した第1の単語については、新語登録処理を中断し、未だ登録されていない判定した第1の単語については、検索単語生成部362に第2の単語の生成処理を実行させる。
検索単語生成部362は、単語抽出部361によって抽出された第1の単語であって、未だ辞書データに登録されていないと判定した第1の単語の場合に、当該第1の単語に基づいて第2の単語を生成する。
具体的には、検索単語生成部362は、オノマトペパターンDB332に記録されたオノマトペパターンに基づいて、第1の単語を構成する「A」及び「B」に該当する2種類の文字を他のオノマトペパターンに組み合わせて、他のオノマトペパターンを有する第2の単語を作成する。
例えば、単語抽出部361によって抽出された第1の単語として、「ABAB」のオノマトペパターンの「どきどき」が用いられる場合には、検索単語生成部362は、「AっBり」、「AんBり」、「ABっと」、「AっBん」、「ABりと」、「ABんと」及び「ABABと」等に基づいて、「どっきり」、「どんきり」、「どきっと」、「どっきん」、「どきりと」「どきんと」及び「どきどきと」等、他の全てのオノマトペパターンを有する第2の単語を生成する。
コンテンツ特定部363は、検索単語生成部362によって生成された各第2の単語毎に当該第2の単語を含む、コンテンツデータであるアンケートデータを特定する。
具体的には、コンテンツ特定部363は、生成された複数の第2の単語毎に、当該第2の単語を検索キーとして、アンケートDB331を検索し、当該第2の単語を含むコンテンツデータを特定する。そして、コンテンツ特定部363は、当該特定したコンテンツデータをROM/RAM320に一時記録する。
類似度算出部364は、検索単語生成部362によって抽出された第1の単語を有する第1コンテンツデータであるアンケートデータと、コンテンツ特定部363によって特定された(ROM/RAMに一時記録された)コンテンツデータとの各類似度を算出する類似度算出処理を実行する。
具体的には、類似度算出部364は、形態素解析によって各コンテンツデータからキーワードを検出しつつ、当該検出したキーワードのコンテンツデータ全体における出現回数と、各コンテンツデータに対応する文書毎のキーワードにおける出現回数と、に基づいて、TF−IDF(Term Frequency−Inverse Document Frequency)の各値を算出する。すなわち、類似度算出部364は、形態素解析によって検出された単語をキーワード(Keyj)に設定し、当該キーワード(Keyj)毎に、全体の出現回数の逆数Keyj(IDF)と、各アンケートデータにおける出現回数Keyj(TF)との積Keyn(TF/IDF)を算出する。なお、ここで「j」は、キーワードの識別番号を示す。
そして、類似度算出部364は、各アンケートデータの文書間についてのベクトル空間上における距離をそれぞれ算出し、第1の単語を検出したアンケートデータと他のアンケートデータとの類似度を算出する。例えば、類似度算出部364は、(式1)によって第1の単語を検出したアンケートデータの文書(A)と第2の単語を有する他のアンケートデータの文書(Bn)とにおけるコサイン類似度simを算出する。
Figure 2014071541
なお、「A」は、(式2)に示すように対象となる第1の単語を検出したアンケートデータにおける文書のキーワードの出現割合のベクトルであり、「B」は、(式3)に示すように、第2の単語に基づいて特定されたアンケートデータにおける文書の同一のキーワードの出現割合のベクトルである。なお、「n」は、生成された各第2の単語を含むコンテンツデータの識別番号を示し、「t」「sj」は、各々、各単語の出現回数の割合を示す。
Figure 2014071541
Figure 2014071541
なお、図5には、第1の単語「もふもふ」を含むコンテンツデータの文書において、「猫が20回」「ぬいぐるみが15回」「羊が5回」出現するとともに、第2の単語として生成された「もっふり」を含むコンテンツデータの文書において、「猫が18回」「うさぎが13回」「羊が25回」出現し、また、第2の単語として生成された「もんふり」を含むコンテンツデータにおいて、「くまもんが10回」「ふりかけが10回」「お土産が5回」出現している状態が示されている。
DB管理部365は、通信端末装置10から適宜送信されたアンケートデータを商品毎又はサービス毎にコンテンツDB332に登録し、その管理を行う。特に、DB管理部365は、受け付けたアンケートデータについてタイマ380に基づいて受信日時を取得し、アンケートデータとともにコンテンツDB332に登録する。
また、DB管理部365は、新語登録処理において登録すべき単語が検出された場合に、当該単語を辞書DB334に登録する。特に、DB管理部365は、(式1)によって算出された類似度を所定の閾値と比較して所定の閾値(例えば、0.6)以上の類似度を有する第1の単語及び第2の単語を辞書DB334に登録する。なお、DB管理部365は、閾値未満となる第1の単語及び第2の単語については、辞書DB334に登録しない。
[2.4]分析レポート作成部
次に、図6を用いて本実施形態のデータ処理部350における分析レポート生成部370について説明する。なお、図6は、本実施形態のサーバ装置30において実行されるテキストマイニング処理の概念的に示すイメージ図である。
本実施形態の分析レポート生成部370は、商品等の提供者からの要求がネットワーク20を介して入力された場合に、又は、図示せぬ操作部を介してレポート作成指示がなされた場合に、アンケートデータに基づいて分析レポートを作成するためのレポート作成処理を実行する。
なお、分析レポート生成部370は、分析レポートの作成対象となる商品又はサービスと、分析レポートの作成対象期間を定める入力を受け付ける。
特に、分析レポート生成部370は、
(1)商品又は期間などの対象となるアンケートデータをアンケートDB331から読み出し、
(2)辞書DB334に記録された単語に基づいて、読み出したアンケートデータに対するテキストマイニング処理を実行し、
(3)テキストマイニング処理の結果に基づいて所定形式の分析レポートを生成する
各処理を実行する。
テキストマイニング実行部371は、分析レポートの作成対象となる商品等に対するアンケートデータを読み出しつつ、辞書DB334に記録された単語に基づいて、読み出したアンケートデータに対するテキストマイニング処理を実行する。
レポートデータ生成部372は、商品又はサービス等のアンケートデータのアンケート対象に対して、アンケートデータに基づき評価項目等の所定の項目を有するレポートデータを生成する。例えば、レポートデータ生成部372は、図7に示すように、消費者の評価と、その評価を行った理由と、要望と、を含む分析レポートデータを生成する。
レポートデータ提供部373は、生成された分析レポートデータに基づいて、画像、音声印刷物等の形式にて、分析レポートを出力する。例えば、レポートデータ提供部373は、図7に示すように、分析レポートとして
(1)評価人数:30人
(2)評価時期:2012/01/01〜2012/09/10
(3)総合評価:☆☆☆
(4)商品への評価:「美味しい:X%」:「安い:Y%」:「どこでも買える:Z%」
(5)美味しい理由:「ほわっとした食感:S%」:「辛味が利いている:T%」:「さっぱりしている:U%」:「柔らかい:V%」
(6)要望:「モフモフした食感が欲しい:E%」
が生成される。
[3]通信システムの動作
[3.1]新語登録処理
次に、図7を用いて本実施形態におけるサーバ装置30の新語登録処理の動作について説明する。なお、図7は、本実施形態におけるサーバ装置30の新語登録処理の動作を示すフローチャートである。
本動作においては、コンテンツデータとしてアンケートデータを用いて説明する。また、本動作においては、予めサーバ装置30のアンケートDB331、オノマトペパターンDB332及び辞書DB334の各DBには、各データが記録されているものとする。
まず、辞書登録管理部360は、辞書登録のタイミングを検出すると(ステップS100)、予め定められた順番に従って対象となる一のアンケートデータを読み出してROM/RAM320に展開するとともに(ステップS101)、オノマトペパターンDB332の中の一のオノマトペパターン(例えば「ABAB」)を選択する(ステップS102)。
次いで、辞書登録管理部360は、読み出したアンケートデータに含まれる文書から一のパターンに合致する文字列の有無を判定する(ステップS103)。このとき、辞書登録管理部360は、当該文字配列のパターンに合致する文字列が1種以上含まれていると判定した場合には、ステップS105の処理に移行し、所定のパターンに合致する文字列が1種以上含まれていると判定すると、ステップS112の処理に移行する。
次いで、辞書登録管理部360は、所定のパターンに合致する文字列を第1の単語として抽出し、ROM/RAM320に一時記録する(ステップS104)。このとき、辞書登録管理部360は、複数種類の文字列のパターンが存在する場合には、全ての文字列を第1の単語として抽出する。また、例えば、辞書登録管理部360は、「モフモフ」となる第1の単語を抽出してROM/RAM320に一時記録する。
次いで、辞書登録管理部360は、抽出した第1の単語に基づいて辞書DB334を検索し、辞書データに既に抽出した第1の単語が登録されている否かを判定する(ステップS105)。このとき、辞書登録管理部360は、第1の単語が辞書データ既に登録されていると判定した場合には、ステップS106の処理に移行し、当該辞書データに未だ登録されていないと判定した場合には、ステップS102の処理に移行する。
次いで、辞書登録管理部360は、第1の単語が辞書データ既に登録されていると判定した場合には、オノマトペパターンDB332から読み出したオノマトペパターン以外の全てのオノマトペパターンを読み出し、各オノマトペパターンに従って、第1の単語を構成する文字種「A」及び「B」に基づいて各オノマトペパターンに対応する第2の単語を生成する(ステップS106)。
例えば、辞書登録管理部360は、「ABAB」のオノマトペに基づいて第1の単語「モフモフ」を抽出した場合には、「ABっと」「AっBり」及び「ABんABん」等の他のオノマトペパターンを読み出しつつ、「モッフリ」及び「もふんもふん」等の第2の単語を生成する。
次いで、辞書登録管理部360は、第2の単語を検索キーとして、ステップS102によって読み出したアンケートデータ以外のアンケートデータであって対象となるアンケートデータを検索し、少なくとも1種の第2の単語を含むコンテンツデータを検索し(ステップS107)、その有無を判定する(ステップS108)。
このとき、辞書登録管理部360は、一以上の第2の単語を含むコンテンツデータがあると判定すると、ステップS108の処理に移行し、第2の単語を含むいずれのコンテンツデータもないと判定すると、ステップS112の処理に移行する。
次いで、辞書登録管理部360は、特定したコンテンツデータと、第1の単語を含むコンテンツデータと、の間の各類似度を算出し(ステップS109)、類似度が所定の閾値以上になるコンテンツデータの組み合わせがあるか否かを判定する(ステップS110)。
このとき、辞書登録管理部360は、類似度が所定の閾値以上のコンテンツデータの組み合わせがあると判定した場合には、ステップS111の処理に移行し、類似度が所定の閾値以上のコンテンツデータの組み合わせがないと判定した場合には、ステップS112の処理に移行する。
次いで、辞書登録管理部360は、類似度が所定の閾値以上になるコンテンツデータの組み合わせがあると判定した場合には、当該組み合わせにおける第1の単語及び第2の単語を辞書に登録する(ステップS111)。
次いで、辞書登録管理部360は、新語登録処理の実行する一のアンケートデータ(直前のステップS102の処理によって読み出したアンケートデータ)における次のオノマトペパターンの有無を判定する(ステップS112)。このとき、辞書登録管理部360は、次のオノマトペパターンがあると判定した場合には、ステップS103の処理に移行し、次のオノマトペパターンがない、すなわち、全てのオノマトペパターンについて新語登録処理を実行した場合には、ステップS121の処理に移行する。
次いで、辞書登録管理部360は、次のアンケートデータの有無を判定する(ステップS121)。このとき、辞書登録管理部360は、次のアンケートデータがあると判定した場合には、ステップS102の処理に移行し、次のアンケートデータがない、すなわち、全てのアンケートデータについて新語登録処理を実行した場合には、本動作を終了させる。
[3.2]分析レポート生成処理
次いで、図8を用いて本実施形態におけるサーバ装置30の分析レポート生成処理の動作について説明する。なお、図8は、本実施形態におけるサーバ装置30の分析レポート生成処理の動作を示すフローチャートである。
本動作においては、コンテンツデータとしてアンケートデータを用いて説明する。また、本動作においては、予めサーバ装置30のアンケートDB331及び辞書DB334には、各種のデータが記憶されているものとする。
まず、分析レポート生成部370は、図示しない操作部を介して、分析レポートを作成すべき対象となる商品等及び評価期間が入力されて当該分析レポートの作成要求を検出すると(ステップS201)、該当するアンケートデータをアンケートDB331から読み出す(ステップS202)。
次いで、分析レポート生成部370は、アンケートデータ数から評価人数を決定するとともに(ステップS203)、辞書DB334に記録された単語であって、「美味しい」又は「安い」等の評価に用いる単語に基づいて、対象となるアンケートデータ対して商品等に対する評価、及び、評価理由と、要望を示す文字列を抽出して当該商品の評価を行うテキストマイニング処理を実行する(ステップS204)。
次いで、分析レポート生成部370は、テキストマイニング処理の結果に基づいて分析レポートデータを生成するとともに(ステップS205)、図示しないモニターへの表示、図示しない出力装置によるプリントアウト、又は、所定の端末装置へのデータの提供など、当該生成した分析レポートを所定の形式によって提供して(ステップS206)、本動作を終了させる。
以上、本実施形態の通信システム1においては、コンテンツデータであるアンケートデータから抽出された所定の文字配列のパターンを有する第1の単語に基づいて、当該単語の要素を用いつつ、他の文字配列のパターンを構成する第2の単語が検出された場合には、当該第1の単語又は第2の単語を、新語として登録することができる。
したがって、本実施形態の通信システム1においては、複数の文字の組み合わせによって所定の状態を表す単語であって、複数の文字配列のパターンで表現可能な単語を、新語として登録することができるので、例えば、擬態語及び擬音語を含む擬声語(すなわち、オノマトペ)などの時代とともに変化する新語を辞書に登録することができる。
また、本実施形態の通信システム1においては、擬態語及び擬音語を含むオノマトペなどの新語を辞書に登録した状態にてコンテンツを解析することができるので、コンテンツを解析する際に的確に解析することができる。
[4]変形例
[4.1]変形例1
また、上記実施形態においては、サーバ装置30内に各DBを設け、管理及び制御する構成としたが、各DBの管理、制御主体となるコンピュータシステムは、各々、別個なコンピュータシステムによって稼働するようにしてもよい。
[4.2]変形例2
また、上記実施形態においては、アンケート分析部352をサーバ装置30に設けるようにしたが、専用のコンピュータを設けるようにしてもよい。
[5.3]変形例3
また、上記実施形態においては、テキストマイニング処理を有する分析処理に新語が登録されたサーバ装置30に記憶された辞書データを用いたが、通信端末装置10にインストールされて使用されてもよい。
1 … 通信システム
10 … 通信端末装置
30 … サーバ装置
310 … 通信制御部
320 … ROM/RAM
330 … 記録装置
331 … アンケートDB
332 … オノマトペパターンDB
334 … 辞書DB
340 … サーバ管理制御部
350 … データ処理部
360 … 辞書登録管理部
361 … 単語抽出部
362 … 検索単語生成部
363 … コンテンツ特定部
364 … 類似度算出部
365 … DB管理部
370 … 分析レポート生成部
371 … テキストマイニング処理部
372 … レポートデータ生成部
373 … レポートデータ提供部
380 … タイマ

Claims (11)

  1. 文字列を含む複数のコンテンツをコンテンツデータとして外部から取得するコンテンツ取得手段と、
    複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得手段と、
    前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出手段と、
    前記第1の単語、及び、前記取得された文字配列の他のパターンに従って、第2の単語を作成する単語作成手段と、
    前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段と、
    前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1コンテンツと、の間の類似度を算出する算出手段と、
    前記類似度が所定の条件を満たす場合に、前記第1の単語、及び、第2の単語の少なくともいずれか一方を辞書に登録する登録手段と、
    を備えることを特徴とする辞書登録管理装置。
  2. 文字配列のパターンが、擬態語及び擬音語を含む擬声語を構成するパターンである、辞書登録管理装置。
  3. 請求項1又は2に記載の辞書登録管理装置において、
    前記第1の単語、または、第2の単語が前記辞書に登録済みであるか否かを判定する判定手段を更に備え、
    前記登録手段が、前記判定手段によって未登録と判定された場合に、単語を前記辞書に登録する、辞書登録管理装置。
  4. 請求項1〜3のいずれか1項に記載の辞書登録管理装置において、
    前記算出手段が、前記第1コンテンツと前記第2コンテンツに含まれ前記辞書に登録されている単語の出現頻度を算出し、当該算出した各単語の出現頻度に基づいて前記類似度を算出する辞書登録管理装置。
  5. 請求項1〜4のいずれか1項に記載の辞書登録管理装置において、
    前記取得された文字配列のパターンが、共通する2種類の文字とその他の文字の組み合わせから構成される辞書登録管理装置。
  6. 請求項1〜5のいずれか1項に記載の辞書登録管理装置において、
    前記コンテンツ取得手段が、ネットワークを介して接続された通信端末装置から前記コンテンツデータを取得する、辞書登録管理装置。
  7. 請求項6に記載の辞書登録管理装置において、
    前記登録された辞書を前記通信端末装置に利用可能に提供する提供手段を更に備える、辞書登録管理装置。
  8. コンピュータシステムを、
    文字列を含む複数のコンテンツをコンテンツデータとして外部から取得するコンテンツ取得手段、
    複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得手段、
    前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出手段、
    前記第1の単語、及び、前記取得された文字配列の他のパターンに従って、第2の単語を作成する単語作成手段、
    前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段、
    前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1のコンテンツと、の間の類似度を算出する算出手段、
    前記類似度が所定の条件を満たす場合に、前記第1単語、及び、第2単語の少なくともいずれか一方を辞書に登録する登録手段、
    として機能させることを特徴とするプログラム。
  9. 文字列を含む複数のコンテンツをコンテンツデータとして外部から取得するコンテンツ取得ステップと、
    複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得ステップと、
    前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出ステップと、
    前記第1の単語、及び、前記取得された文字配列の他のパターンに従って、第2の単語を作成する単語作成ステップと、
    前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定ステップと、
    前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される含まれる第1コンテンツと、の間の類似度を算出する算出ステップと、
    前記類似度が所定の条件を満たす場合に、前記第1の単語、及び、第2の単語の少なくともいずれか一方を辞書に登録する登録ステップと、
    を備えることを特徴とする辞書登録方法。
  10. 文字列を含む複数のコンテンツを個々にコンテンツデータとして外部から取得するコンテンツ取得手段と、
    複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得手段と、
    前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出手段と、
    前記第1の単語、及び、前記取得された文字配列の他のパターンに従って、第2の単語を作成する単語作成手段と、
    前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段と、
    前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1コンテンツと、の間の類似度を算出する算出手段と、
    前記類似度が所定の条件を満たす場合に、前記第1の単語、及び、第2の単語の少なくともいずれか一方を辞書に登録する登録手段と、
    前記辞書に基づいてコンテンツを解析する解析手段と、
    を備えるコンテンツ解析装置。
  11. コンピュータシステムを、
    文字列を含む複数のコンテンツをコンテンツデータとして外部から取得するコンテンツ取得手段、
    複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得手段、
    前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出手段、
    前記第1の単語、及び、前記取得された文字配列の他のパターンに従って、第2の単語を作成する単語作成手段、
    前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段、
    前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1コンテンツと、の間の類似度を算出する算出手段、及び
    前記類似度が所定の条件を満たす場合に、前記第1の単語、及び、第2の単語の少なくともいずれか一方を辞書に登録する登録手段と、 前記辞書に基づいてコンテンツを解析する解析手段、
    として機能させるプログラム。

JP2012215245A 2012-09-27 2012-09-27 辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム Active JP5987608B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012215245A JP5987608B2 (ja) 2012-09-27 2012-09-27 辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012215245A JP5987608B2 (ja) 2012-09-27 2012-09-27 辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2014071541A true JP2014071541A (ja) 2014-04-21
JP5987608B2 JP5987608B2 (ja) 2016-09-07

Family

ID=50746715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012215245A Active JP5987608B2 (ja) 2012-09-27 2012-09-27 辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5987608B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020126472A (ja) * 2019-02-05 2020-08-20 国立大学法人電気通信大学 パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6016015509; 中島正貴 他1名: '造語の過程に基づく複合オノマトペの検出手法' 言語処理学会第18回年次大会発表論文集[CD-ROM] , 20120313, 69-72頁, 言語処理学会 *
JPN6016015510; 北中佑樹 他1名: '印象調査アンケートのためのオノマトペ表現による評価尺度の拡張' 電子情報通信学会技術研究報告 Vol.110 No.313, 20101127, 1-6頁, 社団法人電子情報通信学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020126472A (ja) * 2019-02-05 2020-08-20 国立大学法人電気通信大学 パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム
JP7198492B2 (ja) 2019-02-05 2023-01-04 国立大学法人電気通信大学 パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム

Also Published As

Publication number Publication date
JP5987608B2 (ja) 2016-09-07

Similar Documents

Publication Publication Date Title
US8924491B2 (en) Tracking message topics in an interactive messaging environment
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
WO2016192309A1 (zh) 推送信息的处理方法、装置、设备及非易失性计算机存储介质
JP6033697B2 (ja) 画像評価装置
JP2009176302A (ja) 推薦システム用の時間情報および場所情報の言語抽出
CN111198939B (zh) 语句相似度的分析方法、装置及计算机设备
JP2020191075A (ja) Web APIおよび関連エンドポイントの推薦
JP2009193098A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2012073966A (ja) データ生成装置、データの生成方法及びデータ生成プログラム
JP6605410B2 (ja) 感情要因推定支援装置、感情要因推定支援方法及び感情要因推定支援用プログラム
Nguyen Text as social and cultural data: a computational perspective on variation in text
KR101652433B1 (ko) Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법
US9058328B2 (en) Search device, search method, search program, and computer-readable memory medium for recording search program
KR20200064490A (ko) 프로필 자동생성서버 및 방법
JP5138621B2 (ja) 情報処理装置及び不満解決商品発見方法及びプログラム
JP5987608B2 (ja) 辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム
JP6942759B2 (ja) 情報処理装置、プログラム及び情報処理方法
JP2016181062A (ja) 投稿文から投稿者のプロフィール項目を分析する投稿者分析装置、プログラム及び方法
JP7333931B2 (ja) 投稿分析システム、投稿分析装置および投稿分析方法
JP6702625B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2015022708A (ja) マーケティング支援システム、マーケティング支援方法、プログラム及びコンピュータ記憶媒体
KR20220133665A (ko) 성격 정보 제공 서비스 장치 및 방법
CN113971581A (zh) 一种机器人的控制方法、装置、终端设备及存储介质
JP2018036756A (ja) メッセージ分類システム、メッセージ分類方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160426

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160428

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160725

R150 Certificate of patent or registration of utility model

Ref document number: 5987608

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150