JP5987608B2

JP5987608B2 - 辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム

Info

Publication number: JP5987608B2
Application number: JP2012215245A
Authority: JP
Inventors: 和久大野; 侑吾西川; 伊藤　直之; 直之伊藤
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2012-09-27
Filing date: 2012-09-27
Publication date: 2016-09-07
Anticipated expiration: 2032-09-27
Also published as: JP2014071541A

Description

本発明は、新語を登録する辞書登録管理装置、当該辞書登録管理装置を利用したコンテンツ解析装置、辞書登録方法、及び、プログラムに関する。

近年、アンケート又は投稿データなどテキストデータを含むコンテンツデータに対して言語解析を、コンピュータを用いて実行する場合には、テキストデータによって構築される文書を、単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することによって、有用な情報を取り出すテキスト解析（すなわち、テキストマイニング）を実行し、又は、当該テキストデータに対して形態素解析を実行することが知られている。

また、テキストマイニング、又は、形態素解析等の解析を的確に実行するためには、単語、助詞、品詞等の語彙が登録された各種の辞書を用いて文書を構成する各品詞を認識しつつ、これらの解析を実行するのが一般的である。

このため、辞書に未だ登録されていない新語、例えば、「きそきそ」、「もえもえ」、「モフモフ」、「ゆるふわ」「モフる」等の擬音語及び擬態語を含む擬声語、（以下「オノマトペ」という。）がアンケート等に対応するコンテンツデータに含まれている場合には、当該新語を正確に抽出できなくなるので、有用な言語解析が作成できなくなっている。

特に、オノマトペは、消費者の感想を適切に表現していることが多く、有用な言語解析を実施するためには必要であるにもかかわらず、流行に合わせて使い方や表現方法が変化するため、当該オノマトペを辞書に登録しておいても、表現方法が変化してしまい、直ぐに、有用性を確保できなくなる可能性が高い。

そこで、最近では、文章に対する形態素解析に際して、予め登録された擬音語や擬態語のパターン、及び、前後の品詞や文節の接続状態から、オノマトペと想定される文字列を抽出し、文章に対する形態素解析の正確性を向上させる装置（例えば、特許文献１）及び事前にオノマトペ専用の辞書を設け、文章中に含まれるオノマトペを抽出する装置（例えば、特許文献２）が提案されている。

特開平５−１１００９９号公報特開平１１−２０３２７８号公報

しかしながら、上記特許文献１に開示された装置にあっては、オノマトペ候補が誤っている場合でも、当該オノマトペ候補に続く単語によっては、正しいオノマトペとして抽出されてしまう可能性があり、形態素解析の正確性を確保することが難しい。

また、特許文献２に記載の装置にあっては、文章中のオノマトペを正確に特定できるものの、辞書に未登録のオノマトペを抽出することができない。

本発明は、上記課題を解決するためになされたものであり、その目的は、時代とともに変化する新語を辞書に登録することが可能な辞書登録管理装置及びその辞書登録管理装置を用いたコンテンツ解析装置等を提供することにある。

（１）上述した課題を解決するため、本発明に係る辞書登録管理装置は、文字列を含む複数のコンテンツを個々にコンテンツデータとして外部から取得するコンテンツ取得手段と、複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得手段と、前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第１の単語として、前記コンテンツデータから抽出する抽出手段と、前記第１の単語、及び、前記取得された文字配列の他のパターンに従って、第２の単語を作成する単語作成手段と、前記作成された第２の単語を含むコンテンツデータを第２のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段と、前記特定された第２のコンテンツデータによって構成される第２コンテンツと、前記第１の単語を抽出した第１のコンテンツデータによって構成される第１コンテンツと、の間の類似度を算出する算出手段と、前記類似度が所定の条件を満たす場合に、前記第１の単語、及び、第２の単語の少なくともいずれか一方を辞書に登録する登録手段と、を備える構成を有している。

この構成により、本発明に係る辞書登録管理装置は、コンテンツデータから抽出された所定の文字配列のパターンを有する第１の単語に基づいて、当該単語の要素を用いつつ、他の文字配列のパターンを構成する第２の単語が検出された場合には、当該第１の単語又は第２の単語を、新語として登録することができる。

したがって、本発明に係る辞書登録管理装置は、複数の文字の組み合わせによって所定の状態を表す単語であって、複数の文字配列のパターンで表現可能な単語を、新語として登録することができるので、例えば、擬態語及び擬音語を含む擬声語（すなわち、オノマトペ）などの時代とともに変化する新語を辞書に登録することができる。

（２）また、本発明に係る辞書登録管理装置は、文字列のパターンが、擬態語及び擬音語を含む擬声語を構成するパターンである、構成を有している。

この構成により、本発明に係る辞書登録管理装置は、時代とともに変化する擬態語及び擬音語を含む擬声語（オノマトペ）を新語として辞書に登録することができる。

（３）また、本発明に係る辞書登録管理装置は、前記第１の単語、または、第２の単語が前記辞書に登録済みであるか否かを判定する判定手段を更に備え、前記登録手段が、前記判定手段によって未登録と判定した単語を前記辞書に登録する、構成を有している。

この構成により、本発明に係る辞書登録管理装置は、既に辞書登録済みの単語の重複登録を防止することができる。

（４）また、本発明に係る辞書登録管理装置は、前記算出手段が、前記第１コンテンツと前記第２コンテンツに含まれ前記辞書に登録されている単語の出現頻度を算出し、当該算出した各単語の出現頻度に基づいて前記類似度を算出する、構成を有している。

この構成により、本発明に係る辞書登録管理装置は、コンテンツデータ間の類似度を求めることによって、第１の単語と第２の単語とが類似する文章表現で用いられているか否かを判定することができるので、第１の単語と第２の単語の類似性を判定することができる。

したがって、本発明に係る辞書登録管理装置は、複数の文字配列のパターンで表現可能であて類似性の高い単語として用いられる擬態語及び擬音語を含む擬声語（オノマトペ）を、新語として登録することができる。

（５）また、本発明に係る辞書登録管理装置は、前記文字配列のパターンが、共通する２種類の文字とその他の文字の組み合わせから構成される構成を有している。

この構成により、本発明に係る辞書登録管理装置は、２種類の文字とその他の文字の組み合わせから構成されることが多い擬態語及び擬音語を含む擬声語（オノマトペ）を的確に抽出することが可能となる。

（６）また、本発明に係る辞書登録管理装置は、前記コンテンツ取得手段が、ネットワークを介して接続された通信端末装置から前記コンテンツデータを取得する構成を有している。

この構成により、本発明に係る辞書登録管理装置は、ネットワークを介して接続される通信端末装置により投稿される、アンケートデータ、及び、投稿データ等のコンテンツから擬態語及び擬音語を含む擬声語（オノマトペ）を抽出して、辞書登録することができるので、常に新しい単語を有するオンライン辞書として、または、辞書データを端末装置に提供することができる。

（６）また、本発明に係る辞書登録管理装置は、前記登録された辞書を前記通信端末装置に利用可能に提供する提供手段を更に備える構成を有している。

この構成により、本発明に係る辞書登録管理装置は、擬態語及び擬音語を含む擬声語（オノマトペ）等の常に新しい単語を有するオンライン辞書として、または、辞書データを端末装置に提供することができる。

（７）上述した課題を解決するため、本発明に係るプログラムは、コンピュータシステムを、文字列を含む複数のコンテンツを個々にコンテンツデータとして外部から取得するコンテンツ取得手段、複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得手段、前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第１の単語として、前記コンテンツデータから抽出する抽出手段、前記第１の単語、及び、前記取得された文字配列の他のパターンに従って、第２の単語を作成する単語作成手段、前記作成された第２の単語を含むコンテンツデータを第２のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段、前記特定された第２のコンテンツデータによって構成される第２コンテンツと、前記第１の単語を抽出した第１のコンテンツデータによって構成される第１の含まれる第２コンテンツと、の間の類似度を算出する算出手段、前記類似度が所定の条件を満たす場合に、前記第１の単語、及び、第二の単語の少なくともいずれか一方を辞書に登録する登録手段、として機能させる構成を有している

この構成により、本発明に係るプログラムは、コンテンツデータから抽出された所定の文字配列のパターンを有する第１の単語に基づいて、当該単語の要素を用いつつ、他の文字配列のパターンを構成する第２の単語が検出された場合には、当該第１の単語又は第２の単語を、新語として登録することができる。

したがって、本発明に係るプログラムは、複数の文字の組み合わせによって所定の状態を表す単語であって、複数の文字配列のパターンで表現可能な単語を、新語として登録することができるので、例えば、擬態語及び擬音語を含む擬声語（すなわち、オノマトペ）などの時代とともに変化する新語を辞書に登録することができる。

（８）上述した課題を解決するため、本発明に係る辞書登録方法は、文字列を含む複数のコンテンツを個々にコンテンツデータとして外部から取得するコンテンツ取得ステップと、複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得ステップと、前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第１の単語として、前記コンテンツデータから抽出する抽出ステップと、前記第１の単語と、前記取得された文字配列の他のパターンと、に従って第２の単語を作成する単語作成ステップと、前記作成された第２の単語を含むコンテンツデータを第２のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定ステップと、前記特定された第２のコンテンツデータによって構成される第２コンテンツと、前記第１の単語を抽出した第１のコンテンツデータによって構成される含まれる第１コンテンツと、の間の類似度を算出する算出ステップと、前記類似度が所定の条件を満たす場合に、前記第１の単語、及び、第２の単語の少なくともいずれか一方を辞書に登録する登録ステップと、を備える構成を有している。

この構成により、本発明に係る辞書登録方法は、コンテンツデータから抽出された所定の文字配列のパターンを有する第１の単語に基づいて、当該単語の要素を用いつつ、他の文字配列のパターンを構成する第２の単語が検出された場合には、当該第１の単語又は第２の単語を、新語として登録することができる。

したがって、本発明に係る辞書登録方法は、複数の文字の組み合わせによって所定の状態を表す単語であって、複数の文字配列のパターンで表現可能な単語を、新語として登録することができるので、例えば、擬態語及び擬音語を含む擬声語（すなわち、オノマトペ）などの時代とともに変化する新語を辞書に登録することができる。

（９）上述した課題を解決するため、本発明に係るコンテンツ解析装置は、文字列を含む複数のコンテンツを個々にコンテンツデータとして外部から取得するコンテンツ取得手段と、複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得手段と、前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第１の単語として、前記コンテンツデータから抽出する抽出手段と、前記第１の単語、及び、前記取得された文字配列の他のパターンに従って、第２の単語を作成する単語作成手段と、前記作成された第２の単語を含むコンテンツデータを第２のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段と、前記特定された第２のコンテンツデータによって構成される第２コンテンツと、前記第１の単語を抽出した第１のコンテンツデータによって構成される第１コンテンツと、の間の類似度を算出する算出手段と、前記類似度が所定の条件を満たす場合に、前記第１の単語、及び、第２の単語の少なくともいずれか一方を辞書に登録する登録手段と、前記辞書に基づいてコンテンツを解析する解析手段と、を備える構成を有している。

この構成により、本発明に係るコンテンツ解析装置は、例えば、擬態語及び擬音語を含むオノマトペなどの新語を辞書に登録した状態にてコンテンツを解析することができるので、コンテンツを解析する際に的確に解析することができる。

（９）上述した課題を解決するため、本発明に係るプログラムは、文字列を含む複数のコンテンツを個々にコンテンツデータとして外部から取得するコンテンツ取得手段、複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得手段、前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第１の単語として、前記コンテンツデータから抽出する抽出手段、前記第１の単語、及び、前記取得された文字配列の他のパターンに従って、第２の単語を作成する単語作成手段、前記作成された第２の単語を含むコンテンツデータを第２のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段、前記特定された第２のコンテンツデータによって構成される第２コンテンツと、前記第１の単語を抽出した第１のコンテンツデータによって構成される第１コンテンツと、の間の類似度を算出する算出手段、前記類似度が所定の条件を満たす場合に、前記第１の単語、及び、第２の単語の少なくともいずれか一方を辞書に登録する登録手段、及び、前記辞書に基づいてコンテンツを解析する解析手段と、を備える、構成を有している。

この構成により、本発明に係るプログラムは、例えば、擬態語及び擬音語を含むオノマトペなどの新語を辞書に登録した状態にてコンテンツを解析することができるので、コンテンツを解析する際に的確に解析することができる。

本発明に係る辞書登録管理装置、プログラム及び辞書登録方法は、複数の文字の組み合わせによって所定の状態を表す単語であって、複数の文字配列のパターンで表現可能な単語を、新語として登録することができるので、例えば、擬態語及び擬音語を含む擬声語（すなわち、オノマトペ）などの時代とともに変化する新語を辞書に登録することができる。

また、本発明に係るコンテンツ解析装置及びプログラムは、擬態語及び擬音語を含むオノマトペなどの新語を辞書に登録した状態にてコンテンツを解析することができるので、コンテンツを解析する際に的確に解析することができる。

本発明に係る一実施形態の通信システムにおける構成を示すシステム構成図である。一実施形態において用いるオノマトペパターンの一例を示す図である。一実施形態のサーバ装置の構成を示すブロック図である。一実施形態のサーバ装置内に設けられたアンケートデータベースに記録されるデータの一例を示す図である。一実施形態のサーバ装置において実行される類似度算出処理のイメージを示す概念図である。一実施形態のサーバ装置において実行される、テキストマイニング処理を概念的に示す、イメージ図である。一実施形態のサーバ装置において実行される辞書更新処理を示すフローチャート（その１）である。一実施形態のサーバ装置において実行される辞書更新処理を示すフローチャート（その２）である。一実施形態のサーバ装置において実行される分析レポート作成処理を示すフローチャートである。

以下、図面を参照しつつ、本発明の実施形態について説明する。なお、以下の実施形態は、通信端末装置と、当該通信端末装置とネットワークを介して接続されるサーバ装置と、を有する通信システムに対し、本発明に係る、辞書登録管理装置、プログラム、辞書登録方法、コンテンツ解析装置を適用した場合の実施形態である。

［１］通信システム
まず、図１を用いて本実施形態における通信システム１の構成及び概要について説明する。なお、図１は、本実施形態における通信システム１の構成を示すシステム構成図である。また、図が煩雑になることを防止するために、図１においては、一部のユーザのみを示している。すなわち、実際の通信システム１においては、表示するよりも多数のユーザ、及び、通信端末装置が存在している。

本実施形態の通信システム１は、商品またはサービス等（以下、「商品等」という。）を購入又は利用したユーザに対して実施されたアンケート等の複数の文字列（すなわち、テキスト）を含むコンテンツデータ（以下、「アンケートデータ」という。）に対して有用な情報を取り出すためのテキスト解析（すなわち、テキストマイニング）を実行するシステムであって、例えば、コンテンツデータに基づいて商品等に対する評価、評価理由、又は、要望等のユーザ評価又はその感想を含む文書（テキスト）に基づく分析レポートを作成するためのシステムである。

そして、通信システム１は、テキストマイニングの処理（以下、「テキストマイニング処理」という。）を実行する際に、擬態語及び擬音語を含む擬声語（すなわち、オノマトペ）などの複数の文字の組み合わせによって所定の状態を表す単語であって、複数の文字配列のパターンで表現可能な単語を、新語として登録することが可能なシステムである。

上記機能を実現するため、本実施形態の通信システム１は、図１に示すように、商品等の消費ユーザ（以下、「消費者」という。）によってそれぞれ所持され、アンケートデータ等のテキストデータを提供する複数の通信端末装置１０と、ネットワーク２０と、アンケートデータに基づいて新語の登録を実行しつつ、テキストマイニング処理を実行するサーバ装置３０と、ネットワーク２０に接続された基地局ＢＳと、を有している。

なお、ネットワーク２０は、例えば、携帯電話網を含む公衆電話網と、ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）ネットワークが相互接続されて構成される。ただし、当該ネットワーク２０の構成は、これに限られない。

通信端末装置１０は、例えば、携帯型音楽プレーヤー、携帯型ゲーム機、タブレット型情報端末装置、スマートフォン、又は、携帯用電話機等のユーザによって携帯可能な通信端末装置である。そして、通信端末装置１０は、基地局ＢＳを介して、又は、直接的にネットワーク２０に接続される。

また、この通信端末装置１０は、ＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）等のマークアップ言語によって記述されているＷＷＷシステム用のリソースデータと、当該リソースデータのネットワークアドレスを示す固有のＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）とを用いつつ、サーバ装置３０と、データ通信を行うブラウジング機能を有している。そして、通信端末装置１０は、当該ブラウジング機能を用いて所定の文書を有するテキストデータを生成して、サーバ装置３０に提供する構成を有している。

本実施形態のサーバ装置３０は、通信端末装置１０から提供されたアンケート等のテキストデータに基づいて、オノマトペなど新語を登録しつつ、テキストマイニング処理を実行して当該アンケート等の文書に対する分析レポートを作成するサーバ装置である。

具体的には、サーバ装置３０は、取得したテキストデータに基づいてオノマトペなど複数の文字の組み合わせによって所定の状態を表す単語を新語として登録する新語登録処理を実行する場合には、
（１）文字列を含む複数のコンテンツ（例えば、アンケート）を個々にコンテンツデータとして外部（すなわち、通信端末装置１０）から取得し、
（２）予め定められた文字配列（例えば、共通する２種類の文字とその他の文字の組み合わせから構成される文字列）のパターン（例えば、オノマトペのパターン）をデータベースから取得し、
（３）取得したコンテンツデータ毎に、各コンテンツに含まれる文字列を配列パターンと比較し、パターンに合致する文字列を第１の単語として、コンテンツデータから抽出し、
（４）第１の単語、及び、取得した文字配列の他のパターンに従って、第２の単語を作成し、
（５）作成した第２の単語を含むコンテンツデータを第２のコンテンツデータとして他の取得した複数のコンテンツデータの中から特定し、
（６）特定した第２のコンテンツデータによって構成される第２コンテンツと、前記第１の単語を抽出した第１のコンテンツデータによって構成される第１コンテンツと、の間の類似度を算出し、
（７）類似度が所定の条件を満たす場合に、前記第１の単語、及び、第２の単語を辞書データに登録する、
構成を有している。

特に、サーバ装置３０は、第１の単語、または、第２の単語が辞書に登録済みであるか否かを判定しつつ、当該判定により未登録と判定された場合に、当該第１の単語及び第２の単語を新語として辞書データに登録する構成を有している。

そして、サーバ装置３０は、新語が登録された辞書データを用いて各通信端末装置１０のユーザによって投稿された商品等に対するコンテンツデータのテキストマイニング処理を実行し、そのレポートを作成する構成を有している。

このような構成を有することによって、本実施形態の通信システム１においては、コンテンツデータから抽出された所定の文字配列のパターンを有する第１の単語に基づいて、当該単語の要素を用いつつ、他の文字配列のパターンを構成する第２の単語が検出された場合には、当該第１の単語又は第２の単語を、新語として登録することができるようになっている。

したがって、本実施形態の通信システム１においては、複数の文字の組み合わせによって所定の状態を表す単語であって、複数の文字配列のパターンで表現可能な単語を、新語として登録することができるので、例えば、擬態語及び擬音語を含む擬声語（すなわち、オノマトペ）などの時代とともに変化する新語を辞書に登録することができるようになっている。

また、本実施形態の通信システム１においては、擬態語及び擬音語を含むオノマトペなどの新語を辞書に登録した状態にてコンテンツを解析することができるので、コンテンツを解析する際に的確に解析することができる。

なお、本実施形態においては、サーバ装置３０は、ＳＮＳ等のネットワークサービスを提供するサーバ機能を有していてもよく、各サービスを享受するサービスユーザによるブログ又はコメント等のＳＮＳを介して取得したコンテンツに基づいて新語登録処理及びテキストマイニング処理を実行してもよい。ただし、以下の実施形態においては、通信端末装置１０から取得した商品毎又はサービス毎のアンケートに基づいて、新語登録及び分析レポートの作成を行うものとして説明する。

［２］サーバ装置
［２．１］サーバ装置における新語の登録原理
次に、図２を用いて本実施形態のサーバ装置３０における新語の登録原理について説明する。なお、図２は、代表的なオノマトペパターンを示す図である。

本実施形態のサーバ装置３０は、複数の文字の組み合わせによって所定の状態を表す単語を新語として登録するための構成を有している。具体的には、サーバ装置３０は、共通する２種類の文字とその他の文字の組み合わせから構成されるとともに、異なる２種類の文字配列のパターンを有し、かつ、それぞれ類似する意味を持つ擬態語及び擬音語を含む擬声語であるオノマトペを新語として登録することができるように構成されている。

一般的に、オノマトペは、人間、動物又は物が発する音、及び、感情又は状態を表現する音であり、図２に示すように、「Ａ」と「Ｂ」が異なる文字種とすると、
（１）ＡＢＡＢ、
（２）ＡっＢり、
（３）ＡんＢり、
（４）ＡＢっと、
（５）ＡっＢん、
（６）ＡＢりと、
（７）ＡＢんと、
（８）ＡＢと
（９）ＡＢんＡＢん
（１０）ＡＢりＡＢり
の１０パターンの文字配列のパターンによって定義される。

なお、図２においては、各オノマトペパターンの「Ａ」及び「Ｂ」に所定の文字を当てはめた場合の単語（オノマトペ）の例としてパターンＩＤ「ａ」において、「Ａ＝が」、「Ｂ＝た」の場合、及び、「Ａ＝ど」、「Ｂ＝き」の場合を示している。

また、オノマトペは、単語の文字配列を変えた複数のパターンにおいては、類似する意味を有することが多く、少なくとも２つの文字配列のパターンを有し、かつ、類似する表現に用いられていれば、オノマトペとして認定することができる。しかしながら、２つの新しい単語においてそれらが類似しているか否かを直接的に判断することは難しく、新たな基準を導入する必要がある。

そこで、本実施形態のサーバ装置３０は、
（１）上記のパターンを用いて第１の単語を検出し、
（２）当該第１の単語とオノマトペのパターンに基づいて第２の単語を生成し、
（３）当該第１の単語を検出した文書と第２の単語を有する文書の類似度を算出し、
（４）算出した類似度に基づいて、第１の単語と第２の単語との類似性を判定し、
（５）判定結果に基づいて、第１の単語及び第２の単語を新語として辞書に登録するようになっている。

すなわち、２つの新しい単語がそれぞれ含まれる異なる２つの文書において、高い類似度を示す場合（すなわち、内容的に似ている場合）には、２つの単語が同一又は類似する事象を表現していると想定され、２つのそれぞれの単語が類似していると想定することができる。その一方、２つの文書において、類似度が低い場合（すなわち、内容的にかけ離れている場合）には、２つの単語が異なる事象を表現しているため、２つのそれぞれの単語が非類似であると想定することができる。

したがって、本実施形態のサーバ装置３０は、当該原理を用いることによって、２つの単語の類似性を判定し、その結果に基づいて、第１の単語及び第２の単語を新語として辞書に登録することができるようになっている。

例えば、第１の単語が「モフモフ」であり「モ」と「フ」を用いて、第２の単語として「モフっと」、「モッフり」、及び、「モんフり」が生成された場合に、サーバ装置３０は、これら「モフっと」、「モッフり」、及び、「もんふり」が使われている他の文書と、「第１の単語「モフモフ」を含む文章と、の類似度を算出する。そして、「モッフり」、及び、「モフっと」を含むコンテンツデータに関する類似度のみが閾値を超え、「もんふり」を含むコンテンツデータについては類似度が閾値を超えない場合には、「モフモフ」及び「モッフり」、及び「モフっと」のみを辞書登録の対象とし、「もんふり」については、登録の対象から除外するようになっている。ただし、サーバ装置３０は、「モフモフ」が既に辞書データに登録済みと判定した場合には、登録対象から除外するようになっている。

［２．２］サーバ装置の構成
次に、図３及び図４を用いて本実施形態のサーバ装置３０の構成について説明する。なお、図３は、本実施形態のサーバ装置３０の構成を示すブロック図であり、図４は、本実施形態のサーバ装置３０内に設けられるアンケートＤＢ３３１に記録されるデータの一例を示す図である。

本実施形態のサーバ装置３０は、図３に示すように、ネットワーク２０に接続される通信制御部３１０と、各種のメモリとして機能するＲＯＭ／ＲＡＭ３２０と、各種のＤＢを有する記録装置３３０と、装置全体を制御するサーバ管理制御部３４０と、所定のタイミングにて、辞書更新処理、分析レポート作成処理、及び、その他の処理を実行するデータ処理部３５０と、現在日時を特定するためのタイマ３８０と、を有する。なお、上記の各部は、バスＢによって相互に接続され、各構成要素間におけるデータの転送が実行される。

通信制御部３１０は、所定のネットワークインターフェースであり、通信端末装置１０と通信チャネルを構築し、各種データの授受を行う。

ＲＯＭ／ＲＡＭ３２０には、サーバ装置３０の駆動に必要な各種のプログラムが記録されている。また、ＲＯＭ／ＲＡＭ３２０は、各種の処理が実行される際のワークエリアとして用いられる。

記録装置３３０は、ＨＤＤ、又は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）により構成され、その記録領域内に、少なくとも、アンケートＤＢ３３１と、オノマトペパターンＤＢ３３２と、辞書ＤＢ３３４と、が設けられている。

アンケートＤＢ３３１は、商品等の消費者が通信端末装置１０を用いて回答したアンケートデータを格納（記録）するためのデータベースであり、例えば、図４に示すように、
（１）各商品等を識別するための商品等ＩＤと、
（２）各商品等に関するアンケートに回答した消費者を識別する消費者ＩＤと、
（３）各商品の商品名と、
（４）ユーザ（消費者）により入力された回答が記載されたアンケートデータと、
が対応付けて登録される。

特に、図４は、アンケートＤＢ３３１に、商品ＩＤ「１０１」により特定される「猫カフェ」について消費者ＩＤ「１０１」、「１０２」、「１０３」、「１０４」及び「１０５」に対応する消費者によって解答された以下のような文書を有するアンケートデータが記録されている状態を例示している。
（１）消費者「１０１」：「猫が、モフモフしてとても可愛い。」：評価「☆☆☆」
（２）消費者「１０２」：「ふわふわなサンドイッチが美味しい。」：評価「☆☆☆☆☆」
（３）消費者「１０３」：「お手頃。」：評価「☆☆☆」
（４）消費者「１０４」：「もう少しサンドイッチにもっちり感が欲しい。」：評価「☆☆」、
（５）消費者「１０５」：「近いからいきやすい。」：評価「☆☆☆」

なお、回答日時は、アンケートデータがサーバ装置３０により受信された日時をタイマ３８０によって特定することにより定められる。また、消費者ＩＤは、商品等の購入時、又は、利用時にユーザ登録を行うことによって、商品等の提供者によって割り当てられるものである。さらに、各アンケートデータには、製造メーカに関する情報、商品のイメージ等の各種の内容が含まれる。

オノマトペパターンＤＢ３３２は、上述した１０個のオノマトペパターンを記録するためのＤＢであり、例えば、図２に示すように、各オノマトペパターンを識別するためのオノマトペＩＤと対応付けてオノマトペパターンが記録される。

辞書ＤＢ３３４は、名詞、助詞、助動詞、擬態語及び擬音語を含む擬声語、活用語尾等の一般的な語彙が登録された辞書データが記録され、コンテンツデータ分割処理の実行時に用いられるデータベースである。

サーバ管理制御部３４０は、主に中央演算処理装置（ＣＰＵ）によって構成され、プログラムを実行することによって、サーバ装置３０の各部を統合制御する。

データ処理部３５０は、各種のアプリケーションを実行することにより、各種の機能を実現する。特に、データ処理部３５０は、新語を検出するとともに、当該新語を検出し場合に当該検出した単語を辞書データに登録する新語登録処理と、登録された新語を含む辞書データに基づいてアンケートデータに対するテキストマイニング処理を実行して分析レポートを作成する分析処理と、を実行する。

具体的には、データ処理部３５０は、新語登録処理を実行する辞書登録管理部３６０と、新テキストマイニング処理を含む分析処理を実行する分析レポート生成部３７０と、を有している。そして、辞書登録管理部３６０は、少なくとも、単語抽出部３６１、検索単語生成部３６２、コンテンツ特定部３６３、類似度算出部３６４及びＤＢ管理部３６５を含み、分析レポート生成部３７０は、テキストマイニング処理部３７１、レポートデータ生成部３７２及びレポートデータ提供部３７３を含む。

例えば、本実施形態の単語抽出部３６１は、本発明に係る抽出手段を構成し、検索単語生成部３６２は、本発明に係る単語生成手段を構成する。また、例えば、本実施形態のコンテンツ特定部３６３は、本発明に係る特定手段を構成し、類似度算出部３６４は、本発明に係る算出手段を構成する。さらに、例えば、本実施形態のＤＢ管理部３６５は、本発明に係る登録手段を構成し、分析レポート生成部３７０は、本発明の解析手段を構成する。

なお、本実施形態のデータ処理部３５０における辞書登録管理部３６０及び分析レポート生成部３７０の詳細については後述する。

［２．３］辞書登録管理部
次に、図５を用いて本実施形態のデータ処理部３５０における辞書登録管理部３６０について説明する。なお、図５は、本実施形態のサーバ装置３０において実行される類似度算出処理を概念的に示すイメージ図である。

本実施形態の辞書登録管理部３６０は、所与のタイミングにて、アンケートデータによって構成される文書と、オノマトペパターンＤＢ３３２に記録されたオノマトペパターンと、に基づいて、第１の単語を抽出するとともに、当該抽出した第１の単語に基づいて第２の単語を生成し、辞書ＤＢ３３４内の辞書に登録及び管理するための新語登録処理を実行する。

なお、辞書登録管理部３６０は、任意のタイミングにおいて新語登録処理を実行する。また、オノマトペパターン毎にかつアンケートデータ毎に新語登録処理を実行してもよいし、複数のオノマトペパターンに対して、アンケートデータ毎に、又は、全てのアンケートデータに対して同時に並列的に新語登録処理を実行してもよい。

単語抽出部３６１は、例えば、特定の日、曜日又は分析レポートの生成を希望するユーザから指定されたタイミング等の所定のタイミングに、特定の商品、特定のサービス又は特定の商品の製造メーカ等の対象となるアンケートデータを読み出す。そして、単語抽出部３６１は、読み出したアンケートデータに対してオノマトペパターンＤＢ３３２に記録されている各オノマトペパターンと同一のパターンを有する文字列を検索し、該当する文字列がある場合には、当該文字列を第１の単語として抽出する。

また、単語抽出部３６１は、このとき、抽出した文字列が辞書ＤＢ３３４に既に登録されているか否かを判定し、既に登録されていると判定した抽出した文字列については、新語登録処理を中断する。

具体的には、単語抽出部３６１は、対象となるアンケートデータを読み出してＲＯＭ／ＲＡＭ３２０に展開するとともに、各オノマトペパターンと、展開されたアンケートデータに含まれる文書と、を比較し、当該オノマトペパターンに合致する文字列を第１の単語として抽出する。

例えば、単語抽出部３６１は、「ＡＢＡＢ」のオノマトペパターンの場合には、展開されたアンケートデータの中から、「どきどき」、「がたがた」、「モフモフ」、「モエモエ」又は「パクパク」等の文字種「ＡＢ」が反復されている文字列を第１の単語として抽出する。

そして、単語抽出部３６１は、抽出した第１の単語を検索キーに辞書ＤＢ３３４に既に登録されているか否かを判定するとともに、既に登録されていると判定した第１の単語については、新語登録処理を中断し、未だ登録されていない判定した第１の単語については、検索単語生成部３６２に第２の単語の生成処理を実行させる。

検索単語生成部３６２は、単語抽出部３６１によって抽出された第１の単語であって、未だ辞書データに登録されていないと判定した第１の単語の場合に、当該第１の単語に基づいて第２の単語を生成する。

具体的には、検索単語生成部３６２は、オノマトペパターンＤＢ３３２に記録されたオノマトペパターンに基づいて、第１の単語を構成する「Ａ」及び「Ｂ」に該当する２種類の文字を他のオノマトペパターンに組み合わせて、他のオノマトペパターンを有する第２の単語を作成する。

例えば、単語抽出部３６１によって抽出された第１の単語として、「ＡＢＡＢ」のオノマトペパターンの「どきどき」が用いられる場合には、検索単語生成部３６２は、「ＡっＢり」、「ＡんＢり」、「ＡＢっと」、「ＡっＢん」、「ＡＢりと」、「ＡＢんと」及び「ＡＢＡＢと」等に基づいて、「どっきり」、「どんきり」、「どきっと」、「どっきん」、「どきりと」「どきんと」及び「どきどきと」等、他の全てのオノマトペパターンを有する第２の単語を生成する。

コンテンツ特定部３６３は、検索単語生成部３６２によって生成された各第２の単語毎に当該第２の単語を含む、コンテンツデータであるアンケートデータを特定する。

具体的には、コンテンツ特定部３６３は、生成された複数の第２の単語毎に、当該第２の単語を検索キーとして、アンケートＤＢ３３１を検索し、当該第２の単語を含むコンテンツデータを特定する。そして、コンテンツ特定部３６３は、当該特定したコンテンツデータをＲＯＭ／ＲＡＭ３２０に一時記録する。

類似度算出部３６４は、検索単語生成部３６２によって抽出された第１の単語を有する第１コンテンツデータであるアンケートデータと、コンテンツ特定部３６３によって特定された（ＲＯＭ／ＲＡＭに一時記録された）コンテンツデータとの各類似度を算出する類似度算出処理を実行する。

具体的には、類似度算出部３６４は、形態素解析によって各コンテンツデータからキーワードを検出しつつ、当該検出したキーワードのコンテンツデータ全体における出現回数と、各コンテンツデータに対応する文書毎のキーワードにおける出現回数と、に基づいて、ＴＦ−ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ−ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）の各値を算出する。すなわち、類似度算出部３６４は、形態素解析によって検出された単語をキーワード（Ｋｅｙｊ）に設定し、当該キーワード（Ｋｅｙｊ）毎に、全体の出現回数の逆数Ｋｅｙｊ（ＩＤＦ）と、各アンケートデータにおける出現回数Ｋｅｙｊ（ＴＦ）との積Ｋｅｙｎ（ＴＦ／ＩＤＦ）を算出する。なお、ここで「ｊ」は、キーワードの識別番号を示す。

そして、類似度算出部３６４は、各アンケートデータの文書間についてのベクトル空間上における距離をそれぞれ算出し、第１の単語を検出したアンケートデータと他のアンケートデータとの類似度を算出する。例えば、類似度算出部３６４は、（式１）によって第１の単語を検出したアンケートデータの文書（Ａ）と第２の単語を有する他のアンケートデータの文書（Ｂｎ）とにおけるコサイン類似度ｓｉｍを算出する。

なお、「Ａ」は、（式２）に示すように対象となる第１の単語を検出したアンケートデータにおける文書のキーワードの出現割合のベクトルであり、「Ｂ」は、（式３）に示すように、第２の単語に基づいて特定されたアンケートデータにおける文書の同一のキーワードの出現割合のベクトルである。なお、「ｎ」は、生成された各第２の単語を含むコンテンツデータの識別番号を示し、「ｔ」「ｓｊ」は、各々、各単語の出現回数の割合を示す。

なお、図５には、第１の単語「もふもふ」を含むコンテンツデータの文書において、「猫が２０回」「ぬいぐるみが１５回」「羊が５回」出現するとともに、第２の単語として生成された「もっふり」を含むコンテンツデータの文書において、「猫が１８回」「うさぎが１３回」「羊が２５回」出現し、また、第２の単語として生成された「もんふり」を含むコンテンツデータにおいて、「くまもんが１０回」「ふりかけが１０回」「お土産が５回」出現している状態が示されている。

ＤＢ管理部３６５は、通信端末装置１０から適宜送信されたアンケートデータを商品毎又はサービス毎にコンテンツＤＢ３３２に登録し、その管理を行う。特に、ＤＢ管理部３６５は、受け付けたアンケートデータについてタイマ３８０に基づいて受信日時を取得し、アンケートデータとともにコンテンツＤＢ３３２に登録する。

また、ＤＢ管理部３６５は、新語登録処理において登録すべき単語が検出された場合に、当該単語を辞書ＤＢ３３４に登録する。特に、ＤＢ管理部３６５は、（式１）によって算出された類似度を所定の閾値と比較して所定の閾値（例えば、０．６）以上の類似度を有する第１の単語及び第２の単語を辞書ＤＢ３３４に登録する。なお、ＤＢ管理部３６５は、閾値未満となる第１の単語及び第２の単語については、辞書ＤＢ３３４に登録しない。

［２．４］分析レポート作成部
次に、図６を用いて本実施形態のデータ処理部３５０における分析レポート生成部３７０について説明する。なお、図６は、本実施形態のサーバ装置３０において実行されるテキストマイニング処理の概念的に示すイメージ図である。

本実施形態の分析レポート生成部３７０は、商品等の提供者からの要求がネットワーク２０を介して入力された場合に、又は、図示せぬ操作部を介してレポート作成指示がなされた場合に、アンケートデータに基づいて分析レポートを作成するためのレポート作成処理を実行する。

なお、分析レポート生成部３７０は、分析レポートの作成対象となる商品又はサービスと、分析レポートの作成対象期間を定める入力を受け付ける。

特に、分析レポート生成部３７０は、
（１）商品又は期間などの対象となるアンケートデータをアンケートＤＢ３３１から読み出し、
（２）辞書ＤＢ３３４に記録された単語に基づいて、読み出したアンケートデータに対するテキストマイニング処理を実行し、
（３）テキストマイニング処理の結果に基づいて所定形式の分析レポートを生成する
各処理を実行する。

テキストマイニング実行部３７１は、分析レポートの作成対象となる商品等に対するアンケートデータを読み出しつつ、辞書ＤＢ３３４に記録された単語に基づいて、読み出したアンケートデータに対するテキストマイニング処理を実行する。

レポートデータ生成部３７２は、商品又はサービス等のアンケートデータのアンケート対象に対して、アンケートデータに基づき評価項目等の所定の項目を有するレポートデータを生成する。例えば、レポートデータ生成部３７２は、図７に示すように、消費者の評価と、その評価を行った理由と、要望と、を含む分析レポートデータを生成する。

レポートデータ提供部３７３は、生成された分析レポートデータに基づいて、画像、音声印刷物等の形式にて、分析レポートを出力する。例えば、レポートデータ提供部３７３は、図７に示すように、分析レポートとして
（１）評価人数：３０人
（２）評価時期：２０１２／０１／０１〜２０１２／０９／１０
（３）総合評価：☆☆☆
（４）商品への評価：「美味しい：Ｘ％」：「安い：Ｙ％」：「どこでも買える：Ｚ％」
（５）美味しい理由：「ほわっとした食感：Ｓ％」：「辛味が利いている：Ｔ％」：「さっぱりしている：Ｕ％」：「柔らかい：Ｖ％」
（６）要望：「モフモフした食感が欲しい：Ｅ％」
が生成される。

［３］通信システムの動作
［３．１］新語登録処理
次に、図７を用いて本実施形態におけるサーバ装置３０の新語登録処理の動作について説明する。なお、図７は、本実施形態におけるサーバ装置３０の新語登録処理の動作を示すフローチャートである。

本動作においては、コンテンツデータとしてアンケートデータを用いて説明する。また、本動作においては、予めサーバ装置３０のアンケートＤＢ３３１、オノマトペパターンＤＢ３３２及び辞書ＤＢ３３４の各ＤＢには、各データが記録されているものとする。

まず、辞書登録管理部３６０は、辞書登録のタイミングを検出すると（ステップＳ１００）、予め定められた順番に従って対象となる一のアンケートデータを読み出してＲＯＭ／ＲＡＭ３２０に展開するとともに（ステップＳ１０１）、オノマトペパターンＤＢ３３２の中の一のオノマトペパターン（例えば「ＡＢＡＢ」）を選択する（ステップＳ１０２）。

次いで、辞書登録管理部３６０は、読み出したアンケートデータに含まれる文書から一のパターンに合致する文字列の有無を判定する（ステップＳ１０３）。このとき、辞書登録管理部３６０は、当該文字配列のパターンに合致する文字列が１種以上含まれていると判定した場合には、ステップＳ１０５の処理に移行し、所定のパターンに合致する文字列が１種以上含まれていると判定すると、ステップＳ１１２の処理に移行する。

次いで、辞書登録管理部３６０は、所定のパターンに合致する文字列を第１の単語として抽出し、ＲＯＭ／ＲＡＭ３２０に一時記録する（ステップＳ１０４）。このとき、辞書登録管理部３６０は、複数種類の文字列のパターンが存在する場合には、全ての文字列を第１の単語として抽出する。また、例えば、辞書登録管理部３６０は、「モフモフ」となる第１の単語を抽出してＲＯＭ／ＲＡＭ３２０に一時記録する。

次いで、辞書登録管理部３６０は、抽出した第１の単語に基づいて辞書ＤＢ３３４を検索し、辞書データに既に抽出した第１の単語が登録されている否かを判定する（ステップＳ１０５）。このとき、辞書登録管理部３６０は、第１の単語が辞書データ既に登録されていると判定した場合には、ステップＳ１０６の処理に移行し、当該辞書データに未だ登録されていないと判定した場合には、ステップＳ１０２の処理に移行する。

次いで、辞書登録管理部３６０は、第１の単語が辞書データ既に登録されていると判定した場合には、オノマトペパターンＤＢ３３２から読み出したオノマトペパターン以外の全てのオノマトペパターンを読み出し、各オノマトペパターンに従って、第１の単語を構成する文字種「Ａ」及び「Ｂ」に基づいて各オノマトペパターンに対応する第２の単語を生成する（ステップＳ１０６）。

例えば、辞書登録管理部３６０は、「ＡＢＡＢ」のオノマトペに基づいて第１の単語「モフモフ」を抽出した場合には、「ＡＢっと」「ＡっＢり」及び「ＡＢんＡＢん」等の他のオノマトペパターンを読み出しつつ、「モッフリ」及び「もふんもふん」等の第２の単語を生成する。

次いで、辞書登録管理部３６０は、第２の単語を検索キーとして、ステップＳ１０２によって読み出したアンケートデータ以外のアンケートデータであって対象となるアンケートデータを検索し、少なくとも１種の第２の単語を含むコンテンツデータを検索し（ステップＳ１０７）、その有無を判定する（ステップＳ１０８）。

このとき、辞書登録管理部３６０は、一以上の第２の単語を含むコンテンツデータがあると判定すると、ステップＳ１０８の処理に移行し、第２の単語を含むいずれのコンテンツデータもないと判定すると、ステップＳ１１２の処理に移行する。

次いで、辞書登録管理部３６０は、特定したコンテンツデータと、第１の単語を含むコンテンツデータと、の間の各類似度を算出し（ステップＳ１０９）、類似度が所定の閾値以上になるコンテンツデータの組み合わせがあるか否かを判定する（ステップＳ１１０）。

このとき、辞書登録管理部３６０は、類似度が所定の閾値以上のコンテンツデータの組み合わせがあると判定した場合には、ステップＳ１１１の処理に移行し、類似度が所定の閾値以上のコンテンツデータの組み合わせがないと判定した場合には、ステップＳ１１２の処理に移行する。

次いで、辞書登録管理部３６０は、類似度が所定の閾値以上になるコンテンツデータの組み合わせがあると判定した場合には、当該組み合わせにおける第１の単語及び第２の単語を辞書に登録する（ステップＳ１１１）。

次いで、辞書登録管理部３６０は、新語登録処理の実行する一のアンケートデータ（直前のステップＳ１０２の処理によって読み出したアンケートデータ）における次のオノマトペパターンの有無を判定する（ステップＳ１１２）。このとき、辞書登録管理部３６０は、次のオノマトペパターンがあると判定した場合には、ステップＳ１０３の処理に移行し、次のオノマトペパターンがない、すなわち、全てのオノマトペパターンについて新語登録処理を実行した場合には、ステップＳ１２１の処理に移行する。

次いで、辞書登録管理部３６０は、次のアンケートデータの有無を判定する（ステップＳ１２１）。このとき、辞書登録管理部３６０は、次のアンケートデータがあると判定した場合には、ステップＳ１０２の処理に移行し、次のアンケートデータがない、すなわち、全てのアンケートデータについて新語登録処理を実行した場合には、本動作を終了させる。

［３．２］分析レポート生成処理
次いで、図８を用いて本実施形態におけるサーバ装置３０の分析レポート生成処理の動作について説明する。なお、図８は、本実施形態におけるサーバ装置３０の分析レポート生成処理の動作を示すフローチャートである。

本動作においては、コンテンツデータとしてアンケートデータを用いて説明する。また、本動作においては、予めサーバ装置３０のアンケートＤＢ３３１及び辞書ＤＢ３３４には、各種のデータが記憶されているものとする。

まず、分析レポート生成部３７０は、図示しない操作部を介して、分析レポートを作成すべき対象となる商品等及び評価期間が入力されて当該分析レポートの作成要求を検出すると（ステップＳ２０１）、該当するアンケートデータをアンケートＤＢ３３１から読み出す（ステップＳ２０２）。

次いで、分析レポート生成部３７０は、アンケートデータ数から評価人数を決定するとともに（ステップＳ２０３）、辞書ＤＢ３３４に記録された単語であって、「美味しい」又は「安い」等の評価に用いる単語に基づいて、対象となるアンケートデータ対して商品等に対する評価、及び、評価理由と、要望を示す文字列を抽出して当該商品の評価を行うテキストマイニング処理を実行する（ステップＳ２０４）。

次いで、分析レポート生成部３７０は、テキストマイニング処理の結果に基づいて分析レポートデータを生成するとともに（ステップＳ２０５）、図示しないモニターへの表示、図示しない出力装置によるプリントアウト、又は、所定の端末装置へのデータの提供など、当該生成した分析レポートを所定の形式によって提供して（ステップＳ２０６）、本動作を終了させる。
以上、本実施形態の通信システム１においては、コンテンツデータであるアンケートデータから抽出された所定の文字配列のパターンを有する第１の単語に基づいて、当該単語の要素を用いつつ、他の文字配列のパターンを構成する第２の単語が検出された場合には、当該第１の単語又は第２の単語を、新語として登録することができる。

したがって、本実施形態の通信システム１においては、複数の文字の組み合わせによって所定の状態を表す単語であって、複数の文字配列のパターンで表現可能な単語を、新語として登録することができるので、例えば、擬態語及び擬音語を含む擬声語（すなわち、オノマトペ）などの時代とともに変化する新語を辞書に登録することができる。

［４］変形例
［４．１］変形例１
また、上記実施形態においては、サーバ装置３０内に各ＤＢを設け、管理及び制御する構成としたが、各ＤＢの管理、制御主体となるコンピュータシステムは、各々、別個なコンピュータシステムによって稼働するようにしてもよい。

［４．２］変形例２
また、上記実施形態においては、アンケート分析部３５２をサーバ装置３０に設けるようにしたが、専用のコンピュータを設けるようにしてもよい。

［５．３］変形例３
また、上記実施形態においては、テキストマイニング処理を有する分析処理に新語が登録されたサーバ装置３０に記憶された辞書データを用いたが、通信端末装置１０にインストールされて使用されてもよい。

１ … 通信システム
１０ … 通信端末装置
３０ … サーバ装置
３１０ … 通信制御部
３２０ … ＲＯＭ／ＲＡＭ
３３０ … 記録装置
３３１ … アンケートＤＢ
３３２ … オノマトペパターンＤＢ
３３４ … 辞書ＤＢ
３４０ … サーバ管理制御部
３５０ … データ処理部
３６０ … 辞書登録管理部
３６１ … 単語抽出部
３６２ … 検索単語生成部
３６３ … コンテンツ特定部
３６４ … 類似度算出部
３６５ … ＤＢ管理部
３７０ … 分析レポート生成部
３７１ … テキストマイニング処理部
３７２ … レポートデータ生成部
３７３ … レポートデータ提供部
３８０ … タイマ

Claims

文字列を含む複数のコンテンツをコンテンツデータとして外部から取得するコンテンツ取得手段と、
複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列の配列パターンであって、任意の文字を表し、他の配列パターンと共通する文字種を有する複数の配列パターンを取得するパターン取得手段と、
前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記取得された各配列パターンと比較し、前記配列パターンに合致する文字列を第１の単語として、前記コンテンツデータから抽出する抽出手段と、
前記第１の単語、及び、前記取得された複数の配列パターンのうち前記第１の単語の抽出に用いた配列パターンとは異なる他の配列パターンに従って、第２の単語を作成する単語作成手段と、
前記作成された第２の単語を含むコンテンツデータを第２のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段と、
前記特定された第２のコンテンツデータによって構成される第２コンテンツと、前記第１の単語を抽出した第１のコンテンツデータによって構成される第１コンテンツと、の間の類似度を算出する算出手段と、
前記類似度が所定の条件を満たす場合に、前記第１の単語、及び、前記第２の単語の少なくともいずれか一方を辞書に登録する登録手段と、
を備え、
前記単語作成手段が、
前記抽出された第１の単語に含まれる文字であって、前記第１の単語を抽出する際に用いた配列パターンにおいて他の配列パターンと共通する文字種に該当する文字を特定し、
前記他の配列パターンにおける前記共通する文字種の部分に、前記特定した文字を当てはめて前記第２の単語を作成することを特徴とする辞書登録管理装置。
請求項１に記載の辞書登録管理装置において、
前記配列パターンが、擬態語及び擬音語を含む擬声語を構成するパターンである、辞書登録管理装置。
請求項１又は２に記載の辞書登録管理装置において、
前記第１の単語、または、第２の単語が前記辞書に登録済みであるか否かを判定する判定手段を更に備え、
前記登録手段が、前記判定手段によって未登録と判定された場合に、単語を前記辞書に登録する、辞書登録管理装置。
請求項１〜３のいずれか１項に記載の辞書登録管理装置において、
前記算出手段が、前記第１コンテンツと前記第２コンテンツに含まれ前記辞書に登録されている単語の出現頻度を算出し、当該算出した各単語の出現頻度に基づいて前記類似度を算出する辞書登録管理装置。
請求項１〜４のいずれか１項に記載の辞書登録管理装置において、
前記取得された配列パターンが、共通する２種類の文字とその他の文字の組み合わせから構成される辞書登録管理装置。
請求項１〜５のいずれか１項に記載の辞書登録管理装置において、
前記コンテンツ取得手段が、ネットワークを介して接続された通信端末装置から前記コンテンツデータを取得する、辞書登録管理装置。
請求項６に記載の辞書登録管理装置において、
前記登録された辞書を前記通信端末装置に利用可能に提供する提供手段を更に備える、辞書登録管理装置。
コンピュータシステムを、
文字列を含む複数のコンテンツをコンテンツデータとして外部から取得するコンテンツ取得手段、
複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列の配列パターンであって、任意の文字を表し、他の配列パターンと共通する文字種を有する複数の配列パターンを取得するパターン取得手段、

前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記取得された各配列パターンと比較し、前記配列パターンに合致する文字列を第１の単語として、前記コンテンツデータから抽出する抽出手段、
前記第１の単語、及び、前記取得された複数の配列パターンのうち前記第１の単語の抽出に用いた配列パターンとは異なる他の配列パターンに従って、第２の単語を作成する単語作成手段、
前記作成された第２の単語を含むコンテンツデータを第２のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段、
前記特定された第２のコンテンツデータによって構成される第２コンテンツと、前記第１の単語を抽出した第１のコンテンツデータによって構成される第１のコンテンツと、の間の類似度を算出する算出手段、
前記類似度が所定の条件を満たす場合に、前記第１の単語、及び、前記第２の単語の少なくともいずれか一方を辞書に登録する登録手段、
として機能させ、
前記単語作成手段が、
前記抽出された第１の単語に含まれる文字であって、前記第１の単語を抽出する際に用いた配列パターンにおいて他の配列パターンと共通する文字種に該当する文字を特定し、
前記他の配列パターンにおける前記共通する文字種の部分に、前記特定した文字を当てはめて前記第２の単語を作成することを特徴とするプログラム。
コンピュータが実行する辞書登録方法であって、
文字列を含む複数のコンテンツをコンテンツデータとして外部から取得するコンテンツ取得ステップと、
複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列の配列パターンであって、任意の文字を表し、他の配列パターンと共通する文字種を有する複数の配列パターンを取得するパターン取得ステップと、
前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記取得された各配列パターンと比較し、前記配列パターンに合致する文字列を第１の単語として、前記コンテンツデータから抽出する抽出ステップと、
前記第１の単語、及び、前記取得された複数の配列パターンのうち前記第１の単語の抽出に用いた配列パターンとは異なる他の配列パターンに従って、第２の単語を作成する単語作成ステップと、
前記作成された第２の単語を含むコンテンツデータを第２のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定ステップと、
前記特定された第２のコンテンツデータによって構成される第２コンテンツと、前記第１の単語を抽出した第１のコンテンツデータによって構成される含まれる第１コンテンツと、の間の類似度を算出する算出ステップと、
前記類似度が所定の条件を満たす場合に、前記第１の単語、及び、前記第２の単語の少なくともいずれか一方を辞書に登録する登録ステップと、
を備え、
前記第２の単語を作成する際に、
前記抽出された第１の単語に含まれる文字であって、前記第１の単語を抽出する際に用いた配列パターンにおいて他の配列パターンと共通する文字種に該当する文字を特定し、
前記他の配列パターンにおける前記共通する文字種の部分に、前記特定した文字を当てはめて前記第２の単語を作成することを特徴とする辞書登録方法。
文字列を含む複数のコンテンツを個々にコンテンツデータとして外部から取得するコンテンツ取得手段と、
複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列の配列パターンであって、任意の文字を表し、他の配列パターンと共通する文字種を有する複数の配列パターンを取得するパターン取得手段と、
前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記取得された各配列パターンと比較し、前記配列パターンに合致する文字列を第１の単語として、前記コンテンツデータから抽出する抽出手段と、
前記第１の単語、及び、前記取得された複数の配列パターンのうち前記第１の単語の抽出に用いた配列パターンとは異なる他の配列パターンに従って、第２の単語を作成する単語作成手段と、
前記作成された第２の単語を含むコンテンツデータを第２のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段と、
前記特定された第２のコンテンツデータによって構成される第２コンテンツと、前記第１の単語を抽出した第１のコンテンツデータによって構成される第１コンテンツと、の間の類似度を算出する算出手段と、
前記類似度が所定の条件を満たす場合に、前記第１の単語、及び、前記第２の単語の少なくともいずれか一方を辞書に登録する登録手段と、
前記辞書に基づいてコンテンツを解析する解析手段と、
を備え、
前記単語作成手段が、
前記抽出された第１の単語に含まれる文字であって、前記第１の単語を抽出する際に用いた配列パターンにおいて他の配列パターンと共通する文字種に該当する文字を特定し、
前記他の配列パターンにおける前記共通する文字種の部分に、前記特定した文字を当てはめて前記第２の単語を作成するコンテンツ解析装置。
コンピュータシステムを、
文字列を含む複数のコンテンツをコンテンツデータとして外部から取得するコンテンツ取得手段、
複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列の配列パターンであって、任意の文字を表し、他の配列パターンと共通する文字種を有する複数の配列パターンを取得するパターン取得手段、
前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記取得された各配列パターンと比較し、前記配列パターンに合致する文字列を第１の単語として、前記コンテンツデータから抽出する抽出手段、
前記第１の単語、及び、前記取得された複数の配列パターンのうち前記第１の単語の抽出に用いた配列パターンとは異なる他の配列パターンに従って、第２の単語を作成する単語作成手段、
前記作成された第２の単語を含むコンテンツデータを第２のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段、
前記特定された第２のコンテンツデータによって構成される第２コンテンツと、前記第１の単語を抽出した第１のコンテンツデータによって構成される第１コンテンツと、の間の類似度を算出する算出手段、
前記類似度が所定の条件を満たす場合に、前記第１の単語、及び、前記第２の単語の少なくともいずれか一方を辞書に登録する登録手段、及び、
前記辞書に基づいてコンテンツを解析する解析手段、
として機能させ、
前記単語作成手段が、
前記抽出された第１の単語に含まれる文字であって、前記第１の単語を抽出する際に用いた配列パターンにおいて他の配列パターンと共通する文字種に該当する文字を特定し、
前記他の配列パターンにおける前記共通する文字種の部分に、前記特定した文字を当てはめて前記第２の単語を作成するプログラム。