JP5987608B2 - 辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム - Google Patents
辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム Download PDFInfo
- Publication number
- JP5987608B2 JP5987608B2 JP2012215245A JP2012215245A JP5987608B2 JP 5987608 B2 JP5987608 B2 JP 5987608B2 JP 2012215245 A JP2012215245 A JP 2012215245A JP 2012215245 A JP2012215245 A JP 2012215245A JP 5987608 B2 JP5987608 B2 JP 5987608B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- character
- content data
- content
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、図1を用いて本実施形態における通信システム1の構成及び概要について説明する。なお、図1は、本実施形態における通信システム1の構成を示すシステム構成図である。また、図が煩雑になることを防止するために、図1においては、一部のユーザのみを示している。すなわち、実際の通信システム1においては、表示するよりも多数のユーザ、及び、通信端末装置が存在している。
(1)文字列を含む複数のコンテンツ(例えば、アンケート)を個々にコンテンツデータとして外部(すなわち、通信端末装置10)から取得し、
(2)予め定められた文字配列(例えば、共通する2種類の文字とその他の文字の組み合わせから構成される文字列)のパターン(例えば、オノマトペのパターン)をデータベースから取得し、
(3)取得したコンテンツデータ毎に、各コンテンツに含まれる文字列を配列パターンと比較し、パターンに合致する文字列を第1の単語として、コンテンツデータから抽出し、
(4)第1の単語、及び、取得した文字配列の他のパターンに従って、第2の単語を作成し、
(5)作成した第2の単語を含むコンテンツデータを第2のコンテンツデータとして他の取得した複数のコンテンツデータの中から特定し、
(6)特定した第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1コンテンツと、の間の類似度を算出し、
(7)類似度が所定の条件を満たす場合に、前記第1の単語、及び、第2の単語を辞書データに登録する、
構成を有している。
[2.1]サーバ装置における新語の登録原理
次に、図2を用いて本実施形態のサーバ装置30における新語の登録原理について説明する。なお、図2は、代表的なオノマトペパターンを示す図である。
(1)ABAB、
(2)AっBり、
(3)AんBり、
(4)ABっと、
(5)AっBん、
(6)ABりと、
(7)ABんと、
(8)ABと
(9)ABんABん
(10)ABりABり
の10パターンの文字配列のパターンによって定義される。
(1)上記のパターンを用いて第1の単語を検出し、
(2)当該第1の単語とオノマトペのパターンに基づいて第2の単語を生成し、
(3)当該第1の単語を検出した文書と第2の単語を有する文書の類似度を算出し、
(4)算出した類似度に基づいて、第1の単語と第2の単語との類似性を判定し、
(5)判定結果に基づいて、第1の単語及び第2の単語を新語として辞書に登録するようになっている。
次に、図3及び図4を用いて本実施形態のサーバ装置30の構成について説明する。なお、図3は、本実施形態のサーバ装置30の構成を示すブロック図であり、図4は、本実施形態のサーバ装置30内に設けられるアンケートDB331に記録されるデータの一例を示す図である。
(1)各商品等を識別するための商品等IDと、
(2)各商品等に関するアンケートに回答した消費者を識別する消費者IDと、
(3)各商品の商品名と、
(4)ユーザ(消費者)により入力された回答が記載されたアンケートデータと、
が対応付けて登録される。
(1)消費者「101」:「猫が、モフモフしてとても可愛い。」:評価「☆☆☆」
(2)消費者「102」:「ふわふわなサンドイッチが美味しい。」:評価「☆☆☆☆☆」
(3)消費者「103」:「お手頃。」:評価「☆☆☆」
(4)消費者「104」:「もう少しサンドイッチにもっちり感が欲しい。」:評価「☆☆」、
(5)消費者「105」:「近いからいきやすい。」:評価「☆☆☆」
次に、図5を用いて本実施形態のデータ処理部350における辞書登録管理部360について説明する。なお、図5は、本実施形態のサーバ装置30において実行される類似度算出処理を概念的に示すイメージ図である。
次に、図6を用いて本実施形態のデータ処理部350における分析レポート生成部370について説明する。なお、図6は、本実施形態のサーバ装置30において実行されるテキストマイニング処理の概念的に示すイメージ図である。
(1)商品又は期間などの対象となるアンケートデータをアンケートDB331から読み出し、
(2)辞書DB334に記録された単語に基づいて、読み出したアンケートデータに対するテキストマイニング処理を実行し、
(3)テキストマイニング処理の結果に基づいて所定形式の分析レポートを生成する
各処理を実行する。
(1)評価人数:30人
(2)評価時期:2012/01/01〜2012/09/10
(3)総合評価:☆☆☆
(4)商品への評価:「美味しい:X%」:「安い:Y%」:「どこでも買える:Z%」
(5)美味しい理由:「ほわっとした食感:S%」:「辛味が利いている:T%」:「さっぱりしている:U%」:「柔らかい:V%」
(6)要望:「モフモフした食感が欲しい:E%」
が生成される。
[3.1]新語登録処理
次に、図7を用いて本実施形態におけるサーバ装置30の新語登録処理の動作について説明する。なお、図7は、本実施形態におけるサーバ装置30の新語登録処理の動作を示すフローチャートである。
次いで、図8を用いて本実施形態におけるサーバ装置30の分析レポート生成処理の動作について説明する。なお、図8は、本実施形態におけるサーバ装置30の分析レポート生成処理の動作を示すフローチャートである。
以上、本実施形態の通信システム1においては、コンテンツデータであるアンケートデータから抽出された所定の文字配列のパターンを有する第1の単語に基づいて、当該単語の要素を用いつつ、他の文字配列のパターンを構成する第2の単語が検出された場合には、当該第1の単語又は第2の単語を、新語として登録することができる。
[4.1]変形例1
また、上記実施形態においては、サーバ装置30内に各DBを設け、管理及び制御する構成としたが、各DBの管理、制御主体となるコンピュータシステムは、各々、別個なコンピュータシステムによって稼働するようにしてもよい。
また、上記実施形態においては、アンケート分析部352をサーバ装置30に設けるようにしたが、専用のコンピュータを設けるようにしてもよい。
また、上記実施形態においては、テキストマイニング処理を有する分析処理に新語が登録されたサーバ装置30に記憶された辞書データを用いたが、通信端末装置10にインストールされて使用されてもよい。
10 … 通信端末装置
30 … サーバ装置
310 … 通信制御部
320 … ROM/RAM
330 … 記録装置
331 … アンケートDB
332 … オノマトペパターンDB
334 … 辞書DB
340 … サーバ管理制御部
350 … データ処理部
360 … 辞書登録管理部
361 … 単語抽出部
362 … 検索単語生成部
363 … コンテンツ特定部
364 … 類似度算出部
365 … DB管理部
370 … 分析レポート生成部
371 … テキストマイニング処理部
372 … レポートデータ生成部
373 … レポートデータ提供部
380 … タイマ
Claims (11)
- 文字列を含む複数のコンテンツをコンテンツデータとして外部から取得するコンテンツ取得手段と、
複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列の配列パターンであって、任意の文字を表し、他の配列パターンと共通する文字種を有する複数の配列パターンを取得するパターン取得手段と、
前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記取得された各配列パターンと比較し、前記配列パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出手段と、
前記第1の単語、及び、前記取得された複数の配列パターンのうち前記第1の単語の抽出に用いた配列パターンとは異なる他の配列パターンに従って、第2の単語を作成する単語作成手段と、
前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段と、
前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1コンテンツと、の間の類似度を算出する算出手段と、
前記類似度が所定の条件を満たす場合に、前記第1の単語、及び、前記第2の単語の少なくともいずれか一方を辞書に登録する登録手段と、
を備え、
前記単語作成手段が、
前記抽出された第1の単語に含まれる文字であって、前記第1の単語を抽出する際に用いた配列パターンにおいて他の配列パターンと共通する文字種に該当する文字を特定し、
前記他の配列パターンにおける前記共通する文字種の部分に、前記特定した文字を当てはめて前記第2の単語を作成することを特徴とする辞書登録管理装置。 - 請求項1に記載の辞書登録管理装置において、
前記配列パターンが、擬態語及び擬音語を含む擬声語を構成するパターンである、辞書登録管理装置。 - 請求項1又は2に記載の辞書登録管理装置において、
前記第1の単語、または、第2の単語が前記辞書に登録済みであるか否かを判定する判定手段を更に備え、
前記登録手段が、前記判定手段によって未登録と判定された場合に、単語を前記辞書に登録する、辞書登録管理装置。 - 請求項1〜3のいずれか1項に記載の辞書登録管理装置において、
前記算出手段が、前記第1コンテンツと前記第2コンテンツに含まれ前記辞書に登録されている単語の出現頻度を算出し、当該算出した各単語の出現頻度に基づいて前記類似度を算出する辞書登録管理装置。 - 請求項1〜4のいずれか1項に記載の辞書登録管理装置において、
前記取得された配列パターンが、共通する2種類の文字とその他の文字の組み合わせから構成される辞書登録管理装置。 - 請求項1〜5のいずれか1項に記載の辞書登録管理装置において、
前記コンテンツ取得手段が、ネットワークを介して接続された通信端末装置から前記コンテンツデータを取得する、辞書登録管理装置。 - 請求項6に記載の辞書登録管理装置において、
前記登録された辞書を前記通信端末装置に利用可能に提供する提供手段を更に備える、辞書登録管理装置。 - コンピュータシステムを、
文字列を含む複数のコンテンツをコンテンツデータとして外部から取得するコンテンツ取得手段、
複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列の配列パターンであって、任意の文字を表し、他の配列パターンと共通する文字種を有する複数の配列パターンを取得するパターン取得手段、
前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記取得された各配列パターンと比較し、前記配列パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出手段、
前記第1の単語、及び、前記取得された複数の配列パターンのうち前記第1の単語の抽出に用いた配列パターンとは異なる他の配列パターンに従って、第2の単語を作成する単語作成手段、
前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段、
前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1のコンテンツと、の間の類似度を算出する算出手段、
前記類似度が所定の条件を満たす場合に、前記第1の単語、及び、前記第2の単語の少なくともいずれか一方を辞書に登録する登録手段、
として機能させ、
前記単語作成手段が、
前記抽出された第1の単語に含まれる文字であって、前記第1の単語を抽出する際に用いた配列パターンにおいて他の配列パターンと共通する文字種に該当する文字を特定し、
前記他の配列パターンにおける前記共通する文字種の部分に、前記特定した文字を当てはめて前記第2の単語を作成することを特徴とするプログラム。 - コンピュータが実行する辞書登録方法であって、
文字列を含む複数のコンテンツをコンテンツデータとして外部から取得するコンテンツ取得ステップと、
複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列の配列パターンであって、任意の文字を表し、他の配列パターンと共通する文字種を有する複数の配列パターンを取得するパターン取得ステップと、
前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記取得された各配列パターンと比較し、前記配列パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出ステップと、
前記第1の単語、及び、前記取得された複数の配列パターンのうち前記第1の単語の抽出に用いた配列パターンとは異なる他の配列パターンに従って、第2の単語を作成する単語作成ステップと、
前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定ステップと、
前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される含まれる第1コンテンツと、の間の類似度を算出する算出ステップと、
前記類似度が所定の条件を満たす場合に、前記第1の単語、及び、前記第2の単語の少なくともいずれか一方を辞書に登録する登録ステップと、
を備え、
前記第2の単語を作成する際に、
前記抽出された第1の単語に含まれる文字であって、前記第1の単語を抽出する際に用いた配列パターンにおいて他の配列パターンと共通する文字種に該当する文字を特定し、
前記他の配列パターンにおける前記共通する文字種の部分に、前記特定した文字を当てはめて前記第2の単語を作成することを特徴とする辞書登録方法。 - 文字列を含む複数のコンテンツを個々にコンテンツデータとして外部から取得するコンテンツ取得手段と、
複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列の配列パターンであって、任意の文字を表し、他の配列パターンと共通する文字種を有する複数の配列パターンを取得するパターン取得手段と、
前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記取得された各配列パターンと比較し、前記配列パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出手段と、
前記第1の単語、及び、前記取得された複数の配列パターンのうち前記第1の単語の抽出に用いた配列パターンとは異なる他の配列パターンに従って、第2の単語を作成する単語作成手段と、
前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段と、
前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1コンテンツと、の間の類似度を算出する算出手段と、
前記類似度が所定の条件を満たす場合に、前記第1の単語、及び、前記第2の単語の少なくともいずれか一方を辞書に登録する登録手段と、
前記辞書に基づいてコンテンツを解析する解析手段と、
を備え、
前記単語作成手段が、
前記抽出された第1の単語に含まれる文字であって、前記第1の単語を抽出する際に用いた配列パターンにおいて他の配列パターンと共通する文字種に該当する文字を特定し、
前記他の配列パターンにおける前記共通する文字種の部分に、前記特定した文字を当てはめて前記第2の単語を作成するコンテンツ解析装置。 - コンピュータシステムを、
文字列を含む複数のコンテンツをコンテンツデータとして外部から取得するコンテンツ取得手段、
複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列の配列パターンであって、任意の文字を表し、他の配列パターンと共通する文字種を有する複数の配列パターンを取得するパターン取得手段、
前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記取得された各配列パターンと比較し、前記配列パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出手段、
前記第1の単語、及び、前記取得された複数の配列パターンのうち前記第1の単語の抽出に用いた配列パターンとは異なる他の配列パターンに従って、第2の単語を作成する単語作成手段、
前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段、
前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1コンテンツと、の間の類似度を算出する算出手段、
前記類似度が所定の条件を満たす場合に、前記第1の単語、及び、前記第2の単語の少なくともいずれか一方を辞書に登録する登録手段、及び、
前記辞書に基づいてコンテンツを解析する解析手段、
として機能させ、
前記単語作成手段が、
前記抽出された第1の単語に含まれる文字であって、前記第1の単語を抽出する際に用いた配列パターンにおいて他の配列パターンと共通する文字種に該当する文字を特定し、
前記他の配列パターンにおける前記共通する文字種の部分に、前記特定した文字を当てはめて前記第2の単語を作成するプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012215245A JP5987608B2 (ja) | 2012-09-27 | 2012-09-27 | 辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012215245A JP5987608B2 (ja) | 2012-09-27 | 2012-09-27 | 辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014071541A JP2014071541A (ja) | 2014-04-21 |
JP5987608B2 true JP5987608B2 (ja) | 2016-09-07 |
Family
ID=50746715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012215245A Active JP5987608B2 (ja) | 2012-09-27 | 2012-09-27 | 辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5987608B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7198492B2 (ja) * | 2019-02-05 | 2023-01-04 | 国立大学法人電気通信大学 | パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム |
-
2012
- 2012-09-27 JP JP2012215245A patent/JP5987608B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014071541A (ja) | 2014-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8924491B2 (en) | Tracking message topics in an interactive messaging environment | |
CN109408821B (zh) | 一种语料生成方法、装置、计算设备及存储介质 | |
JP6033697B2 (ja) | 画像評価装置 | |
JP2020191075A (ja) | Web APIおよび関連エンドポイントの推薦 | |
JP2009201809A (ja) | 操作支援サーバ装置、操作支援方法およびコンピュータ・プログラム | |
JP2009193098A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2012073966A (ja) | データ生成装置、データの生成方法及びデータ生成プログラム | |
KR102322668B1 (ko) | 콘텐츠 크리에이터의 창작활동 활성화를 위한 다중 플랫폼 서비스 제공 시스템 | |
Shirani et al. | Let me choose: From verbal context to font selection | |
US9058328B2 (en) | Search device, search method, search program, and computer-readable memory medium for recording search program | |
JP2018010570A (ja) | 感情要因推定支援装置、感情要因推定支援方法及び感情要因推定支援用プログラム | |
KR101652433B1 (ko) | Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법 | |
CN110209780B (zh) | 一种问题模板生成方法、装置、服务器及存储介质 | |
CN114722174A (zh) | 提词方法和装置、电子设备及存储介质 | |
KR20200064490A (ko) | 프로필 자동생성서버 및 방법 | |
JP5138621B2 (ja) | 情報処理装置及び不満解決商品発見方法及びプログラム | |
Liu et al. | LiveQA: A question answering dataset over sports live | |
JP5987608B2 (ja) | 辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム | |
JP2004280180A (ja) | 広告用キーワード抽出システム、広告文配信システム、広告用キーワード抽出プログラム及び広告文配信プログラム | |
JP6942759B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
JP7333931B2 (ja) | 投稿分析システム、投稿分析装置および投稿分析方法 | |
US9940319B2 (en) | Information analysis system, information analysis method, and information analysis program | |
EP3731108A1 (en) | Search system, search method, and program | |
JP6680472B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
CN113704422A (zh) | 一种文本推荐方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150730 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160426 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160428 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160622 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160712 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160725 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5987608 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |