JP2014071541A - 辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム - Google Patents
辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム Download PDFInfo
- Publication number
- JP2014071541A JP2014071541A JP2012215245A JP2012215245A JP2014071541A JP 2014071541 A JP2014071541 A JP 2014071541A JP 2012215245 A JP2012215245 A JP 2012215245A JP 2012215245 A JP2012215245 A JP 2012215245A JP 2014071541 A JP2014071541 A JP 2014071541A
- Authority
- JP
- Japan
- Prior art keywords
- word
- content data
- content
- dictionary
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】サーバ装置30は、取得したテキストデータ毎に共通する2種類の文字とその他の文字の組み合わせから構成される文字列のパターンと比較し、パターンに合致する文字列を第1の単語として、コンテンツデータから抽出し、第1の単語、及び、取得した文字配列の他のパターンに従って、第2の単語を作成し、作成した第2の単語を含むコンテンツデータを第2のコンテンツデータとして他の取得した複数のコンテンツデータの中から特定し、特定した第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1コンテンツと、の間の類似度を算出し、類似度が所定の条件を満たす場合に、第1の単語、及び、第2の単語を辞書データに登録する、
【選択図】図1
Description
まず、図1を用いて本実施形態における通信システム1の構成及び概要について説明する。なお、図1は、本実施形態における通信システム1の構成を示すシステム構成図である。また、図が煩雑になることを防止するために、図1においては、一部のユーザのみを示している。すなわち、実際の通信システム1においては、表示するよりも多数のユーザ、及び、通信端末装置が存在している。
(1)文字列を含む複数のコンテンツ(例えば、アンケート)を個々にコンテンツデータとして外部(すなわち、通信端末装置10)から取得し、
(2)予め定められた文字配列(例えば、共通する2種類の文字とその他の文字の組み合わせから構成される文字列)のパターン(例えば、オノマトペのパターン)をデータベースから取得し、
(3)取得したコンテンツデータ毎に、各コンテンツに含まれる文字列を配列パターンと比較し、パターンに合致する文字列を第1の単語として、コンテンツデータから抽出し、
(4)第1の単語、及び、取得した文字配列の他のパターンに従って、第2の単語を作成し、
(5)作成した第2の単語を含むコンテンツデータを第2のコンテンツデータとして他の取得した複数のコンテンツデータの中から特定し、
(6)特定した第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1コンテンツと、の間の類似度を算出し、
(7)類似度が所定の条件を満たす場合に、前記第1の単語、及び、第2の単語を辞書データに登録する、
構成を有している。
[2.1]サーバ装置における新語の登録原理
次に、図2を用いて本実施形態のサーバ装置30における新語の登録原理について説明する。なお、図2は、代表的なオノマトペパターンを示す図である。
(1)ABAB、
(2)AっBり、
(3)AんBり、
(4)ABっと、
(5)AっBん、
(6)ABりと、
(7)ABんと、
(8)ABと
(9)ABんABん
(10)ABりABり
の10パターンの文字配列のパターンによって定義される。
(1)上記のパターンを用いて第1の単語を検出し、
(2)当該第1の単語とオノマトペのパターンに基づいて第2の単語を生成し、
(3)当該第1の単語を検出した文書と第2の単語を有する文書の類似度を算出し、
(4)算出した類似度に基づいて、第1の単語と第2の単語との類似性を判定し、
(5)判定結果に基づいて、第1の単語及び第2の単語を新語として辞書に登録するようになっている。
次に、図3及び図4を用いて本実施形態のサーバ装置30の構成について説明する。なお、図3は、本実施形態のサーバ装置30の構成を示すブロック図であり、図4は、本実施形態のサーバ装置30内に設けられるアンケートDB331に記録されるデータの一例を示す図である。
(1)各商品等を識別するための商品等IDと、
(2)各商品等に関するアンケートに回答した消費者を識別する消費者IDと、
(3)各商品の商品名と、
(4)ユーザ(消費者)により入力された回答が記載されたアンケートデータと、
が対応付けて登録される。
(1)消費者「101」:「猫が、モフモフしてとても可愛い。」:評価「☆☆☆」
(2)消費者「102」:「ふわふわなサンドイッチが美味しい。」:評価「☆☆☆☆☆」
(3)消費者「103」:「お手頃。」:評価「☆☆☆」
(4)消費者「104」:「もう少しサンドイッチにもっちり感が欲しい。」:評価「☆☆」、
(5)消費者「105」:「近いからいきやすい。」:評価「☆☆☆」
次に、図5を用いて本実施形態のデータ処理部350における辞書登録管理部360について説明する。なお、図5は、本実施形態のサーバ装置30において実行される類似度算出処理を概念的に示すイメージ図である。
次に、図6を用いて本実施形態のデータ処理部350における分析レポート生成部370について説明する。なお、図6は、本実施形態のサーバ装置30において実行されるテキストマイニング処理の概念的に示すイメージ図である。
(1)商品又は期間などの対象となるアンケートデータをアンケートDB331から読み出し、
(2)辞書DB334に記録された単語に基づいて、読み出したアンケートデータに対するテキストマイニング処理を実行し、
(3)テキストマイニング処理の結果に基づいて所定形式の分析レポートを生成する
各処理を実行する。
(1)評価人数:30人
(2)評価時期:2012/01/01〜2012/09/10
(3)総合評価:☆☆☆
(4)商品への評価:「美味しい:X%」:「安い:Y%」:「どこでも買える:Z%」
(5)美味しい理由:「ほわっとした食感:S%」:「辛味が利いている:T%」:「さっぱりしている:U%」:「柔らかい:V%」
(6)要望:「モフモフした食感が欲しい:E%」
が生成される。
[3.1]新語登録処理
次に、図7を用いて本実施形態におけるサーバ装置30の新語登録処理の動作について説明する。なお、図7は、本実施形態におけるサーバ装置30の新語登録処理の動作を示すフローチャートである。
次いで、図8を用いて本実施形態におけるサーバ装置30の分析レポート生成処理の動作について説明する。なお、図8は、本実施形態におけるサーバ装置30の分析レポート生成処理の動作を示すフローチャートである。
以上、本実施形態の通信システム1においては、コンテンツデータであるアンケートデータから抽出された所定の文字配列のパターンを有する第1の単語に基づいて、当該単語の要素を用いつつ、他の文字配列のパターンを構成する第2の単語が検出された場合には、当該第1の単語又は第2の単語を、新語として登録することができる。
[4.1]変形例1
また、上記実施形態においては、サーバ装置30内に各DBを設け、管理及び制御する構成としたが、各DBの管理、制御主体となるコンピュータシステムは、各々、別個なコンピュータシステムによって稼働するようにしてもよい。
また、上記実施形態においては、アンケート分析部352をサーバ装置30に設けるようにしたが、専用のコンピュータを設けるようにしてもよい。
また、上記実施形態においては、テキストマイニング処理を有する分析処理に新語が登録されたサーバ装置30に記憶された辞書データを用いたが、通信端末装置10にインストールされて使用されてもよい。
10 … 通信端末装置
30 … サーバ装置
310 … 通信制御部
320 … ROM/RAM
330 … 記録装置
331 … アンケートDB
332 … オノマトペパターンDB
334 … 辞書DB
340 … サーバ管理制御部
350 … データ処理部
360 … 辞書登録管理部
361 … 単語抽出部
362 … 検索単語生成部
363 … コンテンツ特定部
364 … 類似度算出部
365 … DB管理部
370 … 分析レポート生成部
371 … テキストマイニング処理部
372 … レポートデータ生成部
373 … レポートデータ提供部
380 … タイマ
Claims (11)
- 文字列を含む複数のコンテンツをコンテンツデータとして外部から取得するコンテンツ取得手段と、
複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得手段と、
前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出手段と、
前記第1の単語、及び、前記取得された文字配列の他のパターンに従って、第2の単語を作成する単語作成手段と、
前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段と、
前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1コンテンツと、の間の類似度を算出する算出手段と、
前記類似度が所定の条件を満たす場合に、前記第1の単語、及び、第2の単語の少なくともいずれか一方を辞書に登録する登録手段と、
を備えることを特徴とする辞書登録管理装置。 - 文字配列のパターンが、擬態語及び擬音語を含む擬声語を構成するパターンである、辞書登録管理装置。
- 請求項1又は2に記載の辞書登録管理装置において、
前記第1の単語、または、第2の単語が前記辞書に登録済みであるか否かを判定する判定手段を更に備え、
前記登録手段が、前記判定手段によって未登録と判定された場合に、単語を前記辞書に登録する、辞書登録管理装置。 - 請求項1〜3のいずれか1項に記載の辞書登録管理装置において、
前記算出手段が、前記第1コンテンツと前記第2コンテンツに含まれ前記辞書に登録されている単語の出現頻度を算出し、当該算出した各単語の出現頻度に基づいて前記類似度を算出する辞書登録管理装置。 - 請求項1〜4のいずれか1項に記載の辞書登録管理装置において、
前記取得された文字配列のパターンが、共通する2種類の文字とその他の文字の組み合わせから構成される辞書登録管理装置。 - 請求項1〜5のいずれか1項に記載の辞書登録管理装置において、
前記コンテンツ取得手段が、ネットワークを介して接続された通信端末装置から前記コンテンツデータを取得する、辞書登録管理装置。 - 請求項6に記載の辞書登録管理装置において、
前記登録された辞書を前記通信端末装置に利用可能に提供する提供手段を更に備える、辞書登録管理装置。 - コンピュータシステムを、
文字列を含む複数のコンテンツをコンテンツデータとして外部から取得するコンテンツ取得手段、
複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得手段、
前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出手段、
前記第1の単語、及び、前記取得された文字配列の他のパターンに従って、第2の単語を作成する単語作成手段、
前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段、
前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1のコンテンツと、の間の類似度を算出する算出手段、
前記類似度が所定の条件を満たす場合に、前記第1単語、及び、第2単語の少なくともいずれか一方を辞書に登録する登録手段、
として機能させることを特徴とするプログラム。 - 文字列を含む複数のコンテンツをコンテンツデータとして外部から取得するコンテンツ取得ステップと、
複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得ステップと、
前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出ステップと、
前記第1の単語、及び、前記取得された文字配列の他のパターンに従って、第2の単語を作成する単語作成ステップと、
前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定ステップと、
前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される含まれる第1コンテンツと、の間の類似度を算出する算出ステップと、
前記類似度が所定の条件を満たす場合に、前記第1の単語、及び、第2の単語の少なくともいずれか一方を辞書に登録する登録ステップと、
を備えることを特徴とする辞書登録方法。 - 文字列を含む複数のコンテンツを個々にコンテンツデータとして外部から取得するコンテンツ取得手段と、
複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得手段と、
前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出手段と、
前記第1の単語、及び、前記取得された文字配列の他のパターンに従って、第2の単語を作成する単語作成手段と、
前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段と、
前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1コンテンツと、の間の類似度を算出する算出手段と、
前記類似度が所定の条件を満たす場合に、前記第1の単語、及び、第2の単語の少なくともいずれか一方を辞書に登録する登録手段と、
前記辞書に基づいてコンテンツを解析する解析手段と、
を備えるコンテンツ解析装置。 - コンピュータシステムを、
文字列を含む複数のコンテンツをコンテンツデータとして外部から取得するコンテンツ取得手段、
複数の文字の組み合わせによって所定の状態を表す単語を構成する予め定められた文字配列のパターンを取得するパターン取得手段、
前記取得されたコンテンツデータ毎に、各コンテンツに含まれる文字列を前記配列パターンと比較し、前記パターンに合致する文字列を第1の単語として、前記コンテンツデータから抽出する抽出手段、
前記第1の単語、及び、前記取得された文字配列の他のパターンに従って、第2の単語を作成する単語作成手段、
前記作成された第2の単語を含むコンテンツデータを第2のコンテンツデータとして前記他の取得した複数のコンテンツデータの中から特定する特定手段、
前記特定された第2のコンテンツデータによって構成される第2コンテンツと、前記第1の単語を抽出した第1のコンテンツデータによって構成される第1コンテンツと、の間の類似度を算出する算出手段、及び
前記類似度が所定の条件を満たす場合に、前記第1の単語、及び、第2の単語の少なくともいずれか一方を辞書に登録する登録手段と、 前記辞書に基づいてコンテンツを解析する解析手段、
として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012215245A JP5987608B2 (ja) | 2012-09-27 | 2012-09-27 | 辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012215245A JP5987608B2 (ja) | 2012-09-27 | 2012-09-27 | 辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014071541A true JP2014071541A (ja) | 2014-04-21 |
JP5987608B2 JP5987608B2 (ja) | 2016-09-07 |
Family
ID=50746715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012215245A Active JP5987608B2 (ja) | 2012-09-27 | 2012-09-27 | 辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5987608B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020126472A (ja) * | 2019-02-05 | 2020-08-20 | 国立大学法人電気通信大学 | パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム |
-
2012
- 2012-09-27 JP JP2012215245A patent/JP5987608B2/ja active Active
Non-Patent Citations (2)
Title |
---|
JPN6016015509; 中島正貴 他1名: '造語の過程に基づく複合オノマトペの検出手法' 言語処理学会第18回年次大会発表論文集[CD-ROM] , 20120313, 69-72頁, 言語処理学会 * |
JPN6016015510; 北中佑樹 他1名: '印象調査アンケートのためのオノマトペ表現による評価尺度の拡張' 電子情報通信学会技術研究報告 Vol.110 No.313, 20101127, 1-6頁, 社団法人電子情報通信学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020126472A (ja) * | 2019-02-05 | 2020-08-20 | 国立大学法人電気通信大学 | パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム |
JP7198492B2 (ja) | 2019-02-05 | 2023-01-04 | 国立大学法人電気通信大学 | パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5987608B2 (ja) | 2016-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8924491B2 (en) | Tracking message topics in an interactive messaging environment | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
CN109408821B (zh) | 一种语料生成方法、装置、计算设备及存储介质 | |
WO2016192309A1 (zh) | 推送信息的处理方法、装置、设备及非易失性计算机存储介质 | |
JP6033697B2 (ja) | 画像評価装置 | |
JP2009176302A (ja) | 推薦システム用の時間情報および場所情報の言語抽出 | |
CN111198939B (zh) | 语句相似度的分析方法、装置及计算机设备 | |
JP2020191075A (ja) | Web APIおよび関連エンドポイントの推薦 | |
JP2009193098A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2012073966A (ja) | データ生成装置、データの生成方法及びデータ生成プログラム | |
JP6605410B2 (ja) | 感情要因推定支援装置、感情要因推定支援方法及び感情要因推定支援用プログラム | |
Nguyen | Text as social and cultural data: a computational perspective on variation in text | |
KR101652433B1 (ko) | Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법 | |
US9058328B2 (en) | Search device, search method, search program, and computer-readable memory medium for recording search program | |
KR20200064490A (ko) | 프로필 자동생성서버 및 방법 | |
JP5138621B2 (ja) | 情報処理装置及び不満解決商品発見方法及びプログラム | |
JP5987608B2 (ja) | 辞書登録管理装置、辞書登録方法、コンテンツ解析装置及びプログラム | |
JP6942759B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
JP2016181062A (ja) | 投稿文から投稿者のプロフィール項目を分析する投稿者分析装置、プログラム及び方法 | |
JP7333931B2 (ja) | 投稿分析システム、投稿分析装置および投稿分析方法 | |
JP6702625B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP2015022708A (ja) | マーケティング支援システム、マーケティング支援方法、プログラム及びコンピュータ記憶媒体 | |
KR20220133665A (ko) | 성격 정보 제공 서비스 장치 및 방법 | |
CN113971581A (zh) | 一种机器人的控制方法、装置、终端设备及存储介质 | |
JP2018036756A (ja) | メッセージ分類システム、メッセージ分類方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150730 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160426 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160428 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160622 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160712 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160725 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5987608 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |