JP2019164592A5 - - Google Patents

Download PDF

Info

Publication number
JP2019164592A5
JP2019164592A5 JP2018052073A JP2018052073A JP2019164592A5 JP 2019164592 A5 JP2019164592 A5 JP 2019164592A5 JP 2018052073 A JP2018052073 A JP 2018052073A JP 2018052073 A JP2018052073 A JP 2018052073A JP 2019164592 A5 JP2019164592 A5 JP 2019164592A5
Authority
JP
Japan
Prior art keywords
cluster
words
screen
analysis
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018052073A
Other languages
English (en)
Other versions
JP2019164592A (ja
JP7078429B2 (ja
Filing date
Publication date
Application filed filed Critical
Priority to JP2018052073A priority Critical patent/JP7078429B2/ja
Priority claimed from JP2018052073A external-priority patent/JP7078429B2/ja
Priority to KR1020190023397A priority patent/KR102175658B1/ko
Priority to CN201910164187.1A priority patent/CN110309260B/zh
Priority to TW108109134A priority patent/TWI736860B/zh
Publication of JP2019164592A publication Critical patent/JP2019164592A/ja
Publication of JP2019164592A5 publication Critical patent/JP2019164592A5/ja
Application granted granted Critical
Publication of JP7078429B2 publication Critical patent/JP7078429B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

上記第9または第18の局面によれば、注目語を含むクラスターの名前が大きく変化することが多い場合に警告メッセージ含む画面を表示することにより、利用者は階層的クラスター分析が不調であることを認識することができる。
分割後の期間の個数をpとする。クラスタリング処理部14は、ステップS104において、p個の期間のそれぞれについて階層的クラスター分析を行う。より詳細には、クラスタリング処理部14は、p個の期間のそれぞれについて、ステップS103で抽出された単語に対して、ステップS102で読み出されテキストデータのうち期間内の日時を有する文を用いて階層的クラスター分析を行う。クラスタリング処理部14は、例えば、テキストデータ32における2個の単語間の距離(2個の単語がどの程度離れて現れるか)に基づき、2個の単語間の類似度を求める。クラスタリング処理部14は、求めた単語間の類似度に基づき、所定の方法(例えば、最短距離法、最長距離法、群平均法、十進法、ウォード法など)を用いて階層的クラスター分析を行う。
クラスタリング処理部14は、ステップS105において、p個の期間のそれぞれについて単語の出現頻度を求める。ステップS104では階層的クラスター分析の結果がp個求められ、ステップS105では単語の出頻度がp個ずつ求められる。分析結果記憶部15は、ステップS106において、p個の期間のそれぞれについて、階層的クラスター分析の結果と単語の出現頻度を記憶する。
階層的クラスター分析によって得られるクラスターの構成(クラスターに含まれる要素)は、経時的に変化する。クラスターの経時変化を示すために、クラスターには自動的に名前が付けられる。クラスターが1個の単語だけを含む場合には、クラスター名にはその単語がそのまま使用される。クラスターが2個の単語を含む場合には、クラスター名には2個の単語を出頻度が高い順に連結したものが使用される。クラスターが3個以上の単語を含む場合には、クラスター名にはクラスターに含まれる単語のうち出現頻度が高い3個の単語を出現頻度が大きい順に連結したものが使用される。なお、クラスター名を構成する単語の集合が同じ場合、単語の順序が異なっていても同じクラスター名として扱われる。
次に、画面表示部16は、ステップS122で表示した画面に含まれる矢印55の個数を種類ごとに求める(ステップS123)。次に、画面表示部16は、各種類の矢印55の個数に基づき、注目語クラスター名53の変化が大きいか否かを判断する(ステップS124)。画面表示部16は、例えば、赤い矢印55rの個数が矢印55の総数の30%を超えた場合にYesと判断してもよく、赤い矢印55rの個数と青い矢印55bの個数の合計が矢印55の総数の60%超えた場合にYesと判断してもよい。テキストマイニング装置10の制御は、Yesの場合はステップS125へ進み、Noの場合はステップS111へ進む。
以上に示すように、本実施形態に係るテキストマイニング方法は、日付を有する文からなるテキストデータから単語を抽出するステップ(ステップS102、S103)と、抽出した単語に対して分析期間ごとに階層的クラスター分析を行うステップ(ステップS104)と、階層的クラスター分析による分析結果を含む画面を表示するステップ(ステップS107、S113、S121〜S125)とを備えている。分析結果を含む第1画面(ウインドウ41を含む画面)内で注目語を指定する指示が入力されたときに(図5)、画面を表示するステップ(ステップS122)は、注目語を含むクラスターの経時変化を示す第2画面(ウインドウ51を含む画面)を表示する。本実施形態に係るテキストマイニング方法によれば、階層的クラスター分析の結果を含む第1画面内で注目語を指定する指示が入力されたときに、注目語を含むクラスターの経時変化を示す第2画面を表示することにより、利用者は階層的クラスター分析の結果の経時変化を容易に認識することができる。
JP2018052073A 2018-03-20 2018-03-20 テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置 Active JP7078429B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018052073A JP7078429B2 (ja) 2018-03-20 2018-03-20 テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
KR1020190023397A KR102175658B1 (ko) 2018-03-20 2019-02-27 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치
CN201910164187.1A CN110309260B (zh) 2018-03-20 2019-03-05 文本挖掘方法、文本挖掘存储介质及文本挖掘装置
TW108109134A TWI736860B (zh) 2018-03-20 2019-03-18 文字探勘方法、記錄有文字探勘程式之記錄媒體、及文字探勘裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018052073A JP7078429B2 (ja) 2018-03-20 2018-03-20 テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置

Publications (3)

Publication Number Publication Date
JP2019164592A JP2019164592A (ja) 2019-09-26
JP2019164592A5 true JP2019164592A5 (ja) 2021-02-18
JP7078429B2 JP7078429B2 (ja) 2022-05-31

Family

ID=68064564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018052073A Active JP7078429B2 (ja) 2018-03-20 2018-03-20 テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置

Country Status (4)

Country Link
JP (1) JP7078429B2 (ja)
KR (1) KR102175658B1 (ja)
CN (1) CN110309260B (ja)
TW (1) TWI736860B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102359033B1 (ko) * 2020-02-18 2022-02-04 목포해양대학교 산학협력단 Lng 선박 정비 연관성을 이용한 예방 정비 모델 생성 방법 및 그 시스템

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4404323B2 (ja) * 1999-02-05 2010-01-27 経済産業大臣 シソーラスブラウジングシステムと方法
KR100913027B1 (ko) * 2002-09-23 2009-08-20 이원석 데이터 마이닝 시스템 및 그 방법
US7644053B2 (en) * 2004-03-03 2010-01-05 The Boeing Company System, method, and computer program product for combination of cognitive causal models with reasoning and text processing for knowledge driven decision support
JP2007086911A (ja) * 2005-09-20 2007-04-05 Nec Corp 文章入力装置、文章入力方法及び文章入力用プログラム
KR100816934B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 결과를 이용한 군집화 시스템 및 그 방법
JP4342575B2 (ja) * 2007-06-25 2009-10-14 株式会社東芝 キーワード提示のための装置、方法、及びプログラム
JP5330046B2 (ja) * 2009-03-23 2013-10-30 株式会社東芝 共起表現抽出装置及び共起表現抽出方法
JP5284990B2 (ja) * 2010-01-08 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
KR101091185B1 (ko) * 2010-02-25 2011-12-09 고려대학교 산학협력단 뉴스 데이터 분석 장치 및 방법
TWI501097B (zh) * 2012-12-22 2015-09-21 Ind Tech Res Inst 文字串流訊息分析系統和方法
JP5592552B1 (ja) * 2013-10-25 2014-09-17 株式会社Ubic 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム
CN103593340B (zh) * 2013-10-28 2017-08-29 余自立 自然表达信息处理方法、处理及回应方法、设备及系统
CN104978407B (zh) * 2015-06-18 2018-03-06 上海交通大学 用于高维数据特征属性变化趋势的可视化呈现系统及方法
JP6794162B2 (ja) * 2016-07-25 2020-12-02 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
CN106933809A (zh) * 2017-03-27 2017-07-07 三角兽(北京)科技有限公司 信息处理装置及信息处理方法
CN107291886A (zh) * 2017-06-21 2017-10-24 广西科技大学 一种基于增量聚类算法的微博话题检测方法及系统

Similar Documents

Publication Publication Date Title
CN104951099B (zh) 一种基于输入法的展示候选项的方法和装置
CN106933889B (zh) 用于筛选的规则的配置方法、显示方法和客户端
US11842156B2 (en) Systems and methods of artificially intelligent sentiment analysis
US10142272B2 (en) Presenting browser content based on an online community knowledge
JP2017532675A5 (ja)
US9311385B2 (en) Indicating level of confidence in digital content
CN109478191B (zh) 文本挖掘方法、记录介质及文本挖掘装置
CN105378604B (zh) 趋势建议
JP2019164592A5 (ja)
CN104298786A (zh) 一种图像检索方法及装置
CN110309260B (zh) 文本挖掘方法、文本挖掘存储介质及文本挖掘装置
US20170004190A1 (en) System and method for data visualization
JP6122742B2 (ja) 仕様変更支援装置、情報処理方法、およびプログラム
JP6547436B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP2019219812A (ja) 情報処理装置、部品選定方法および部品選定プログラム
CN104317961B (zh) 一种专业系统输入智能提示系统
US20240232538A9 (en) Systems and methods of artificially intelligent sentiment analysis
TWI607332B (zh) Correlation between persistent organic pollutants and microRNAs station
US10725658B2 (en) Keyboard interface for efficiently selecting from a set of data items
JP2024010619A (ja) 学習装置、学習方法、及び学習プログラム
JP5939077B2 (ja) 文字入力支援プログラム、文字入力支援方法および文字入力支援装置
JP2016517586A5 (ja)
Mousa et al. Assessment of manufacturing processes of Al-Amour factory
JP2016053919A (ja) サーバ装置およびプログラム
JP2009289028A (ja) 検索装置