CN105528410A - 一种对医院的在线评论进行归纳和分类的方法 - Google Patents
一种对医院的在线评论进行归纳和分类的方法 Download PDFInfo
- Publication number
- CN105528410A CN105528410A CN201510883561.5A CN201510883561A CN105528410A CN 105528410 A CN105528410 A CN 105528410A CN 201510883561 A CN201510883561 A CN 201510883561A CN 105528410 A CN105528410 A CN 105528410A
- Authority
- CN
- China
- Prior art keywords
- hospital
- comment
- synonym
- database
- online
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Abstract
本发明公开了一种对医院的在线评论进行归纳和分类的方法,旨在对患者对医院做出的众多的线上评价进行归纳,概括出对医院的整体印象,实现对评论的分类。首先,使用正则表达式把抓取的中文评论内容分割成多个短句。然后对每个短句进行分词、词性标注,将相邻的名词合并成一个名词。再基于同义词词典,对形容词进行替换,原则是高频词替换低频词。接着把得到的“名词+形容词”短语存入到数据库中,同时建立起短语、短句、评论之间的映射关系。输入医院的名称,从库中选择出若干个高频短语作为对医院的整体评价。本发明的方法可以对医院的饿在线评论进行精简,省去阅读众多评论的麻烦,同时方便分类阅读评论,从而为就医选择和医院选择提供便利。
Description
技术领域
本发明涉及中文句法分析与词性标注、情感词分析、图数据库领域,具体涉及一种对医院的在线评论进行归纳和分类的方法。
背景技术
越来越多的用户会在网上对就诊的医院做出线上评价。用户的评价可以作为衡量医院服务的标杆,供其他用户参阅。但是众多的评论内容,不能够让用户直观快速地感受到用户对该医院的整体印象。鉴于上述情况,本专利专注于如何快速有效地对某个医院的众多的在线评论进行情感词分析,合并具有相同感情倾向的内容,归纳出评论用户对该医院的整体印象,实现对评论内容的分类,方便用户快速查阅和分类查阅。
发明内容
本发明的目的是基于情感词的同(近)义词词典,利用句法分析和词性标注工具,对用户对医院做出的评论内容进行归纳和分类,从而得到对医院的整体印象。
本发明的目的是通过以下技术方案来实现的:
一种对医院在线评论进行归纳和分类的方法,包括以下步骤:
1)从互联网上抓取对目标医院的评论内容,存储到关系型数据库中;
2)使用正则表达式对关系型数据库中的每一条评论内容进行分句,得到若干条短句,把短句存储到数据库中,并建立起短句和评论之间的映射关系;
3)使用句法分析工具,对数据库中的短句分别进行句法分析和词性标注,将相邻的名词进行合并;
4)利用预先定义的同义词词典,对形容词进行同义词或近义词替换,并且使用高频的情感词替换低频的情感词,以提高对评论内容的概括性;将替换后的名词和情感词存储到数据库中,并建立起和短句之间的映射。
5)根据目标医院的名称,从库中选取出现频率最高的若干个短语作为医院的整体印象。
作为优选,步骤5)中所述的若干个短语形式为名词+情感词。
作为优选,所述的互联网包括医院官网或点评类网站。
作为优选,所述的评论内容结构化存储到关系型数据库中,包括评论的ID、医院名称、评价内容和评论日期。
作为优选,所述的预先定义的同义词词典为哈工大同义词词林和/或百度百科。
作为优选,所述的步骤4)中,对形容词进行同义词或近义词替换前,首先基于哈工大同义词词林或其他词库,使用Neo4j图数据库,建立起同义词或近义词之间的关联;对图进行遍历后,得到从目标词开始所有能够关联的词,作为同义词或近义词。
作为优选,所述的步骤4)中,对形容词进行同义词或近义词替换后,如果否定副词之后紧跟形容词,则将二者合并作为一个形容词。
本发明与现有技术相比具有的有益效果:
1.对评论的概括过程简单高效,代价低,适合海量评论的处理;
2.所采用的方法具有一般性,可广泛适用于其它对象的短文本评论的归纳和分类,比如电商中的商品评论。
3.基于图数据库,实现准确而且快速的同义词推理和判断。
附图说明
图1为一种对医院的在线评论进行归纳和分类的方法的整体流程图;
图2为实施例中词语“不错”的同义词示例
图3为实施例中整体印象的效果示例。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。
一种对医院的在线评论进行归纳和分类的方法,包括以下步骤:
(1)数据采集
使用爬虫,从医院官网、点评类网站上抓取用户对医院的评论文本,并进行结构化存储到关系型数据库中。
(2)对评价进行分句
使用正则表达式,把库中的每一条评论内容分成多个短句,并进行持久化存储,建立起短句和原评论内容之间的映射关系。
(3)词性标注
使用自然语言处理工具,对数据库中的各个短句进行分词并作自动化词性标注。由于用户的评论偏重于口语,而且多是“主语+补语”形式,如“环境不错”,所以,处理过程中,更关注名词词性、形容词词性以及否定副词。词性标注之后,把相邻的名词合并成一个名词。
(4)同义词替换
为了能够对评价内容准确概括,需要对评论中的具有语义倾向的情感词(主要是形容词)做同义词替换,如“好”和“不错”,表达的是同样的感情色彩。
为了实现同义词替换,需要预定义同义词词典,词典中的同义词来源于哈工大同义词词林和/或百度百科。同义词词典在实现时存在如下问题:A和B是同义词,B和C是同义词,但结构化存储还不能推出A和C是同义词,还需要使用图数据库来实现同义词词典,同一个图(Graph)中的词汇被认为是同义词。具体方法为:首先基于哈工大同义词词林或其他词库,使用Neo4j图数据库,建立起同义词或近义词之间的关联;对图进行遍历后,得到从词A开始所有能够关联的词,作为同义词或近义词。
在进行同义词替换时,使用高频的情感词替换低频的情感词,以提高对评论内容的概括性。
一些短句中会出现否定副词,而这些否定副词影响句子的语义倾向。进行同义词替换之后,如果否定副词之后紧跟形容词,那么需要把二者合并,作为一个形容词。
将替换后的词对(合并后的名词+高频情感词)保存到关系型数据库中,并建立起和短句之间的映射。
(5)印象概况
输入医院的名称,从库中选取若干个高频短语(名词+形容词)作为患者对该医院的整体印象,该做法可以减轻句法分析等文本处理过程中的错误对最终结果的影响。
实施例
如图1所示,本发明一种对医院的在线评论进行归纳和分类的方法,包括以下步骤:
(1)基于哈工大同义词词林等词库,使用Neo4j图数据库,建立起同义词或近义词之间的关联,比如:词A和词B是同(近)义词,则在图数据库中,词A和词B之间有关联;词B和词C是同(近)义词,词B和词C之间也有关联;那么,词A和词C也被认为是同(近)义词。输入词A,对图进行遍历,则可以得到从词A开始所有能够关联的词,如图2所示。
(2)使用爬虫,从互联网上抓取患者对医院的评价内容,进行结构化存储到关系型数据库中,包括评论的ID、医院名称、评价内容、评论日期等。
(3)使用正则表达式("[??.。!!;;,,::~\\n]"),对步骤(2)中得到的评论文本进行分句,得到若干短句。使用Ansj自然语言处理工具对每个短句进行句法分析和词性标注,鉴于评论内容具有口语化且结构往往是“主语+补语”的特点,词性标注后,只关注名词和形容词词性。句法分析后,将相邻的名词进行合并得到一个名词,使用步骤(1)中建立的同(近)义词词典对出现的形容词进行替换,原则是:使用高频的形容词替换低频的形容词。这样做是为了减少最终归纳概括出的印象的结果,实现对患者评论的高度概括。对形容词替换之后,还需要对可能存在的否定副词进行替换。如果否定副词后面紧跟着形容词,那么要把二者合并,作为一个形容词。最后,将得到的短语(名词+替换后的形容词)存储到关系型数据库中。
(4)输入医院名称,从库中选取若干个相关的高频的“名词+形容词”作为医院的整体印象。如图3所示,整体印象可描述为医院好、医生好、态度差等词对。该做法可以避免护法分析和词性标注过程中文本处理失误对最终结果的影响。
Claims (7)
1.一种对医院在线评论进行归纳和分类的方法,其特征在于,包括以下步骤:
1)从互联网上抓取对目标医院的评论内容,存储到关系型数据库中;
2)使用正则表达式对关系型数据库中的每一条评论内容进行分句,得到若干条短句,把短句存储到数据库中,并建立起短句和评论之间的映射关系;
3)使用句法分析工具,对数据库中的短句分别进行句法分析和词性标注,将相邻的名词进行合并;
4)利用预先定义的同义词词典,对形容词进行同义词或近义词替换,并且使用高频的情感词替换低频的情感词,以提高对评论内容的概括性;将替换后的名词和情感词存储到数据库中,并建立起和短句之间的映射。
5)根据目标医院的名称,从库中选取出现频率最高的若干个短语作为医院的整体印象。
2.如权利要求1所述的对医院在线评论进行归纳和分类的方法,其特征在于步骤5)中所述的若干个短语形式为名词+情感词。
3.如权利要求1所述的对医院在线评论进行归纳和分类的方法,其特征在于所述的互联网包括医院官网或点评类网站。
4.如权利要求1所述的对医院在线评论进行归纳和分类的方法,其特征在于所述的评论内容结构化存储到关系型数据库中,包括评论的ID、医院名称、评价内容和评论日期。
5.如权利要求1所述的对医院在线评论进行归纳和分类的方法,其特征在于所述的预先定义的同义词词典为哈工大同义词词林和/或百度百科。
6.如权利要求1所述的对医院在线评论进行归纳和分类的方法,其特征在于所述的步骤4)中,对形容词进行同义词或近义词替换前,首先基于哈工大同义词词林或其他词库,使用Neo4j图数据库,建立起同义词或近义词之间的关联;对图进行遍历后,得到从目标词开始所有能够关联的词,作为同义词或近义词。
7.如权利要求1所述的对医院在线评论进行归纳和分类的方法,其特征在于所述的步骤4)中,对形容词进行同义词或近义词替换后,如果否定副词之后紧跟形容词,则将二者合并作为一个形容词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510883561.5A CN105528410B (zh) | 2015-12-05 | 2015-12-05 | 一种对医院的在线评论进行归纳和分类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510883561.5A CN105528410B (zh) | 2015-12-05 | 2015-12-05 | 一种对医院的在线评论进行归纳和分类的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105528410A true CN105528410A (zh) | 2016-04-27 |
CN105528410B CN105528410B (zh) | 2019-03-26 |
Family
ID=55770633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510883561.5A Active CN105528410B (zh) | 2015-12-05 | 2015-12-05 | 一种对医院的在线评论进行归纳和分类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105528410B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021234A (zh) * | 2016-05-31 | 2016-10-12 | 徐子涵 | 标签提取方法及系统 |
CN106407181A (zh) * | 2016-09-07 | 2017-02-15 | 大地风景(武汉)信息技术有限公司 | 旅游目的地中的数据语义关联分析方法及系统 |
CN106599163A (zh) * | 2016-12-08 | 2017-04-26 | 上海云信留客信息科技有限公司 | 一种用于大数据的数据挖掘方法和装置 |
CN108009727A (zh) * | 2017-12-04 | 2018-05-08 | 上海财经大学 | 一种结合用户评论的事物评价方法 |
CN108009726A (zh) * | 2017-12-04 | 2018-05-08 | 上海财经大学 | 一种结合用户评论的事物评价系统 |
CN108090121A (zh) * | 2017-11-07 | 2018-05-29 | 曙光信息产业(北京)有限公司 | 图书评论挖掘系统及方法 |
CN108460015A (zh) * | 2018-02-08 | 2018-08-28 | 合肥工业大学 | 文本情感分类数据增强分析方法 |
CN109214008A (zh) * | 2018-09-28 | 2019-01-15 | 珠海中科先进技术研究院有限公司 | 一种基于关键词提取的情感分析方法及系统 |
CN110096597A (zh) * | 2019-03-22 | 2019-08-06 | 同济大学 | 一种结合情感强度的文本tf-idf特征重构法 |
CN110457676A (zh) * | 2019-06-26 | 2019-11-15 | 平安科技(深圳)有限公司 | 评价信息的提取方法及装置、存储介质、计算机设备 |
CN110866800A (zh) * | 2019-09-23 | 2020-03-06 | 车智互联(北京)科技有限公司 | 评论生成方法及计算设备 |
CN111009296A (zh) * | 2019-12-06 | 2020-04-14 | 安翰科技(武汉)股份有限公司 | 胶囊内窥镜检查报告标注方法、设备及介质 |
CN111241834A (zh) * | 2020-01-20 | 2020-06-05 | 和宇健康科技股份有限公司 | 一种医护质量评价获取方法、装置、介质及终端设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050125216A1 (en) * | 2003-12-05 | 2005-06-09 | Chitrapura Krishna P. | Extracting and grouping opinions from text documents |
CN103679462A (zh) * | 2012-08-31 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种评论数据处理方法和装置、一种搜索方法和系统 |
CN105095179A (zh) * | 2014-05-14 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 对用户评价进行处理的方法及装置 |
-
2015
- 2015-12-05 CN CN201510883561.5A patent/CN105528410B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050125216A1 (en) * | 2003-12-05 | 2005-06-09 | Chitrapura Krishna P. | Extracting and grouping opinions from text documents |
CN103679462A (zh) * | 2012-08-31 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种评论数据处理方法和装置、一种搜索方法和系统 |
CN105095179A (zh) * | 2014-05-14 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 对用户评价进行处理的方法及装置 |
Non-Patent Citations (4)
Title |
---|
MINQING HU 等: "Mining and summarizing customer reviews", 《 PROCEEDINGS OF THE TENTH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 * |
彭柳艳: "中文网络产品评论的特征抽取及观点分类研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
朱征宇 等: "基于语法模式的产品评论主题词和极性词提取", 《重庆理工大学学报(自然科学)》 * |
赵喜燕 等: "基于同义词关系的个人文件搜索方法", 《小型微型计算机系统》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021234A (zh) * | 2016-05-31 | 2016-10-12 | 徐子涵 | 标签提取方法及系统 |
CN106407181B (zh) * | 2016-09-07 | 2019-05-14 | 武汉众犇慧通科技有限公司 | 旅游目的地中的数据语义关联分析方法及系统 |
CN106407181A (zh) * | 2016-09-07 | 2017-02-15 | 大地风景(武汉)信息技术有限公司 | 旅游目的地中的数据语义关联分析方法及系统 |
CN106599163A (zh) * | 2016-12-08 | 2017-04-26 | 上海云信留客信息科技有限公司 | 一种用于大数据的数据挖掘方法和装置 |
CN106599163B (zh) * | 2016-12-08 | 2019-11-22 | 上海云信留客信息科技有限公司 | 一种用于大数据的数据挖掘方法和装置 |
CN108090121A (zh) * | 2017-11-07 | 2018-05-29 | 曙光信息产业(北京)有限公司 | 图书评论挖掘系统及方法 |
CN108009726A (zh) * | 2017-12-04 | 2018-05-08 | 上海财经大学 | 一种结合用户评论的事物评价系统 |
CN108009727A (zh) * | 2017-12-04 | 2018-05-08 | 上海财经大学 | 一种结合用户评论的事物评价方法 |
CN108009726B (zh) * | 2017-12-04 | 2021-12-28 | 上海财经大学 | 一种结合用户评论的事物评价系统 |
CN108460015A (zh) * | 2018-02-08 | 2018-08-28 | 合肥工业大学 | 文本情感分类数据增强分析方法 |
CN109214008A (zh) * | 2018-09-28 | 2019-01-15 | 珠海中科先进技术研究院有限公司 | 一种基于关键词提取的情感分析方法及系统 |
CN110096597A (zh) * | 2019-03-22 | 2019-08-06 | 同济大学 | 一种结合情感强度的文本tf-idf特征重构法 |
CN110457676A (zh) * | 2019-06-26 | 2019-11-15 | 平安科技(深圳)有限公司 | 评价信息的提取方法及装置、存储介质、计算机设备 |
CN110457676B (zh) * | 2019-06-26 | 2022-06-21 | 平安科技(深圳)有限公司 | 评价信息的提取方法及装置、存储介质、计算机设备 |
CN110866800A (zh) * | 2019-09-23 | 2020-03-06 | 车智互联(北京)科技有限公司 | 评论生成方法及计算设备 |
CN111009296A (zh) * | 2019-12-06 | 2020-04-14 | 安翰科技(武汉)股份有限公司 | 胶囊内窥镜检查报告标注方法、设备及介质 |
CN111241834A (zh) * | 2020-01-20 | 2020-06-05 | 和宇健康科技股份有限公司 | 一种医护质量评价获取方法、装置、介质及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN105528410B (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105528410A (zh) | 一种对医院的在线评论进行归纳和分类的方法 | |
Diab | Second generation AMIRA tools for Arabic processing: Fast and robust tokenization, POS tagging, and base phrase chunking | |
Al-Sabbagh et al. | YADAC: Yet another Dialectal Arabic Corpus. | |
Saad et al. | Arabic morphological tools for text mining | |
D'hondt et al. | Text representations for patent classification | |
Otair | Comparative analysis of Arabic stemming algorithms | |
Scheible et al. | A gold standard corpus of Early Modern German | |
US20150178268A1 (en) | Semantic disambiguation using a statistical analysis | |
Awajan | Keyword extraction from Arabic documents using term equivalence classes | |
Rehbein | Fine-grained pos tagging of german tweets | |
Sibarani et al. | A study of parsing process on natural language processing in bahasa Indonesia | |
Fabregat et al. | Extending a Deep Learning Approach for Negation Cues Detection in Spanish. | |
Keersmaekers | Creating a richly annotated corpus of papyrological Greek: The possibilities of natural language processing approaches to a highly inflected historical language | |
Singha et al. | Part of speech tagging in Manipuri: a rule-based approach | |
Zhou et al. | Context-sensitive spelling correction of consumer-generated content on health care | |
Ibrahim et al. | Bel-Arabi: advanced Arabic grammar analyzer | |
Sen et al. | Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods | |
Paikens | Lexicon-based morphological analysis of Latvian language | |
US10678827B2 (en) | Systematic mass normalization of international titles | |
Le et al. | Extracting indices from Japanese legal documents | |
Reddy et al. | POS Tagger for Kannada Sentence Translation | |
JP2015090622A (ja) | 短縮文生成装置、方法、及びプログラム | |
Ferrod et al. | A support for understanding medical notes: correcting spelling errors in Italian clinical records | |
Li et al. | Learning to recognize protected health information in electronic health records with recurrent neural network | |
Lim-Cheng et al. | Semi-automatic population of ontology of Philippine medicinal plants from on-line text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |