CN104794154B

CN104794154B - 基于文本挖掘的医疗器械o2o服务质量评价模型

Info

Publication number: CN104794154B
Application number: CN201510107415.3A
Authority: CN
Inventors: 邓志龙; 戴永辉; 赵卫东; 戴伟辉
Original assignee: Nantong Tiancheng Yiliu Internet Technology Co ltd
Current assignee: Nantong Tiancheng Yiliu Internet Technology Co ltd
Priority date: 2015-03-11
Filing date: 2015-03-11
Publication date: 2020-10-09
Anticipated expiration: 2035-03-11
Also published as: CN104794154A

Abstract

本发明属于电子商务领域，具体为基于文本挖掘的医疗器械O2O服务质量评价模型。本发明的特征在于，包括：服务质量文本挖掘模块和服务质量模型库模块，其中，文本挖掘包含四个步骤，步骤1：爬取互联网文本；步骤2：分析文本；步骤3：提取服务质量评价特征；步骤4：执行挖掘。服务质量模型库模块包括模型参数选取和多元线性回归建模两个过程。与现有评价模型相比，本发明优点：(1)模型指标的选取考虑了用户对所购医疗器械的评论，以文本挖掘获取用户对服务的真实宣泄，从而使评价模型较客观和公正；(2)在模型参数权重的确定上引入了反馈与调整机制，使之能依据文本挖掘所得结果及时自适应更新，从而提升服务质量评价的准确性。

Description

基于文本挖掘的医疗器械O2O服务质量评价模型

技术领域

本发明属于电子商务领域，具体涉及O2O服务质量评价技术，特别地涉及基于文本挖掘的医疗器械O2O服务质量评价模型。

背景技术

近年来，随着电子商务的飞速发展，促使信息与实物之间、线上与线下之间的联系变得愈加紧密，O2O(Online To Offline)商务模式也应运而生。O2O是将线下商务的机会与互联网进行结合，把互联网变为线下交易的前台。通过这种方式，线下服务就可以通过线上网络来揽客，消费者也可以在网络上来筛选服务，以及网上执行在线成交与结算。由于O2O模式下推广效果及每笔交易都可跟踪，因而受到越来越多商家青睐。有研究表明，2012年美国线上消费约占8％，线下消费的比例高达92％；在中国，这一比例分别为3％和97％。二者比例存在如此大的悬殊，大有潜力可挖。因此，这几年O2O模式被国内众多公司所采纳。然而，网上交易给消费者带来便利的同时，也带来了交易风险、信任和产品服务等方面的问题。在我国，医疗器械目前是被作为较特殊的商品来管控的，网上交易医疗器械大多通过具有“互联网药品交易服务资格证书”的医疗器械B2B网站进行，一些传统通过实体店销售医疗器械的商家只要在具有交易服务资质的平台上注册为卖家即可在医疗器械B2B网站开展销售业务，为了对医疗器械O2O服务质量进行客观评价和防范风险，建立评价模型对提供O2O服务的运营方来说是一件非常重要和有意义的工作。

目前，针对医疗器械O2O服务质量评价的模型尚鲜有，在此，以B2C网站的服务质量评价模型为例做对照说明，从其模型的指标构成来看，指标基本由网站的可用性、易用性、完整性、信誉评价等组成，对这些指标分配权重后即构成服务质量评价模型。这种模型虽然在一定程度上能对服务质量进行评价，但是普遍存在如下问题：

(1)模型指标的选取具有主观性，所建模型的公正性值得考虑；

(2)模型参数的权重缺乏反馈与调整机制，权值一旦确定只能通过人工去更改，无法根据最新形式，自适应调整。

发明内容

本发明的目的是针对现有医疗器械O2O服务质量评价模型的不足之处，基于文本挖掘来对网站、客户留言、聊天记录等文本信息进行挖掘，得到模型的指标以及模型的表示方式，来建立客观、自适应的医疗器械O2O服务质量评价模型。

为达到上述目的，本发明采用如下技术方案，包含如下内容：

1、基于文本挖掘的医疗器械O2O服务质量评价模型，其特征在于，包括：服务质量文本挖掘模块和服务质量模型库模块共两个模块，其中，

所述服务质量文本挖掘模块，用于对医疗器械网站上的论坛、顾客回复、客户聊天记录里的文本信息进行挖掘，抽取出服务质量相关的信息，进行建模，包括：爬取互联网文本、分析文本、提取服务质量评价特征和执行挖掘共四个步骤；

所述服务质量模型库模块包括模型参数选取和多元线性回归建模两个过程，其中，

模型参数选取：采取Delphi专家意见法，根据专家反馈的意见确定用于服务质量评价的参数由服务评分、诚信评分、留言评分、受罚次数共4项参数构成，参数的权重通过采用AHP层次分析法来确定；

多元线性回归建模：根据医疗器械网站的历史数据及所选出的参数，建立的多元回归模型形式如下：

Y＝α+β_i*X_i

式中，Y指服务质量评价分，α是截距项，i取1到4，即4项参数；β指回归系数，由最小二乘法估算得出；X_i指回归变量，即：经过数据预处理后可供回归计算用的4项指标数值。

2、基于权利要求1所述的基于文本挖掘的医疗器械O2O服务质量评价模型，其特征在于包括：爬取互联网文本、分析文本、提取服务质量评价特征和执行挖掘共四个步骤，其中，

步骤1：爬取互联网文本；

指对给定的互联网url网址进行文本的抓取与保存，具体过程是网络爬虫首先从初始url处获得初始网页的域名，接着在抓取到网页时，不断从所抓的当前页面上获取新的url，将其放入候选队列，直到满足停止条件时，爬取结束；

步骤2：分析文本；

指对爬取下来的文本进行分词和词性标注，其中，分词采用基于字符串的最大正向匹配法，词性标注采用隐马尔可夫方法，最大正向匹配法是假设词典中最大词条所含的汉字个数为n个，并且取待处理字符串的前n个字为匹配字段，再查找分词词典，若在词典中发现含有该词，则匹配成功，将该词分出，然后从被比较字符串的n+1处重新开始取n个字组成的字段继续在词典中匹配；如果匹配不成功，则剔除掉这n个字组成的字段的最后一位，用剩余的n-1个字组成的字段继续在词典中进行匹配，如此进行下去，直到切分成功为止；

步骤3：提取服务质量评价特征；

指采用向量空间模型来提取服务质量评价特征，向量空间模型里每个词称为一个特征项，其表示形式为V(d)＝(t₁,ω₁(d)；…；t_n,ω_n(d))，其中的t_i(i＝1,2,…,n)为特征项词条，ω_i(d)为特征项在文本中的权重，以相对词频来表示特征项的权重，通过运用TF-IDF(Term Frequency-Inverse Document Frequency)公式得出，本发明的权重的计算公式如下，

上式中，k表示词库的维度；tf_i,j表示特征词出现的频率；N表示语料库中文档总数；df_j表示语料库中包含词的文档数；

步骤4：执行挖掘；

指对文本进行分类与聚类的挖掘，其中，文本分类分为训练和分类两个阶段，文本聚类则采用K均值聚类法，包括如下过程：

过程1：初始化目标分类数K；即对爬取下来的文档集合D＝{d₁,d₂,…,d_i,…,d_n}指定目标分类数K；

过程2：产生聚类中心；指按照某种原则产生初始的聚类中心；

过程3：执行聚类；根据相似性度量sim(d_i,c_k)，将其分配到最相似

的类别中；

过程4：重新计算聚类中心；

过程5：进行判断；判断是否满足结束条件，如果不满足，则返回过程3直到聚类结果满足要求。

附图说明

图1是本发明整体架构图。

图2是本发明爬取网络文本流程图。

图3是本发明文本特征提取广度搜索示意图。

图4是本发明模型参数自适应示意图。

具体实施方式

下面参照附图，对本发明的各种实施作进一步的详细描述。

图1示出了本发明整体架构图。本发明包括服务质量文本挖掘模块(1)和服务质量模型库模块(2)共两个模块，其中，服务质量文本挖掘模块(1)包括：爬取互联网文本(3)、分析文本(4)、提取服务质量评价特征(5)和执行挖掘(6)共四个步骤，其中，

爬取互联网文本(3)是通过python编写的网络爬虫代码来实现，Python抓取网页示例代码见附录1。网络爬虫的任务有2个，下载和发现url。例如：爬虫程序根据输入http://reply.service.com来获得URL任务列表，也就是初始URL种子，将该初始种子保存到数组Seek[]里，按照广度搜索运算法进行搜索，抓取网页里服务质量相关的内容，同时提取URL保存到数组Seek[]里，并调用内容相关度算法判断相关度，过滤剔除掉不相关的网页，在循环截止前，使整个爬虫程序一直循环运行下去。爬虫工作的基本原理就是，给定一个初始的url，下载这个url的网页，然后找出网页上所有满足下载要求的链接，再把这些链接对应的url下载下来，然后再找下载下来的这些网页的url，用正则表达式找url的示例代码见附录2；

分析文本(4)包括分词和词性标注，由python调用jieba组件来实现，jieba接受两个输入参数:1)第一个参数为需要分词的字符串2)第二个参数是需要分词的字符串，采用正向最大匹配算法来分词，即，从左到右将待分词文本中的几个连续字符与词表匹配，如果匹配上，则切分出一个词。例如(“发货/太/慢/，对/售方/不/满意”)。词性是用来描述一个词在上下文中的作用。例如名词用来描述一个概念，代词用于在下文引用。还有一种叫开放式词性，是指有的词性经常会出现一些新的词，比如名词。另外一些词性中的词比较固定，例如代词，这种词性叫做封闭式词性。因为存在一个词对应多个词性的现象，所以给词准确地标注词性并不是很容易。词性标注就是依据词性编码表的规范给每个单词标注上词性，部分词性编码表如表1所示。

表1

词性编码	词性名称
		Ag	形语素
a	形容词
		ad	副形词
an	名形词
		b	区别词
c	连词
		dg	副语素
d	副词
		e	叹词
f	方位词
		y	语气词
z	状态词

提取服务质量评价特征(5)通过向量空间模型来实现，它把对文本内容的处理简化为向量空间中的向量运算,并且以空间上的相似度表达语义的相似度。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。如用D(Document)表示文档，用T(Term)表示特征项，在向量空间模型中，两个文本D1和D2之间的内容相关度Sim(D1，D2)常用向量之间夹角的余弦值表示，公式为：

其中，W_1k、W_2k分别表示文本D1和D2第K个特征项的权值，1<＝k<＝N。

执行挖掘(6)指对文本进行分类与聚类的挖掘。对医疗器械O2O服务质量评价信息分类采用BP神经网络来完成样本训练与建模，包括：设计网络层数、设计神经节点数、设计传递函数和学习函数共3个流程，具体如下：

流程1：设计网络层数；由于3层BP神经网络能以任意精度逼近任意映射关系，因此，BP神经网络的层数选定为3层，即：输入层、隐含层和输出层；

流程2：设计神经节点数；输入层节点数目设置为3；输出层节点数设置为1；隐含层节点数为3；神经网络的均方误差计算公式如下：

式中，MSE是整个BP神经网络的均方误差，n是输出节点总数，s是训练样本的总数，

是BP神经网络的期望输出值，y_sj是BP神经网络的实际输出值；

流程3：设计传递函数和学习函数；选用tansig作为隐含层神经元传递函数；选用purelin作为输出层神经元传递函数；选用traingdx作为训练函数；采用0.3作为学习速率初始值；采用0.8作为动量因子的初始值；

图2示出了本发明爬取网络文本流程图。其中：

如流程9所示，开始爬取网络文本；

如流程10所示，对待爬取的url链接进行初始化赋值，如：url＝[“www.url1.com”,“www.url2.com”,“www.urlX.com”"]；

如流程11所示，依据初始化的url进行抓取文本，；

如流程12所示，抓取完毕，判断是否还有新的url，如果有则进入流程10；如果没有则进入流程13；

如流程13所示，结束，将所爬取的文本保存，如保存到D:\crawl\test1.txt。

图3示出了本发明文本特征提取广度搜索示意图。广度搜索是在搜索中按结点的层次进行搜索，本层的结点没有搜索处理完时，不能对下层结点进行处理，即深度越小的结点越先得到扩展，也就是说先产生的结点先得以扩展处理。图3里的搜索依次为A-B-C-D-E-F-G-H-I。

图4示出了本发明模型参数自适应示意图。首先通过对论坛、客户留言、服务评分等进行文本挖掘，选取出客户反响大的指标进行多元线性回归模型的建立，接着抽取部分O2O注册供应商结合文本挖掘做验证，如果评价模型所给出的结果不准，或者文本挖掘到其它最新信息，则自动反馈调整模型参数的权重，达到自适应的目的。

附录

附录1

Python抓取网页示例代码如下：

附录2

正则表达式找url的示例代码如下：

Claims

1.基于文本挖掘的医疗器械O2O服务质量评价模型，其特征在于，包括：服务质量文本挖掘模块和服务质量模型库模块共两个模块，其中，

所述服务质量文本挖掘模块，用于对医疗器械网站上的论坛、顾客回复、客户聊天记录里的文本信息进行挖掘，抽取出服务质量相关的信息，进行建模；用于实现爬取互联网文本、分析文本、提取服务质量评价特征和执行挖掘四个步骤；

所述服务质量模型库模块用于实现模型参数选取和多元线性回归建模两个过程，其中，

Y＝α+βi*Xi

式中，Y指服务质量评价分，α是截距项，i取1到4，即4项参数；βi指回归系数，由最小二乘法估算得出；Xi指回归变量，即：经过数据预处理后可供回归计算用的4项指标数值；其特征在于还包括：爬取互联网文本、分析文本、提取服务质量评价特征和执行挖掘共四个步骤，其中，

步骤1：爬取互联网文本；

步骤2：分析文本；

指对爬取下来的文本进行分词和词性标注，其中，分词采用基于字符串的最大正向匹配法，词性标注采用隐马尔可夫方法，最大正向匹配法是假设词典中最大词条所含的汉字个数为n个，并且取待处理字符串的前n个字为匹配字段，再查找分词词典，若词典中含有待处理字符串，则匹配成功，将待处理字符串分出，然后从待处理字符串的n+1处重新开始n个字组成的字段继续在词典中匹配；如果匹配不成功，则剔除掉这n个字组成的字段的最后一位，用剩余的n-1个字组成的字段继续在词典中进行匹配，如此进行下去，直到切分成功为止；

步骤3：提取服务质量评价特征；指采用向量空间模型来提取服务质量评价特征，向量空间模型里每个词称为一个特征项，其表示形式为V(d)＝(t1,ω1(d)；…；tn,ωn(d))，其中的ti(i＝1,2,…,n)为特征项词条，ωi(d)为特征项在文本中的权重，以相对词频来表示特征项的权重，通过运用TF-IDF(Term Frequency-Inverse Document Frequency)公式得出，该特征项的权重的计算公式如下，

上式中，k表示词库的维度；tfi,j表示特征词出现的频率；N表示语料库中文档总数；dfj表示语料库中包含词的文档数；

步骤4：执行挖掘；

过程1：初始化目标分类数K；即对爬取下来的文档集合D＝{d1,d2,…,di,…,dn}指定目标分类数K；

过程2：产生聚类中心；指按照过程1的原则产生初始的聚类中心；

过程3：执行聚类；根据相似性度量sim(di,ck)，将爬取下来的文档分配到最相似

的类别中；

过程4：重新计算聚类中心；