CN108717411B - 一种基于大数据的调查问卷设计辅助系统 - Google Patents

一种基于大数据的调查问卷设计辅助系统 Download PDF

Info

Publication number
CN108717411B
CN108717411B CN201810503552.2A CN201810503552A CN108717411B CN 108717411 B CN108717411 B CN 108717411B CN 201810503552 A CN201810503552 A CN 201810503552A CN 108717411 B CN108717411 B CN 108717411B
Authority
CN
China
Prior art keywords
information
keyword
module
keywords
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810503552.2A
Other languages
English (en)
Other versions
CN108717411A (zh
Inventor
张子斌
牛永伟
吴鑫坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Datatang Technology Co ltd
Original Assignee
Anhui Datatang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Datatang Technology Co ltd filed Critical Anhui Datatang Technology Co ltd
Priority to CN201810503552.2A priority Critical patent/CN108717411B/zh
Publication of CN108717411A publication Critical patent/CN108717411A/zh
Application granted granted Critical
Publication of CN108717411B publication Critical patent/CN108717411B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开一种基于大数据的调查问卷设计辅助系统,包括信息爬虫模块、数据清洗模块、主题语义分析模块、评价语义分析模块、非结构化存储模块和多维度统计可视化模块;信息爬虫模块包括第一信息爬虫单元和第二信息爬虫单元,数据清洗模块与主题语义分析模块和评价语义分析模块连接,主题语义分析模块和评价语义分析模块分别通过非结构化存储模块与多维度统计可视化模块连接。本发明通过对输入调查方向的主体和关键字进行爬取、清洗和分析处理,以输出形成聚类的可视化多维度展现的与调查方向相关的主体和评价的热点、导向,从而辅助调查文件设计,提高了调查文件设计环节的工作效率,同时提高了调查问卷设计的可靠性和辅助能力。

Description

一种基于大数据的调查问卷设计辅助系统
技术领域
本发明属于大数据技术领域,涉及到一种基于大数据的调查问卷设计辅助系统。
背景技术
目前调查问卷的设计方法,主要通过以下几个流程来完成设计的辅助工作,例如,1.深入了解调查背景,2.相关文献调研,3.深入了解被访者情况,4.形成定性研究报告并提出相应假设,5.围绕假设,设置题目。
在问卷调查设计前期,需要花费大量时间和精力来围绕调查主题进行调研,对于多个地区的调查工作可能需要花费更多的精力在实地调研工作,不仅浪费调查人员的时间和精力,而且大大降低了调研的效率,并且无法对调研的内容进行可靠的分析以及无法对潜在的选项提供可靠的依据,为了解决以上问题,现设计一种基于大数据的调查问卷设计辅助系统。
发明内容
本发明的目的在于提供一种基于大数据的调查问卷设计辅助系统,解决了现有调查问卷设计需消耗大量的人力和物力,存在调研效率低,以及无法为调研内容提供可靠的分析和依据的问题。
本发明的目的可以通过以下技术方案实现:
一种基于大数据的调查问卷设计辅助系统,包括信息爬虫模块、数据清洗模块、主题语义分析模块、评价语义分析模块、非结构化存储模块和多维度统计可视化模块;
所述信息爬虫模块包括第一信息爬虫单元和第二信息爬虫单元,所述第一信息爬虫单元用于接收输入的主题、关键字信息,对爬虫进行初始化,通过主题、关键字寻找目标网络信息,开始进行爬取任务,爬取的内容包括页面数据中的结构化、非结构化文本、页面内和页面间的超链接,且通过多层相关链接的深度爬取,获取与主题和关键字的相关性较强的信息以为进一步处理做准备,并将爬虫抓取的数据信息发送至数据清洗模块;
第二信息爬虫单元对不同关键字所关联的评论信息进行爬取;
数据清洗模块对爬虫爬取的数据信息进行清理加工,通过预过滤提取所需的文本信息和链接信息,并进行分类,将提取的文本信息进行分词处理,以便于提取主题和关键字信息,并将分词后的主题和关键字信息主题语义分析模块,将链接信息发送至返回至第二信息爬取单元,实现数据信息的进一步爬取;
所述主题语义分析模块对分词过后的关键字信息进行分析,通过不同量化指标后将关键字排序,获取前N个作为关键字,对分析出的前N个关键字标注的地理位置、时间、传播途径维度进一步进行分析,将前N个关键字标注的地理位置、时间、传播途径维度构成文本向量,对文本向量进行特征提取,再通过降维,构建语义空间模型,把文本向量投影在语义空间,形成新文本向量;
所述评价语义分析模块通过量化指标对评价信息中的关键字进行排序,并标注多个维度信息,标注的多个维度的关键字发送至深度学习模块,便于深度学习模块进一步分析;
所述深度学习模块对关键字进行不同主题关键字方向的聚类分析,通过聚类分析和深度学习模型的训练,提高了语义关键字的聚类分析能力,产生对调查问卷主题方向不同分类下的问卷题目设计思路;
在分析评论信息时,深度学习模型对不同主题的评论信息进行聚类分析,形成该主题的多个聚类方向的候选答案,便于对调查问题的答案设计提供参考思路;
所述非结构化存储模块与深度学习模块连接,用于接收深度学习模块对不同主题关键字和评价信息进行分析的数据,并将接收的数据进行存储和读取;
多维度统计可视化模块用于调用非结构化存储模块中不同主题关键字以及关键字对应的评论信息,进行可视化处理,生成可视化中间结果,并将生成的可视化中间结果进行可视化输出。
进一步地,所述评论信息包括评价的地理位置、评论时间、传播途径、评论人信息、对该评论的点赞或反对数值。
进一步地,所述主题语义分析模块对分词过后的关键字信息进行分析,通过对以下几个属性方法进行计算,分别为:
a.主题关键字属性
当关键字是动词或者名词,且名词比其他属性词类更能表达主要的思想和结构,该属性需和其他属性结合使用;
b.关键字出现频率
在分词结果中出现的频率越高,该关键字在分词结果中作为核心词的权值就越大;
c.关键字出现位置属性
从中文结构来说,在分词结果中,出现在开头和结尾的关键字更具有代表性,其权值越高;
d.关键字主题相关性
关键字在分词结果后的相关性决定了其与主题的交互程度,取决于联合分布p(X,Y)和分解的边缘分布的乘积p(X)p(Y)的相似程度,相关性的计算公式如下:
Figure BDA0001670666470000041
其中,p(x,y)是X和Y的联合概率分布函数,X为关键字分词结果,Y是调查主题,p(x)和p(y)分别为X和Y的边缘概率分布函数,使用关键字主题作为关键字提取的特征量化时,对正文和标题构造Patricia Tree(PAT Tree),然后计算相关性。
e.关键字最大距离
关键字跨度是关键字或者关键字在分词结果后第一次出现和最后一次出现的距离,距离越大,该关键字的权值就有可能增加,有可能更接近主题主旨,关键字最大距离计算公式如下:
Figure BDA0001670666470000042
其中,lasti表示词i在文本中最后一次出现的位置,firsti表示为词i在文本中第一次出现的位置,sum表示为文本中词的总数。
进一步地,深度学习模块中所采用的的神经网络深度学习算法,包括以下步骤:
h1.把随机值[0,1]赋值给权值{Wij},i=1,2,3,……,N,确定学习效率初始值s(0)(0<s(0)<1),确定总学习次数T;
h2.选择学习模式中的一个模式Pk给神经网络输入层。
h3.根据权值矢量Wj=(w1j,…,wNj),算出Wj和Pk的向量距离dj
Figure BDA0001670666470000051
h4.找出最小距离dg=mid[dj],j=1,2,3,…,M;
h5.对所有神经元之间的连接权值w进行更新:
wij(t+1)=wij(t)+s(t)·[Pk i-wij],j∈Ng(t),j=1,2,…,M;
h6.选取新的学习模式,返回步骤h2,直至所有学习模式完成;
h7.更新学习速率G(t)以及邻域Ng(t),s(t)=s(0)[1-t/T],t为学习次数,T为学习总次数;
h8.t增加1,返回步骤h1.5,学习直至t=T结束;
对输入的向量,找出与权值W最靠近神经单元的输出为最终输出单元;
通过以上算法,以最靠近的神经单元进行信息的反馈,自主将聚类区域内各神经元的权值向量和输入向量逼近,使具有近似的特性输入向量聚集,完成聚类分析。
本发明的有益效果:
本发明提供的基于大数据的调查问卷设计辅助系统,通过对输入调查方向的主体和关键字进行爬取、清洗和分析处理,以输出形成聚类的可视化多维度展现的与调查方向相关的主体和评价的热点、导向,从而辅助调查文件设计,提高了调查文件设计环节的工作效率,同时提高了调查问卷设计的可靠性和辅助能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于大数据的调查问卷设计辅助系统的示意图;
图2为本发明中调查问卷设计辅助系统的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种基于大数据的调查问卷设计辅助系统,包括信息爬虫模块、数据清洗模块、主题语义分析模块、评价语义分析模块、非结构化存储模块和多维度统计可视化模块;
信息爬虫模块包括第一信息爬虫单元和第二信息爬虫单元,所述第一信息爬虫单元用于接收输入的主题、关键字信息,对爬虫进行初始化,通过主题、关键字自动寻找目标网络信息,开始进行爬取任务,爬取的内容包括页面数据中的结构化、非结构化文本、页面内和页面间的超链接,且通过多层相关链接的深度爬取,获取与主题和关键字的相关性较强的信息以为进一步处理做准备,并将爬虫抓取的数据信息发送至数据清洗模块;
当主题语义分析模块在完成主题、关键字分析后,第二信息爬虫单元对不同关键字所关联的评论信息进行爬取,所述评论信息包括评价的地理位置、评论时间、传播途径、评论人信息、对该评论的点赞或反对数值等维度,便于进一步深度分析;
数据清洗模块对爬虫爬取的数据信息进行清理加工,通过预过滤提取所需的文本信息和链接信息,并进行分类,将提取的文本信息进行分词处理,以便于提取主题和关键字信息,并将分词后的主题和关键字信息主题语义分析模块,将链接信息发送至返回至第二信息爬取单元,实现数据信息的进一步爬取。
主题语义分析模块对分词过后的关键字信息进行分析,通过对以下几个属性方法进行计算:
a.主题关键字属性
当关键字是动词或者名词,且名词比其他属性词类更能表达主要的思想和结构,该属性需和其他属性结合使用;
b.关键字出现频率
在分词结果中出现的频率越高,该关键字在分词结果中作为核心词的权值就越大;
c.关键字出现位置属性
从中文结构来说,在分词结果中,出现在开头和结尾的关键字更具有代表性,其权值越高;
d.关键字主题相关性
关键字在分词结果后的相关性决定了其与主题的交互程度,取决于联合分布p(X,Y)和分解的边缘分布的乘积p(X)p(Y)的相似程度,相关性的计算公式如下:
Figure BDA0001670666470000081
其中,p(x,y)是X和Y的联合概率分布函数,X为关键字分词结果,Y是调查主题,p(x)和p(y)分别为X和Y的边缘概率分布函数,使用关键字主题作为关键字提取的特征量化时,对正文和标题构造PatriciaTree(PAT Tree),然后计算相关性。
e.关键字最大距离
关键字跨度是关键字或者关键字在分词结果后第一次出现和最后一次出现的距离,距离越大,该关键字的权值就有可能增加,有可能更接近主题主旨,关键字最大距离计算公式如下:
Figure BDA0001670666470000082
其中,lasti表示词i在文本中最后一次出现的位置,firsti表示为词i在文本中第一次出现的位置,sum表示为文本中词的总数。
对以上关键字进行特征属性统计,通过不同量化指标后将关键字排序,获取前N个作为关键字,对分析出的前N个关键字标注的地理位置、时间、传播途径等维度,便于进一步分析,将前N个关键字标注的地理位置、时间、传播途径等维度构成文本向量,对文本向量进行特征提取,再通过降维,构建语义空间模型,把文本向量投影在语义空间,形成新文本向量。
评论语义分析模块,与主题语义分析模块相类似,评价语义分析模块通过量化指标对评价信息中的关键字进行排序,并标注多个维度信息,标注的多个维度的关键字发送至深度学习模块,便于深度学习模块进一步分析;
所述深度学习模块对关键字进行不同主题关键字方向的聚类分析,通过聚类分析和深度学习模型的训练,能更好的形成语义关键字的聚类分析能力,产生对调查问卷主题方向不同分类下的问卷题目设计思路。
在分析评论信息时,深度学习模型对不同主题的评论信息进行聚类分析,形成该主题的多个聚类方向的候选答案,便于对调查问题的答案设计提供参考思路。
深度学习模块中所采用的的神经网络深度学习算法,包括以下步骤:
h1.把随机值[0,1]赋值给权值{Wij},i=1,2,3,……,N,确定学习效率初始值s(0)(0<s(0)<1),确定总学习次数T;
h2.选择学习模式中的一个模式Pk给神经网络输入层。
h3.根据权值矢量Wj=(w1j,…,wNj),算出Wj和Pk的向量距离dj
Figure BDA0001670666470000091
h4.找出最小距离dg=mid[dj],j=1,2,3,…,M;
h5.对所有神经元之间的连接权值w进行更新:
wij(t+1)=wij(t)+s(t)·[Pk i-wij],j∈Ng(t),j=1,2,…,M;
h6.选取新的学习模式,返回步骤h2,直至所有学习模式完成;
h7.更新学习速率G(t)以及邻域Ng(t),s(t)=s(0)[1-t/T],t为学习次数,T为学习总次数;
h8.t增加1,返回步骤h1.5,学习直至t=T结束;
对输入的向量,找出与权值W最靠近神经单元的输出为最终输出单元。
通过以上算法,以最靠近的神经单元进行信息的反馈,自主将聚类区域内各神经元的权值向量和输入向量逼近,使具有近似的特性输入向量聚集,完成聚类分析。
非结构化存储模块与深度学习模块连接,用于接收深度学习模块对不同主题关键字和评价信息进行分析的数据,并将接收的数据进行存储和读取;
多维度统计可视化模块用于调用非结构化存储模块中不同主题关键字以及关键字对应的评论信息,进行可视化处理,生成可视化中间结果,并将生成的可视化中间结果进行可视化输出。
图2是该辅助系统的各模块间处理流程,通过输入调查方向主题、关键字输入,通过系统中的各个模块,最终输出为形成聚类的可视化多维度展现的有关调查方向相关主题和评论的热点、导向,从而辅助调查问卷设计。
本发明提供的基于大数据的调查问卷设计辅助系统,通过对输入调查方向的主体和关键字进行爬取、清洗和分析处理,以输出形成聚类的可视化多维度展现的与调查方向相关的主体和评价的热点、导向,从而辅助调查文件设计,提高了调查文件设计环节的工作效率,同时提高了调查问卷设计的可靠性和辅助能力。
以上内容仅仅是对本发明的构思所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的构思或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (3)

1.一种基于大数据的调查问卷设计辅助系统,其特征在于:包括信息爬虫模块、数据清洗模块、主题语义分析模块、评价语义分析模块、非结构化存储模块和多维度统计可视化模块;
所述信息爬虫模块包括第一信息爬虫单元和第二信息爬虫单元,所述第一信息爬虫单元用于接收输入的主题、关键字信息,对爬虫进行初始化,通过主题、关键字寻找目标网络信息,开始进行爬取任务,爬取的内容包括页面数据中的结构化、非结构化文本、页面内和页面间的超链接,且通过多层相关链接的深度爬取,获取与主题和关键字的相关性较强的信息以为进一步处理做准备,并将爬虫抓取的数据信息发送至数据清洗模块;
第二信息爬虫单元对不同关键字所关联的评论信息进行爬取;
数据清洗模块对爬虫爬取的数据信息进行清理加工,通过预过滤提取所需的文本信息和链接信息,并进行分类,将提取的文本信息进行分词处理,以便于提取主题和关键字信息,并将分词后的主题和关键字信息主题语义分析模块,将链接信息发送至返回至第二信息爬取单元,实现数据信息的进一步爬取;
所述主题语义分析模块对分词过后的关键字信息进行分析,通过不同量化指标后将关键字排序,获取前N个作为关键字,对分析出的前N个关键字标注的地理位置、时间、传播途径维度进一步进行分析,将前N个关键字标注的地理位置、时间、传播途径维度构成文本向量,对文本向量进行特征提取,再通过降维,构建语义空间模型,把文本向量投影在语义空间,形成新文本向量;
所述评价语义分析模块通过量化指标对评价信息中的关键字进行排序,并标注多个维度信息,标注的多个维度的关键字发送至深度学习模块,便于深度学习模块进一步分析;
所述深度学习模块对关键字进行不同主题关键字方向的聚类分析,通过聚类分析和深度学习模型的训练,提高了语义关键字的聚类分析能力,产生对调查问卷主题方向不同分类下的问卷题目设计思路;
在分析评论信息时,深度学习模型对不同主题的评论信息进行聚类分析,形成该主题的多个聚类方向的候选答案,便于对调查问题的答案设计提供参考思路;
所述非结构化存储模块与深度学习模块连接,用于接收深度学习模块对不同主题关键字和评论信息进行分析的数据,并将接收的数据进行存储和读取;
多维度统计可视化模块用于调用非结构化存储模块中不同主题关键字以及关键字对应的评论信息,进行可视化处理,生成可视化中间结果,并将生成的可视化中间结果进行可视化输出。
2.根据权利要求1所述的一种基于大数据的调查问卷设计辅助系统,其特征在于:所述评论信息包括评价的地理位置、评论时间、传播途径、评论人信息、对该评论的点赞或反对数值。
3.根据权利要求1所述的一种基于大数据的调查问卷设计辅助系统,其特征在于:所述主题语义分析模块对分词过后的关键字信息进行分析,通过对以下几个属性方法进行计算,分别为:
a.主题关键字属性
当关键字是动词或者名词,且名词比其他属性词类更能表达主要的思想和结构,该属性需和其他属性结合使用;
b.关键字出现频率
在分词结果中出现的频率越高,该关键字在分词结果中作为核心词的权值就越大;
c.关键字出现位置属性
从中文结构来说,在分词结果中,出现在开头和结尾的关键字更具有代表性,其权值越高;
d.关键字主题相关性
关键字在分词结果后的相关性决定了其与主题的交互程度,取决于联合分布p(X,Y)和分解的边缘分布的乘积p(X)p(Y)的相似程度,相关性的计算公式如下:
Figure FDA0003382878950000031
其中,p(x,y)是X和Y的联合概率分布函数,X为关键字分词结果,Y是调查主题,p(x)和p(y)分别为X和Y的边缘概率分布函数,使用关键字主题作为关键字提取的特征量化时,对正文和标题构造PatriciaTree(PAT Tree),然后计算相关性;
e.关键字最大距离
关键字跨度是关键字或者关键字在分词结果后第一次出现和最后一次出现的距离,距离越大,该关键字的权值就有可能增加,有可能更接近主题主旨,关键字最大距离计算公式如下:
Figure FDA0003382878950000041
其中,lasti表示词i在文本中最后一次出现的位置,firsti表示为词i在文本中第一次出现的位置,sum表示为文本中词的总数。
CN201810503552.2A 2018-05-23 2018-05-23 一种基于大数据的调查问卷设计辅助系统 Active CN108717411B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810503552.2A CN108717411B (zh) 2018-05-23 2018-05-23 一种基于大数据的调查问卷设计辅助系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810503552.2A CN108717411B (zh) 2018-05-23 2018-05-23 一种基于大数据的调查问卷设计辅助系统

Publications (2)

Publication Number Publication Date
CN108717411A CN108717411A (zh) 2018-10-30
CN108717411B true CN108717411B (zh) 2022-04-08

Family

ID=63900473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810503552.2A Active CN108717411B (zh) 2018-05-23 2018-05-23 一种基于大数据的调查问卷设计辅助系统

Country Status (1)

Country Link
CN (1) CN108717411B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831817A (zh) * 2020-07-28 2020-10-27 平安国际融资租赁有限公司 问卷生成分析方法、装置、计算机设备及可读存储介质
CN112418945B (zh) * 2020-11-26 2024-01-12 深圳市中博科创信息技术有限公司 一种基于企业服务门户的经济热点发现分析系统及方法
CN114003793A (zh) * 2021-10-29 2022-02-01 苏州城室科技有限公司 一种基于图片迫选法的调查问卷自动生成方法
CN115630613B (zh) * 2022-12-19 2023-04-07 长沙冉星信息科技有限公司 一种问卷调查中评价类问题的自动编码系统及其方法
CN117556064B (zh) * 2024-01-11 2024-03-26 北京邮电大学 基于大数据分析的信息分类存储方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441636A (zh) * 2007-11-21 2009-05-27 中国科学院自动化研究所 一种基于知识库的医院信息搜索引擎及系统
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN106708969A (zh) * 2016-12-02 2017-05-24 山西大学 文献资源主题聚类共现潜在语义向量空间模型语义核方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9600568B2 (en) * 2006-01-23 2017-03-21 Veritas Technologies Llc Methods and systems for automatic evaluation of electronic discovery review and productions
CN101315680B (zh) * 2007-05-31 2011-03-16 中国科学院自动化研究所 基于自动调查问卷的群体意见定性分析工具及实现方法
US8577884B2 (en) * 2008-05-13 2013-11-05 The Boeing Company Automated analysis and summarization of comments in survey response data
CN103488635A (zh) * 2012-06-11 2014-01-01 腾讯科技(深圳)有限公司 一种获取产品信息的方法及装置
CN104391969B (zh) * 2014-12-04 2018-01-30 百度在线网络技术(北京)有限公司 确定用户查询语句句法结构的方法及装置
CN107330627B (zh) * 2017-07-05 2021-06-11 山东大学 一种创新创意的大数据处理方法、服务器及系统
CN107392829A (zh) * 2017-08-21 2017-11-24 中国电建集团北京勘测设计研究院有限公司 水电水利工程移民评估信息系统
CN107644015B (zh) * 2017-10-19 2020-02-18 厦门大学 基于机器学习的调查问卷自动生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441636A (zh) * 2007-11-21 2009-05-27 中国科学院自动化研究所 一种基于知识库的医院信息搜索引擎及系统
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN106708969A (zh) * 2016-12-02 2017-05-24 山西大学 文献资源主题聚类共现潜在语义向量空间模型语义核方法

Also Published As

Publication number Publication date
CN108717411A (zh) 2018-10-30

Similar Documents

Publication Publication Date Title
CN108717411B (zh) 一种基于大数据的调查问卷设计辅助系统
CN109284357B (zh) 人机对话方法、装置、电子设备及计算机可读介质
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
US9009134B2 (en) Named entity recognition in query
CN111259127B (zh) 一种基于迁移学习句向量的长文本答案选择方法
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
Jotheeswaran et al. OPINION MINING USING DECISION TREE BASED FEATURE SELECTION THROUGH MANHATTAN HIERARCHICAL CLUSTER MEASURE.
CN111291188A (zh) 一种智能信息抽取方法及系统
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN115796181A (zh) 一种针对化工领域的文本关系抽取方法
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
CN111324691A (zh) 一种基于知识图谱的少数民族领域智能问答方法
Kamath et al. Sentiment analysis based approaches for understanding user context in web content
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN113569023A (zh) 一种基于知识图谱的中文医药问答系统及方法
CN111368555B (zh) 一种数据识别方法、装置、存储介质和电子设备
Efremova et al. Multi-source entity resolution for genealogical data
CN112989208A (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN115599899A (zh) 基于飞行器知识图谱的智能问答方法、系统、设备及介质
CN116127099A (zh) 基于图卷积网络的联合文本增强的表实体与类型注释方法
Reddy et al. Convolutional recurrent neural network with template based representation for complex question answering
CN115203507A (zh) 一种面向文书领域的基于预训练模型的事件抽取方法
Wankerl et al. f2tag—Can Tags be Predicted Using Formulas?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant