CN113901219A - 一种基于意图识别的数据分析方法及系统 - Google Patents
一种基于意图识别的数据分析方法及系统 Download PDFInfo
- Publication number
- CN113901219A CN113901219A CN202111181632.9A CN202111181632A CN113901219A CN 113901219 A CN113901219 A CN 113901219A CN 202111181632 A CN202111181632 A CN 202111181632A CN 113901219 A CN113901219 A CN 113901219A
- Authority
- CN
- China
- Prior art keywords
- data
- analyzed
- words
- word
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种基于意图识别的数据分析方法及系统,通过将待分析数据中的词语映射成预设维度的特征向量,并在对语义角色标注后,利用基于语义角色标注结果确定的有效特征确定有效特征的特征向量,实现对待分析数据的分类,实现了通过待分析数据中有效特征的特征向量分析待分析数据的相似性,从而确定待分析数据所属领域,以便于能够基于待分析数据的领域对待分析数据进行有效分析,以弥补直接基于语义角色标注方法进行待分析数据的分析的不足。
Description
技术领域
本申请涉及自然语言处理领域,尤其涉及一种基于意图识别的数据分析方法及系统。
背景技术
业务行为数据是用户在能源电商平台中针对某个业务所作的操作产生的数据集,一半会在业务系统中相应的位置埋点,通过收集日志的方式对业务行为数据进行分析。
对业务行为数据进行分析时,通常通过语义角色标注的方式对句子中各成分与谓词之间的关系进行确定,但是采用语义角色标注方法仅依赖句法分析的结果,领域适应性太差。
发明内容
有鉴于此,本申请提供一种基于意图识别的数据分析方法及系统,其具体方案如下:
一种基于意图识别的数据分析方法,包括:
获得待分析数据;
对所述待分析数据中的词语进行词义消歧,确定所述词语在所述待分析数据中的词义;
将所述待分析数据中的词语映射成预设维度的特征向量;
对所述待分析数据进行语义角色标注,基于语义角色标注结果确定所述待分析数据的有效特征;
从所述待分析数据中的词语映射成的预设维度的特征向量中选取与所述待分析数据的有效特征对应的第一特征向量组,将所述第一特征向量组输入至预先训练的分类模型,确定所述待分析数据的分析结果。
进一步的,所述对所述待分析数据中的词语进行词义消歧,确定所述词语在所述待分析数据中的词义,包括:
基于有监督的训练数据确定所述待分析数据中的词语的标注语义;
或,
基于无监督的消歧算法对所述待分析数据中的词语对应的伪词进行语义消歧。
进一步的,还包括:
对所述待分析数据进行分词处理,得到分词后的待分析数据中的词语组;
确定所述分词后的待分析数据中的词语是否包括停用词,若包括停用词,则删除所述词语组中的停用词。
进一步的,所述将所述待分析数据中的词语映射成预设维度的特征向量,包括:
基于预设的文本语料库,通过预设的神经网络模型将所述待分析数据中的每个词语映射成预设维度的特征向量。
进一步的,所述对所述待分析数据进行语义角色标注,包括:
对所述待分析数据进行语法分析,确定所述待分析数据中的谓词及所述谓词的论元。
进一步的,所述对所述待分析数据进行语法分析,确定所述待分析数据中的谓词及所述谓词的论元,包括:
对所述待分析数据进行语法分析,确定所述待分析数据中的谓词及所述谓词的候选论元;
基于预设条件删除所述候选论元中的部分论元,基于二值分类方式从删除所述部分论元后的候选论元中确定所述谓词的论元。
一种基于意图识别的数据分析系统,包括:
获得单元,用于获得待分析数据;
第一确定单元,用于对所述待分析数据中的词语进行词义消歧,确定所述词语在所述待分析数据中的词义;
特征提取单元,用于将所述待分析数据中的词语映射成预设维度的特征向量;
第二确定单元,用于对所述待分析数据进行语义角色标注,基于语义角色标注结果确定所述待分析数据的有效特征;
第三确定单元,用于从所述待分析数据中的词语映射成的预设维度的特征向量中选取与所述待分析数据的有效特征对应的第一特征向量组,将所述第一特征向量组输入至预先训练的分类模型,确定所述待分析数据的分析结果。
进一步的,还包括:
预处理单元,用于对所述待分析数据进行分词处理,得到分词后的待分析数据中的词语组;确定所述分词后的待分析数据中的词语是否包括停用词,若包括停用词,则删除所述词语组中的停用词。
进一步的,所述特征提取单元用于:
基于预设的文本语料库,通过预设的神经网络模型将所述待分析数据中的每个词语映射成预设维度的特征向量。
进一步的,所述第二确定单元用于:
对所述待分析数据进行语法分析,确定所述待分析数据中的谓词及所述谓词的论元。
从上述技术方案可以看出,本申请公开的基于意图识别的数据分析方法及系统,获得待分析数据,对待分析数据中的词语进行词义消歧,确定词语在待分析数据中的词义,将待分析数据中的词语映射成预设维度的特征向量,对待分析数据进行语义角色标注,基于语义角色标注结果确定待分析数据的有效特征,从待分析数据中的词语映射成的预设维度的特征向量中选取与待分析数据的有效特征对应的第一特征向量组,将第一特征向量组输入至预先训练的分类模型,确定待分析数据的分析结果。本方案通过将待分析数据中的词语映射成预设维度的特征向量,并在对语义角色标注后,利用基于语义角色标注结果确定的有效特征确定有效特征的特征向量,实现对待分析数据的分类,实现了通过待分析数据中有效特征的特征向量分析待分析数据的相似性,从而确定待分析数据所属领域,以便于能够基于待分析数据的领域对待分析数据进行有效分析,以弥补直接基于语义角色标注方法进行待分析数据的分析的不足。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种基于意图识别的数据分析方法的流程图;
图2为本申请实施例公开的一种基于意图识别的数据分析方法的流程图;
图3为本申请实施例公开的一种基于意图识别的数据分析方法的流程图;
图4为本申请实施例公开的一种论元标注过程的示意图;
图5为本申请实施例公开的一种基于短语结构树的语义角色标注方法示意图;
图6为本申请实施例公开的一种基于意图识别的数据分析系统的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请公开了一种基于意图识别的数据分析方法,其流程图如图1所示,包括:
步骤S11、获得待分析数据;
步骤S12、对待分析数据中的词语进行语义消歧,确定词语在待分析数据中的词义;
步骤S13、将待分析数据中的词语映射成预设维度的特征向量;
步骤S14、对待分析数据进行语义角色标注,基于语义角色标注结果确定待分析数据的有效特征;
步骤S15、从待分析数据中的词语映射成的预设维度的特征向量中选取与待分析数据的有效特征对应的第一特征向量组,将第一特征向量组输入至预先训练的分类模型,确定待分析数据的分析结果。
电商平台中的用户行为频繁且复杂,系统上线运行一段时间后,可以收集到大量的用户行为数据,进而利用大数据技术进行深入挖掘和分析,得到感兴趣的商业指标并增强对风险的控制。
电商用户行为数据多样,可分为:用户行为习惯数据和业务行为数据,其中,用户行为习惯数据如:用户的登录方式、上线的时刻及时长、点击和浏览页面、页面停留时长及页面跳转等,可以从中进行流量统计和热门商品的统计,也可以深入挖掘用户的特征,这些数据通常可以从web服务器日志中直接读取到;业务行为数据是用户在电商平台中针对每个业务所做的操作,如针对某个商品的收藏或购买等操作行为,通常会在业务系统中相应额位置进行埋点,之后收集日志进行分析。
也就是说,待分析数据是从系统日志中获得的,该分析数据可以为一个完整的句子,或者一段文字。
对待分析数据中的词语进行语义消歧,以确定词语在待分析数据中的词义。
由于词语是能够独立运用的最小语言单位,句子中的每个词的含义及其在特定语境下的相互作用构成了整个句子的含义,因此,词义消歧是句子和篇章语义理解的基础,其任务是确定一个多义词在给定上下文语境中的具体含义。
词义消歧的方法份为有监督的消歧方法和无监督的消歧方法,即基于有监督的训练数据确定待分析数据中的词语的标注语义,或,基于无监督的消歧算法对待分析数据中的词语对应的伪词进行语义消歧。
其中,在有监督的消歧方法中,训练数据是已知的,即每个词的词义是被标注了的,只需要从被标注了的词语中确定该词语在当前语境下在待分析数据中的语义即可;
在采用有监督的词义消歧方法中,需要大量训练数据,这就造成了人工对训练数据中词语的标注较为困难,为了避免这一问题,采用无监督的消歧方法,通过人工制造数据的方式来获得大规模训练数据和测试数据,其训练数据的来源为:将两个自然词汇合并,创建一个伪词,通过伪词替代出现在语料中的原自然词汇,则带有伪词的文本作为歧义原文本,带有原自然词汇的最初文本作为消歧后的文本,将歧义原文本与消歧后的文本作为训练数据进行模型训练。
其中,带有伪词的文本通常是能够从能源电商直接采集得到,比如:第一自然词汇:电闸,第二自然词汇:着火了,将两个自然词汇合并,得到伪词:电闸着火了,通过消歧算法对该伪词及两个自然词汇进行模型训练。
无论是通过有监督的消歧方法还是通过无监督的消歧方法获得词语在待分析数据中的词义,之后将词语映射成预设维度的特征向量。
具体的,基于预设的文本语料库,通过预设的神经网络模型将待分析数据中的每个词语映射成预设维度的特征向量。
预设的神经网络模型可以为:前向神经网络模型、卷积神经网络模型、循环神经网络模型等,基于不同的待分析数据选择相应的神经网络模型。
基于预设的文本语料库中的大量语料信息,通过预设的神经网络模型,将每个词语映射成预设维度的特征向量,维度通常在几十到几百维之间,每个向量就代表一个词语,词语的语义和语法相似性可通过向量的相似度来判断。
将词语映射成向量,可通过训练的方式获得,每个词语在不同的语料库和不同的训练模式下,其得到的向量可能是不同的。训练的方法较多,如:word2vec,即将词语表征为实数值向量的一种高效的模型,可利用深度学习的思想,通过训练把对文本内容的处理简化为K维向量空间中的算法运算。
若待分析数据为句子,则对待分析数据进行语义角色标注,若待分析数据为段落,则对待分析数据中的每个句子进行语义角色标注,从而确定待分析数据中的有效特征。
语义角色标注是以句子为单位的一种浅层语义分析技术,其并不对句子所包含的语义信息进行深入分析,而只是分析句子的谓词-论元结构,并用语义角色来描述这个谓词-论元结构。具体的,语义角色标注是以句子的谓词为中心,研究句子中各成分与谓词之间的关系,并且用语义角色来描述它们之间的关系。
设定句子中的谓词是确定的,对待分析数据进行语义角色标注实际做的是确定该谓词的各个论元以及各论元的语义角色。
在通过语义角色标注确定待分析句子中的谓词及谓词对应的论元后,确定待分析句子中的有效特征,如:谓词本身、路径、短语类型、位置、语态、中心词、从属类别、论元的第一个词或最后一个词、组合特征等。
基于确定的有效特征从之前已映射成特征向量的待分析数据中选取与有效特征对应的词语的特征向量,若待分析数据中的有效特征为多个,则选取的特征向量为多个,将选取的多个特征向量确定为第一特征向量组,将有效特征对应的特征向量输入至分类模型,以便于能够通过分类模型实现对待分析数据的分类,以确定待分析数据所属的类型,从而确定用户输入该待分析数据的意图。
不同的意图会有不同的领域词典,即当确定待分析数据所属的类型为第一类型时,确定用户输入该第一类型的数据的意图,从而确定与该意图对应的领域词典,例如:书名、歌曲名、商品名等。当确定意图后,根据意图和词典的匹配程度或重合程度来进行判断,确定该意图与哪一个词典的重合度高,就将其确认为该词典对应的领域。其中,词典可以为数据库。
本实施例公开的基于意图识别的数据分析方法,获得待分析数据,对待分析数据中的词语进行词义消歧,确定词语在待分析数据中的词义,将待分析数据中的词语映射成预设维度的特征向量,对待分析数据进行语义角色标注,基于语义角色标注结果确定待分析数据的有效特征,从待分析数据中的词语映射成的预设维度的特征向量中选取与待分析数据的有效特征对应的第一特征向量组,将第一特征向量组输入至预先训练的分类模型,确定待分析数据的分析结果。本方案通过将待分析数据中的词语映射成预设维度的特征向量,并在对语义角色标注后,利用基于语义角色标注结果确定的有效特征确定有效特征的特征向量,实现对待分析数据的分类,实现了通过待分析数据中有效特征的特征向量分析待分析数据的相似性,从而确定待分析数据所属领域,以便于能够基于待分析数据的领域对待分析数据进行有效分析,以弥补直接基于语义角色标注方法进行待分析数据的分析的不足。
本实施例公开了一种基于意图识别的数据分析方法,其流程图如图2所示,包括:
步骤S21、获得待分析数据;
步骤S22、对待分析数据进行分词处理,得到分词后的待分析数据中的词语组;
步骤S23、确定分词后的待分析数据中的词语是否包括停用词,若包括停用词,删除词语组中的停用词;
步骤S24、对待分析数据中的词语进行词义消歧,确定词语在待分析数据中的词义;
步骤S25、将待分析数据中的词语映射成预设维度的特征向量;
步骤S26、对待分析数据进行语义角色标注,基于语义角色标注结果确定待分析数据的有效特征;
步骤S27、从待分析数据中的词语映射成的预设维度的特征向量中选取与待分析数据的有效特征对应的第一特征向量组,将第一特征向量组输入至预先训练的分类模型,确定待分析数据的分析结果。
在获得待分析数据后,首先对待分析数据进行预处理,其中,预处理主要包括:分词处理及停用词处理。
由于特征粒度为词粒度是好于字粒度的,因此基于字粒度的分类算法是会损失过多的N-Gram信息,其中,N-Gram即汉语语言模型,其利用上下文中相邻词语间的搭配信息,在需要把连续无空格的拼音、比划、或代表字母、或比划的数字,转换成句子时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了多个汉字对应一个拼音的重码问题。
中文分词主要分为两类方法,即基于词典的中文分词和基于统计的中文分词。
其中,基于词典的中文分词方法是首先建立统一的词典表,当需要对一个句子进行分词时,首先将句子拆分成多个部分,将每个部分与词典一一对应,如果该词语在词典中,则表明分词成功,若词典中并未包括该词语,则继续拆分,直至拆分出词典中包括的词语。因此,基于词典的中文分词方法中词典、拆分规则和匹配顺序是核心步骤。
基于统计的中文分词方法,其中,将分词看做一个概率最大化问题,即拆分句子,基于语料库,统计相邻的字组成的词语出现的概率,相邻的字出现的次数多,则表明其出现的概率大,按照概率值进行分词,因此,需要完整的语料库。
另外,分词方法还可以包括:基于理解的分词方法,其是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。其通常包括分词子系统、句法语义子系统及总控部分,在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即模拟用户对句子的理解过程,这种分词方法需要使用大量的语言知识和信息。
在分词完成后,需要调用停用词字典,当待分析数据分出的词语组中包括停用词字典中的词语,则将待分析数据中与停用词字典中相同的词语删除,以使得经过预处理后的待分析数据中的词语中不包括停用词字典中的词语。其中,停用词字典包括部分副词、形容词及连接词。
进一步的,将待分析数据的有效特征对应的第一特征向量组输入至分类模型,以确定分类结果,其中的分类模型可以为传统的机器学习算法中能够用来分类的模型,如:NB模型、随机森林模型、SVM分类模型、KNN分类模型等,另外,还可以包括深度学习分类模型,如:FastText模型、TextCNN模型、TextRNN模型等。
本实施例公开的基于意图识别的数据分析方法,获得待分析数据,对待分析数据中的词语进行词义消歧,确定词语在待分析数据中的词义,将待分析数据中的词语映射成预设维度的特征向量,对待分析数据进行语义角色标注,基于语义角色标注结果确定待分析数据的有效特征,从待分析数据中的词语映射成的预设维度的特征向量中选取与待分析数据的有效特征对应的第一特征向量组,将第一特征向量组输入至预先训练的分类模型,确定待分析数据的分析结果。本方案通过将待分析数据中的词语映射成预设维度的特征向量,并在对语义角色标注后,利用基于语义角色标注结果确定的有效特征确定有效特征的特征向量,实现对待分析数据的分类,实现了通过待分析数据中有效特征的特征向量分析待分析数据的相似性,从而确定待分析数据所属领域,以便于能够基于待分析数据的领域对待分析数据进行有效分析,以弥补直接基于语义角色标注方法进行待分析数据的分析的不足。
本实施例公开了一种基于意图识别的数据分析方法,其流程图如图3所示,包括:
步骤S31、获得待分析数据;
步骤S32、对待分析数据中的词语进行词义消歧,确定词语在待分析数据中的词义;
步骤S33、将待分析输数据中的词语映射成预设维度的特征向量;
步骤S34、对待分析数据进行语法分析,确定待分析数据中的谓词及谓词的候选论元;
步骤S35、基于预设条件删除候选论元中的部分论元,基于二值分类方式从删除部分论元后的候选论元中确定谓词的论元,基于所述谓词及谓词的论元确定待分析数据的有效特征;
步骤S36、从待分析数据中的词语映射成的预设维度的特征向量中选取与待分析数据的有效特征对应的第一特征向量组,将第一特征向量组输入至预先训练的分类模型,确定待分析数据的分析结果。
设定待分析数据中的谓词是确定的,从待分析数据中确定出谓词的各个论元。其中,谓词是对主语的陈述或说明,如:做什么,是什么,怎么样等,代表了一个事件的核心,而论元即与谓词搭配的名词,语义角色是指论元在动词所指事件中担任的角色,如:施事者、受事者、客体、经验者、受益者、工具、目标、来源等。
首先通过语法分析确定出谓词的多个候选论元,之后从多个候选论元中选出不可能成为论元的项,将其删除,以减少候选论元;从删除部分论元之后的候选论元中识别出谓词的真实论元,其识别过程通常采用二值分类的方法实现。
在识别到谓词的真实论元后,对论元进行标注,标注前需要确定对应的特征,以便于基于关系树的语义角色标注方法来进行,语义角色标注方法是基于依存分析树进行的。由于短语结构树与依存结构树不同,因此基于二者的语义角色标注方法也是不同的。
在基于短语结构树的语义角色标注方法中,论元被表示为连续的几个词和一个语义角色标签,如图4所示为论元标注过程,其中的(事故,原因),这两个词一起作为论元A1,而在基于依存关系树的语义角色标注方法中,一个论元被表示为一个中心词和一个语义角色标签,如:依存关系树中(原因)是(事故)的中心词,那么,只要标注出(原因)为论元A1即可,也即谓词-论元关系可以表示为谓词和论元中心词之间的关系。如图5所示,为基于短语结构树的语义角色标注方法示意图。
其中,ROOT为一个句子中不依赖于其他成分的成分,即为根,OBJ为宾语,NMOD为复合名词修饰,VMOD为动词修饰;PU为断句符、IP为简单从句、NP为名词短语、VP为动词短语、ADVP为副词短语、VV为动词。
在论元标注阶段,要为前一阶段识别出来的真实论元标注语义角色,论元标注通常被作为一个多值分类问题,其类别集合就是所有的语义角色标签;并在经过论元标注后,进行后处理,即对已得到的语义角色标注结果进行处理,其中,处理包括删除语义角色重复的论元。
本方案中在进行语义角色标注的过程中,可同时采用不同的方式进行,如:基于短语结构树的语义角色标注方法、基于浅层句法分析结果的语义角色标注方法以及基于依存句法分析结果的语义角色标注方法,可同时采用上述三种语义角色标注方法进行语义角色的标注,以减轻语法分析错误对语义角色标注的影响,利用不同语义角色标注结果之间的差异性和互补性,综合获得一个最终的结果。
采用这种方式,通常首先根据多个不同的语义角色标注方法分别进行语义角色标注,得到多个语义角色标注结果,之后通过融合技术将每个语义角色标注结果中正确的部分组合起来,获得一个全部正确的语义角色标注结果。其中,确定语义角色标注结果中正确的部分,可以为通过多种不同的语义角色标注结果中每个词语的标注结果的概率进行确定,将每个词语的标注结果中出现概率高的结果确定为该词语的角色标注结果,从而得到完整的一句话的语义角色标注结果。
本实施例公开的基于意图识别的数据分析方法,获得待分析数据,对待分析数据中的词语进行词义消歧,确定词语在待分析数据中的词义,将待分析数据中的词语映射成预设维度的特征向量,对待分析数据进行语义角色标注,基于语义角色标注结果确定待分析数据的有效特征,从待分析数据中的词语映射成的预设维度的特征向量中选取与待分析数据的有效特征对应的第一特征向量组,将第一特征向量组输入至预先训练的分类模型,确定待分析数据的分析结果。本方案通过将待分析数据中的词语映射成预设维度的特征向量,并在对语义角色标注后,利用基于语义角色标注结果确定的有效特征确定有效特征的特征向量,实现对待分析数据的分类,实现了通过待分析数据中有效特征的特征向量分析待分析数据的相似性,从而确定待分析数据所属领域,以便于能够基于待分析数据的领域对待分析数据进行有效分析,以弥补直接基于语义角色标注方法进行待分析数据的分析的不足。
本实施例公开了一种基于意图识别的数据分析系统,其结构示意图如图6所示,包括:
获得单元61,第一确定单元62,特征提取单元63,第二确定单元64及第三确定单元65。
其中,获得单元61用于获得待分析数据;
第一确定单元62用于对待分析数据中的词语进行词义消歧,确定词语在待分析数据中的词义;
特征提取单元63用于将待分析数据中的词语映射成预设维度的特征向量;
第二确定单元64用于对待分析数据进行语义角色标注,基于语义角色标注结果确定待分析数据的有效特征;
第三确定单元65用于从待分析数据中的词语映射成的预设维度的特征向量中选取与待分析数据的有效特征对应的第一特征向量组,将第一特征向量组输入至预先训练的分类模型,确定待分析数据的分析结果。
进一步的,第一确定单元用于基于有监督的训练数据确定待分析数据中的词语的标注语义;或,基于无监督的消歧算法对待分析数据中的词语对应的伪词进行语义消歧。
进一步的,本实施例公开的数据分析系统,还可以包括:预处理单元。
预处理单元对待分析数据进行分词处理,得到分词后的待分析数据中的词语组;确定分词后的待分析数据中的词语是否包括停用词,若包括停用词,则删除所述词语组中的停用词。
进一步的,特征提取单元用于:
基于预设的文本语料库,通过预设的神经网络模型将待分析数据中的每个词语映射成预设维度的特征向量。
进一步的,第二确定单元用于:
对待分析数据进行语法分析,确定待分析数据中的谓词及所述谓词的论元。
进一步的,第二确定单元用于:
对待分析数据进行语法分析,确定待分析数据中的谓词及谓词的候选论元;基于预设条件删除候选论元中的部分论元,基于二值分类方式从删除部分论元后的候选论元中确定谓词的论元。
本实施例公开的数据分析系统是基于上述实施例公开的数据分析方法实现的,在此不再赘述。
本实施例公开的基于意图识别的数据分析系统,获得待分析数据,对待分析数据中的词语进行词义消歧,确定词语在待分析数据中的词义,将待分析数据中的词语映射成预设维度的特征向量,对待分析数据进行语义角色标注,基于语义角色标注结果确定待分析数据的有效特征,从待分析数据中的词语映射成的预设维度的特征向量中选取与待分析数据的有效特征对应的第一特征向量组,将第一特征向量组输入至预先训练的分类模型,确定待分析数据的分析结果。本方案通过将待分析数据中的词语映射成预设维度的特征向量,并在对语义角色标注后,利用基于语义角色标注结果确定的有效特征确定有效特征的特征向量,实现对待分析数据的分类,实现了通过待分析数据中有效特征的特征向量分析待分析数据的相似性,从而确定待分析数据所属领域,以便于能够基于待分析数据的领域对待分析数据进行有效分析,以弥补直接基于语义角色标注方法进行待分析数据的分析的不足。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于意图识别的数据分析方法,其特征在于,包括:
获得待分析数据;
对所述待分析数据中的词语进行词义消歧,确定所述词语在所述待分析数据中的词义;
将所述待分析数据中的词语映射成预设维度的特征向量;
对所述待分析数据进行语义角色标注,基于语义角色标注结果确定所述待分析数据的有效特征;
从所述待分析数据中的词语映射成的预设维度的特征向量中选取与所述待分析数据的有效特征对应的第一特征向量组,将所述第一特征向量组输入至预先训练的分类模型,确定所述待分析数据的分析结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述待分析数据中的词语进行词义消歧,确定所述词语在所述待分析数据中的词义,包括:
基于有监督的训练数据确定所述待分析数据中的词语的标注语义;
或,
基于无监督的消歧算法对所述待分析数据中的词语对应的伪词进行语义消歧。
3.根据权利要求1所述的方法,其特征在于,还包括:
对所述待分析数据进行分词处理,得到分词后的待分析数据中的词语组;
确定所述分词后的待分析数据中的词语是否包括停用词,若包括停用词,则删除所述词语组中的停用词。
4.根据权利要求1所述的方法,其特征在于,所述将所述待分析数据中的词语映射成预设维度的特征向量,包括:
基于预设的文本语料库,通过预设的神经网络模型将所述待分析数据中的每个词语映射成预设维度的特征向量。
5.根据权利要求1所述的方法,其特征在于,所述对所述待分析数据进行语义角色标注,包括:
对所述待分析数据进行语法分析,确定所述待分析数据中的谓词及所述谓词的论元。
6.根据权利要求5所述的方法,其特征在于,所述对所述待分析数据进行语法分析,确定所述待分析数据中的谓词及所述谓词的论元,包括:
对所述待分析数据进行语法分析,确定所述待分析数据中的谓词及所述谓词的候选论元;
基于预设条件删除所述候选论元中的部分论元,基于二值分类方式从删除所述部分论元后的候选论元中确定所述谓词的论元。
7.一种基于意图识别的数据分析系统,其特征在于,包括:
获得单元,用于获得待分析数据;
第一确定单元,用于对所述待分析数据中的词语进行词义消歧,确定所述词语在所述待分析数据中的词义;
特征提取单元,用于将所述待分析数据中的词语映射成预设维度的特征向量;
第二确定单元,用于对所述待分析数据进行语义角色标注,基于语义角色标注结果确定所述待分析数据的有效特征;
第三确定单元,用于从所述待分析数据中的词语映射成的预设维度的特征向量中选取与所述待分析数据的有效特征对应的第一特征向量组,将所述第一特征向量组输入至预先训练的分类模型,确定所述待分析数据的分析结果。
8.根据权利要求7所述的系统,其特征在于,还包括:
预处理单元,用于对所述待分析数据进行分词处理,得到分词后的待分析数据中的词语组;确定所述分词后的待分析数据中的词语是否包括停用词,若包括停用词,则删除所述词语组中的停用词。
9.根据权利要求7所述的系统,其特征在于,所述特征提取单元用于:
基于预设的文本语料库,通过预设的神经网络模型将所述待分析数据中的每个词语映射成预设维度的特征向量。
10.根据权利要求7所述的系统,其特征在于,所述第二确定单元用于:
对所述待分析数据进行语法分析,确定所述待分析数据中的谓词及所述谓词的论元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111181632.9A CN113901219A (zh) | 2021-10-11 | 2021-10-11 | 一种基于意图识别的数据分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111181632.9A CN113901219A (zh) | 2021-10-11 | 2021-10-11 | 一种基于意图识别的数据分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113901219A true CN113901219A (zh) | 2022-01-07 |
Family
ID=79191332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111181632.9A Pending CN113901219A (zh) | 2021-10-11 | 2021-10-11 | 一种基于意图识别的数据分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901219A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2933625A1 (es) * | 2022-10-29 | 2023-02-10 | Kallisto Ai Sl | Metodo y sistema utilizando tecnicas de inteligencia artificial general para la segmentacion de usuarios |
-
2021
- 2021-10-11 CN CN202111181632.9A patent/CN113901219A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2933625A1 (es) * | 2022-10-29 | 2023-02-10 | Kallisto Ai Sl | Metodo y sistema utilizando tecnicas de inteligencia artificial general para la segmentacion de usuarios |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11210468B2 (en) | System and method for comparing plurality of documents | |
EP3016002A1 (en) | Non-factoid question-and-answer system and method | |
Pillay et al. | Authorship attribution of web forum posts | |
US9645988B1 (en) | System and method for identifying passages in electronic documents | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
Ansari et al. | Sentiment analysis of mixed code for the transliterated Hindi and Marathi texts | |
CN113312922B (zh) | 一种改进的篇章级三元组信息抽取方法 | |
Kettunen et al. | Analyzing and improving the quality of a historical news collection using language technology and statistical machine learning methods | |
Moreo et al. | A high-performance FAQ retrieval method using minimal differentiator expressions | |
Patel et al. | Extractive Based Automatic Text Summarization. | |
CN117708157A (zh) | 一种sql语句生成方法和装置 | |
CN114881043A (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
Fischbach et al. | Fine-grained causality extraction from natural language requirements using recursive neural tensor networks | |
CN109992651B (zh) | 一种问题目标特征自动识别和抽取方法 | |
Das et al. | The 5w structure for sentiment summarization-visualization-tracking | |
Chader et al. | Sentiment Analysis for Arabizi: Application to Algerian Dialect. | |
Kasmuri et al. | Subjectivity analysis in opinion mining—a systematic literature review | |
CN113901219A (zh) | 一种基于意图识别的数据分析方法及系统 | |
RESHADAT et al. | A hybrid method for open information extraction based on shallow and deep linguistic analysis | |
Litvak et al. | Multilingual Text Analysis: Challenges, Models, and Approaches | |
Hajbi et al. | Natural Language Processing Based Approach to Overcome Arabizi and Code Switching in Social Media Moroccan Dialect | |
Baishya et al. | Present state and future scope of Assamese text processing | |
Vanetik et al. | Multilingual text analysis: History, tasks, and challenges | |
CN111191448A (zh) | 词处理方法、装置、存储介质以及处理器 | |
WO2020026229A2 (en) | Proposition identification in natural language and usage thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |