CN107798622B - 一种识别用户意图的方法和装置 - Google Patents
一种识别用户意图的方法和装置 Download PDFInfo
- Publication number
- CN107798622B CN107798622B CN201710970887.0A CN201710970887A CN107798622B CN 107798622 B CN107798622 B CN 107798622B CN 201710970887 A CN201710970887 A CN 201710970887A CN 107798622 B CN107798622 B CN 107798622B
- Authority
- CN
- China
- Prior art keywords
- word
- intention
- text data
- indicating
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012216 screening Methods 0.000 claims abstract description 12
- 230000009471 action Effects 0.000 claims description 100
- 239000013598 vector Substances 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 9
- 244000062793 Sorghum vulgare Species 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 235000019713 millet Nutrition 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种识别用户意图的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据;对于筛选出的每个文本数据,根据该文本数据包含的所述指示词组确定该文本数据的分值;将分值大于预设分值的文本数据确定为具有所述意图的文本数据。该实施方式通过意图指示词表对社交媒体的文本数据进行分析,从而识别出具有待识别意图的文本数据,解决了现有技术调查问卷发放和通过人工标注有监督学习的分类方法中效率低以及识别结果不准确的问题。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种识别用户意图的方法和装置。
背景技术
社交媒体是人们彼此之间用来分享意见、见解、经验和观点的工具和平台,现阶段主要包括社交网站、微博、博客、论坛、播客等等。随着网络媒体技术的发展和普及,Twitter、微博等社交媒体已经成为用户信息发布、传播和共享的常用工具。所以通过对社交媒体中文本数据的分析,可识别出用户隐藏在该文本数据中的某种意图。
现有技术中,识别用户意图的方法主要有:基于社交媒体的大规模意愿调查问卷发放方法和采用有监督学习的分类方法。其中,基于社交媒体的大规模意愿调查问卷发放方法具有极大的局限性,因为每次发放调查问卷只能限制某个或某几个意图内容,而且填写调查问卷的用户量无法保证,同时填写的调查问卷的质量也无法保证。对于采用有监督学习的分类方法,需要人工获取或标注大量的具有意图的语料作为训练集,再通过机器学习的分类算法训练出分类模型。因为人工标注的方法需要大量的人力与数据,在实际中获得的训练语料常常难以满足数量要求,所以,采用该方式进行意图识别会面临着缺乏训练语料的问题,而严重的数据稀疏问题会导致意图识别不准确。
发明内容
有鉴于此,本发明实施例提供一种识别用户意图的方法和装置,能够通过筛选以及评分确定出社交媒体中具有待识别意图的文本数据。
为实现上述目的,根据本发明实施例的一个方面,提供了一种识别用户意图的方法。
本发明实施例的识别用户意图的方法包括:从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据;对于筛选出的每个文本数据,根据该文本数据包含的所述指示词组确定该文本数据的分值;将分值大于预设分值的文本数据确定为具有所述意图的文本数据。
可选地,所述从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据的步骤之前,还包括:根据待识别的意图确定一个或几个目标关键词,以及设置时间段;从社交媒体获取所述时间段内包含所述一个或几个目标关键词的多个文本数据。
可选地,在从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据之前,还包括:根据待识别的意图确定出意图种子词表和动作种子词表;根据所述多个文本数据分别对意图种子词表和动作种子词表进行扩充,以得到包含意图指示词的意图指示词表和包含动作指示词的动作指示词表;将所述意图指示词与动作指示词进行两两组合得到指示词组,将所述指示词组保存以得到意图指示词表。
可选地,根据所述多个文本数据分别对意图种子词表和动作种子词表进行扩充的步骤包括:对所述多个文本数据进行分词处理,以得到词集合;将所述词集合中的词和所述意图种子词表、动作种子词表中的词转换为词向量;对于所述词集合中的每个词,计算该词与所述意图种子词表中的词的余弦相似度,将所述词集合中余弦相似度大于预设值的词添加到意图种子词表中,以得到包含意图指示词的意图指示词表;对于所述词集合中的每个词,计算该词与所述动作种子词表中的词的余弦相似度,将所述词集合中余弦相似度大于预设值的词添加到动作种子词表中,以得到包含动作指示词的动作指示词表。
可选地,采用word2vec将所述词集合中的词和所述意图种子词表、动作种子词表中的词转换为词向量。
可选地,所述意图指示词表为消费意图指示词表,和/或,所述文本数据为微博文本数据。
可选地,所述对于筛选出的每个文本数据,根据该文本数据包含的所述指示词组确定该文本数据的分值的步骤包括:对于筛选出的每个文本数据,计算该文本数据中包含的所述指示词组的数量;并且确定该文本数据对所述指示词组的表述中包含的否定词和程度副词;根据所述数量、包含的否定词和程度副词以及设置的相应的权重,计算出该文本数据的分值。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种识别用户意图的装置。
本发明实施例的识别用户意图的装置包括:筛选模块,用于从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据;评分模块,用于对于筛选出的每个文本数据,根据该文本数据包含的所述指示词组确定该文本数据的分值;确定模块,用于将分值大于预设分值的文本数据确定为具有所述意图的文本数据。
可选地,本发明实施例的识别用户意图的装置还包括获取模块,用于根据待识别的意图确定一个或几个目标关键词,以及设置时间段;以及,从社交媒体获取所述时间段内包含所述一个或几个目标关键词的多个文本数据。
可选地,本发明实施例的识别用户意图的装置还包括生成模块,用于根据待识别的意图确定出意图种子词表和动作种子词表;根据所述多个文本数据分别对意图种子词表和动作种子词表进行扩充,以得到包含意图指示词的意图指示词表和包含动作指示词的动作指示词表;将所述意图指示词与动作指示词进行两两组合得到指示词组,将所述指示词组保存以得到意图指示词表。
可选地,所述生成模块还用于,对所述多个文本数据进行分词处理,以得到词集合;将所述词集合中的词和所述意图种子词表、动作种子词表中的词转换为词向量;对于所述词集合中的每个词,计算该词与所述意图种子词表中的词的余弦相似度,将所述词集合中余弦相似度大于预设值的词添加到意图种子词表中,以得到包含意图指示词的意图指示词表;对于所述词集合中的每个词,计算该词与所述动作种子词表中的词的余弦相似度,将所述词集合中余弦相似度大于预设值的词添加到动作种子词表中,以得到包含动作指示词的动作指示词表。
可选地,所述生成模块采用word2vec将所述词集合中的词和所述意图种子词表、动作种子词表中的词转换为词向量。
可选地,所述评分模块还用于对于筛选出的每个文本数据,计算该文本数据中包含的所述指示词组的数量;以及,确定该文本数据对所述指示词组的表述中包含的否定词和程度副词;根据所述数量、包含的否定词和程度副词以及设置的相应的权重,计算出该文本数据的分值。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种识别用户意图的方法电子设备。
本发明实施例的识别用户意图的方法电子设备包括一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一项识别用户意图的方法。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述任一项识别用户意图的方法。
上述发明中的一个实施例具有如下优点或有益效果:通过意图指示词表筛选出包含该表中的指示词组的文本数据,可以快速准确地确定出有效数据。通过对筛选出的文本数据进行评分,确定出该文本数据具有待识别意图的程度,并且将所得分值大于预设值的文本数据确定为具有待识别意图的文本数据。意图指示词表中的指示词组可根据识别需求自行设置,并且意图指示词表中指示词组的数量可不受限制,所以克服了现有技术中调查问卷只能限制某个或某几个商品或品牌内容的内容。而且,本发明实施例识别用户意图的方法是对文本数据进行客观的分析,并且不需要通过人工获取或标注文本数据以得到训练集,所以不仅解决了调查问卷法无法保证调查问卷的质量问题,而且解决了人工标注的方法需要大量的人力与数据,效率低的问题。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的识别用户意图的方法的主要流程的示意图;
图2是根据本发明实施例的识别用户消费意图的方法的示意图;
图3是根据本发明实施例的识别用户意图的装置的主要模块的示意图;
图4是本发明实施例可以应用于其中的示例性系统架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的识别用户意图的方法的主要流程的示意图,如图1所示,
步骤S101:从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据。在本步骤之前,还包括获取社交媒体的多个文本数据,其中由于微博是如今最广泛使用的社交平台之一,为了获取数据的便利性以及获取到充分多的数据以保证分析结果的准确性,可通过调用微博API或采用爬虫技术获取微博文本数据。具体的,根据待识别的意图确定一个或几个目标关键词,以及设置时间段;从社交媒体获取所述时间段内包含所述一个或几个目标关键词的多个文本数据。例如,根据待识别的意图确定的目标关键词为“手机”和“小米”,则获取到的文本数据中的每条文本数据都包含有“手机”和“小米”这两个目标关键词。并且,如果设置的时间段为11月1日至12月1日,则获取到的文本数据不仅含有“手机”和“小米”这两个目标关键词,而且是在11月1日至12月1日这个时间段内在社交媒体上发出的。通过该过程,可获取到有针对性的待分析的文本数据。
为使得识别用户意图的方法结果更加准确,可根据相应的识别目的生成相应的意图指示词表。因此,在步骤S101之前,还可包括生成并扩展意图指示词表的过程。
意图指示词表中的指示词组由意图指示词和动作指示词组合而成,其中,意图指示词表达了用户的意愿倾向,比如“想”、“准备”、“希望”、“打算”等;动作指示词表示意图动作,比如“买”、“购买”、“租”、“吃”等。而且,表现出用户意图的文本数据中意图指示词与动作指示词通常较近出现,比如一个典型的具有消费意图的文本是“想去买一部手机”,其中“想”和“买”较近出现。本发明实施例中的较近出现是指两个词之间相隔的字符数小于设预设的数值,例如:“想要去买”中的“想”和“买”为较近出现;“想吃火锅”中的“想”和“吃”为较近出现。
可通过分别查找出意图指示词以及动作指示词并扩充到意图种子词表和动作种子词表中,然后对意图指示词与动作指示词进行两两组合,最终得到意图指示词表。在该过程中,根据待识别的意图确定出意图种子词表和动作种子词表;根据多个文本数据分别对意图种子词表和动作种子词表进行扩充,以得到包含意图指示词的意图指示词表和包含动作指示词的动作指示词表;将意图指示词与动作指示词进行两两组合得到指示词组,将指示词组保存以得到意图指示词表。将意图指示词表中的词分别和动作指示词表中的词进行两两组合,是指将意图指示词表中的每个词分别与动作指示词表中的每个词进行两两组合,例如:意图指示词表中的词为“想”、“准备”、“希望”,动作指示词表中的词为“买”、“购买”,两两组合后为“想买”“想购买”“准备买”“准备购买”“希望买”“希望购买”。
其中,根据多个文本数据分别对意图种子词表和动作种子词表进行扩充,以得到意图指示词表和动作指示词表的步骤包括:对多个文本数据中的词进行分词处理,以得到词集合;将词集合中的词和意图指示词、动作指示词转换为词向量;对于词集合中的每个词,计算该词与意图指示词的余弦相似度,将词集合中余弦相似度大于预设值的词添加到意图种子词表中,以得到意图指示词表;对于词集合中的每个词,计算该词与动作指示词的余弦相似度,将词集合中余弦相似度大于预设值的词添加到动作种子词表中,以得到动作指示词表。并且,为了使得扩展后的意图指示词表和动作指示词表中包含的词没有相同的,可对得到的意图指示词表和动作指示词表中包含的词进行去重处理。word2vec使用的是Distributed Representation的词向量表示方式,是Google在2013年开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过对语料的训练,把对文本词的处理简化为n维向量空间中的向量运算,而向量空间上的相似度可以用来表示词语语义上的相似度。在本发明实施例中,采用word2vec将词转换为词向量,使得词向量能更准确的表示词的语义。
在社交媒体的文本数据中,会蕴含着用户为了满足某种需求,在一定消费动机的支配下,表达出对某产品或服务的消费意愿,比如用户在文本中明确表达出的购买产品或服务等一些商业消费的意愿,将该意愿称之为消费意图。这些具有消费意图的文本数据对科学研究和商业应用都有着极高的价值,比如商家在了解到用户的消费意图之后,则可针对用户表现出的这些消费意愿进行分析、识别、挖掘和推理。在本发明实施例中,意图指示词表为消费意图指示词表,消费意图指示词表中的词为消费意图指示词,该消费意图指示词可体现出用户的消费意图。
步骤S102:对于筛选出的每个文本数据,根据该文本数据包含的所述指示词组确定该文本数据的分值。对于筛选出的每个文本数据,根据该文本数据包含的指示词组,对该文本数据进行评分。在该过程中,对于筛选出的每个文本数据,计算该文本数据中包含的指示词组的数量;并且确定该文本数据对指示词组的表述中包含的否定词和程度副词;根据包含的指示词组的数量、包含的否定词和程度副词以及设置的相应的权重,计算出该文本数据的分值。例如,筛选出的某个文本数据中为“非常非常希望买一台华为手机”,该文本数据中包含的消费意图指示词表中的“希望买”1个指示词组,对该文本数据记为1分,以及该文本数据中对指示词组的表述中不包含否定词且包含有2个程度副词“非常”,并且设置的权重分别为:文本数据中包含的指示词组的数量的权重为1、程度副词的权重为3,则最终该文本数据的评分为1*1+2*3=7。如果该文本数据对指示词组的表述中包含有否定词,可直接断定该文本数据的分值为0。
在计算文本数据的包含的指示词组的数量的过程中,如果该文本数据中包含的意图指示词和动作指示词之间相隔的字符数小于预设值,则认为该文本数据包含消费意图指示词表中的指示词组。例如:消费意图指示词表中的指示词组为“准备买”“准备购买”“希望买”,文本数据为“我希望去买”,则认定该文本数据包含消费意图指示词表中的指示词组“希望买”。
步骤S103:将分值大于预设分值的文本数据确定为具有该意图的文本数据。根据不同的待识别意图,可设置不同的预设分值。并且,该预设分值可通过经验或者实验分析来设置。确定出具有意图的文本数据后,通过该文本数据所对应用户信息(在获取文本数据时可获取每个文本数据所对应的用户信息)则可确定出具有该意图的用户。如果识别的是消费意图,则确定出具有该消费意图的用户之后,可为该用户推送相应的商品信息或者通过该用户的文本数据了解到该用户对该商品的后续关注与评价等。
图2是根据本发明实施例的识别用户消费意图的方法的示意图。
如图2所示,本发明实施例的识别用户消费意图的方法包括:
步骤S201:根据待识别的消费意图确定一个或几个目标关键词,以及设置时间段。根据待识别的消费意图例如要分析的领域,指定一个或者几个目标关键词并指定时间段。比如,要分析小米手机在微博中近一个月的情感表现,可指定目标关键词为“小米”和“手机”,时间段可设为最近的一个月的时间段。
步骤S202:调用社交媒体API或采用爬虫技术获取文本数据。例如要获取微博包含“小米”和“手机”最近一个月的文本数据,可调用微博API或采用爬虫技术(通过网络爬虫按照一定的规则,自动地抓取信息的技术)获取一段时间内同时包含这两个目标关键词的待分析微博文本数据。还可采用广告和垃圾过滤技术过滤掉垃圾文本,提取优质微博内容作为进行消费意图分析的输入数据,以便后续进行自动分析每条微博展现出的消费意图及其程度,该程度可由评分的结果体现出。
步骤S203:对多个文本数据中的词进行分词处理,并且通过word2vec将词转换为词向量。分词处理,即将一个汉字序列切分成一个一个单独的词。然后将分词后的预料作为word2vec模型的输入,训练出语料中每个词的低维稠密向量。
步骤S204:对初始的意图种子词表和动作种子词表进行扩充,并得到消费意图指示词表。可根据对大量文本数据的分析,提取其中包含的意图指示词与消费动作指示词,生成了初始的意图种子词表和动作种子词表。由于初始的意图种子词表和动作种子词表包含的词语数量有限,具有较强的局限性,因此需要通过自动分析大量语料对意图和动作指示词表进行扩展。基于word2vec模型与相似度计算方法对初始的意图种子词表和动作种子词表进行扩展,并对扩展后的两个词表进行组合,生成最终的消费意图指示词表。
将分词后得到的词集合中的每个词都转换为词向量之后,并且通过word2vec将初始的意图种子词表中的意图指示词的和初始的动作种子词表中的动作指示词都转换为词向量。进而,计算出词集合中的词与意图种子词表、动作种子词表中的词之间的余弦相似度。设词向量A=(A1,A2,...,An),B=(B1,B2,...,Bn),则A和B的余弦相似度为:
将未出现在意图种子词表中且与意图种子词表中的某个词的相似度大于0.8的词语增加至意图种子词表,以得到意图指示词表。将未出现在动作种子词表中且与动作种子词表中的某个词的相似度大于0.8的词语增加至动作种子词表,以得到动作指示词表。由于语料规模的限制,通过word2vec模型扩展出的词无法保证可以直接加入相应词表,因此对语料中每个词应用以上方法扩展词表之后,可再对扩展后的词表进行一次人工筛选,筛选出真正表达意图或消费动作的词。由于具有消费意图的文本数据中意图指示词与消费的动作指示词一般是较近出现,所以将意图指示词表与动作指示词表中的词进行笛卡儿积组合,生成意图-动作指示词表,即消费意图指示词表,用于后续消费意图的分析。例如,通过本步骤最终生成了包含37个词的意图指示词表与包含62个词的动作指示词表,从而生成包含37*62=2294个词语的消费意图指示词表。
通过上述过程生成的消费意图指示词表是基于消费意图识别过程所获取到的文本数据,所以根据该消费意图指示词表能更准确的对消费意图进行分析识别。但是,不一定在每次识别用户意图的方法过程中都要对词表进行扩展,如果用户识别的要求较低可根据人工经验编写消费意图指示词表,或者以往处理获得的消费意图指示词表进行消费意图的识别。
步骤S205:基于消费意图指示词表对文本数据进行筛选并评分。通过匹配刷新出的文本数据与消费意图指示词表,计算目标文本包含消费意图指示词表中指示词组的个数作为消费意图得分,该过程可结合浅层句法分析技术对含有否定词或程度副词修饰的消费意图进行处理。浅层句法分析(shallow parsing),也叫部分句法分析(partial parsing)或语块分析(chunk parsing),来自然语言处理领域出现的一种新的语言处理策略。它是与完全句法分析相对的,完全句法分析要求通过一系列分析过程,最终得到句子的完整的句法树。而浅层句法分析则不要求得到完全的句法分析树,它只要求识别其中的某些结构相对简单的成分,如非递归的名词短语、动词短语等。这些识别出来的结构通常被称作语块(chunk),语块和短语这两个概念通常可以换用。
对筛选出的文本数据进行评分的过程中,可通过筛选出的文本数据中包含指示词组的数量,以及该文本数据中对指示词组的表述中的否定词和程度副词,进行评分。例如:筛选出的文本数据的内容为“打算买一部手机,但不想买小米手机”,该文本数据中包含有否定词,可根据预先设置的否定词的权重对其进行评判。如果预先设置文本数据中对指示词组的表述中包括否定词,则其评分为0,则该文本数据的分值为0。
步骤S206:将评分的分值大于预设分值的文本数据确定为具有消费意图的文本数据。对筛选出的每一条文本数据计算出消费意图得分之后,可按照强烈程度从文本角度对文本进行消费意图排序,进而提取具有较强消费意图的文本集合,也可统计特定领域内微博文本表现出的消费意图变化。除此之外还可结合文本发布者的近期发布频率、该品牌参与度和时效性从人的角度对文本发布者的消费意愿进行排序。
本发明实施例的识别用户消费意图的方法,通过基于消费意图指示词表与word2vec的文本显式消费意图无监督识别方法,最终确定出具有消费意图的文本数据。通过初始化意图指示词表和动作指示词表,然后对大量语料训练word2vec模型,结合相似度计算,找出与现有词表中的词相似度极高的词,用于扩充相应词表,进而将两个词表进行组合,生成消费意图指示词表,再结合浅层句法分析,可以分析某段文本是否表现出消费意图,并给出消费意图强烈程度。通过对大量社交媒体的文本数据进行分析,可以指导多种商业行为,进而产生价值。并且,可根据确定出的文本数据发现具有消费意图的用户,进而可帮助分析定位消费人群。对文本数据的内容进行分析,还能帮助发掘用户消费的原因,以更好了解产品的具体市场表现,帮助判断市场需求,监测消费需求变化。
图3是根据本发明实施例的识别用户意图的装置300的主要模块的示意图。如图3所示,本发明实施例的识别用户意图的装置300主要包括筛选模块301、评分模块302和确定模块303。
筛选模块301,用于从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据。本发明实施例的识别用户意图的装置还包括获取模块,用于获取社交媒体的多个文本数据。获取模块还用于根据待识别的意图确定一个或几个目标关键词,以及设置时间段;以及,从社交媒体获取时间段内包含一个或几个目标关键词的多个文本数据。由于微博是如今最广泛使用的社交平台之一,为了获取数据的便利性以及获取到充分多的数据以保证分析结果的准确性,文本数据为微博文本数据。
评分模块302,用于对于筛选出的每个文本数据,根据该文本数据包含的所述指示词组确定该文本数据的分值。评分模块302还用于,对于筛选出的每个文本数据,计算该文本数据中包含的所述指示词组的数量;以及,确定该文本数据对所述指示词组的表述中包含的否定词和程度副词;根据所述数量、包含的否定词和程度副词以及设置的相应的权重,计算出该文本数据的分值。
确定模块303,用于将分值大于预设分值的文本数据确定为具有待识别意图的文本数据。
本发明实施例的识别用户意图的装置还包括生成模块,用于根据待识别的意图确定出包含意图指示词的意图种子词表和包含动作指示词的动作种子词表;根据所述多个文本数据分别对意图种子词表和动作种子词表进行扩充,以得到意图指示词表和动作指示词表;以及,将所述意图指示词表中的词分别和动作指示词表中的词进行两两组合得到指示词组,将所述指示词组保存以得到意图指示词表。生成模块还用于,分别对所述意图指示词表和动作指示词表中包含的词进行去重处理。生成模块还用于,对所述多个文本数据中的词进行分词处理,以得到词集合;将所述词集合中的词和所述意图指示词、动作指示词转换为词向量;以及,对于所述词集合中的每个词,计算该词与所述意图指示词的余弦相似度,将所述词集合中余弦相似度大于预设值的词添加到意图种子词表中,以得到意图指示词表;对于所述词集合中的每个词,计算该词与所述动作指示词的余弦相似度,将所述词集合中余弦相似度大于预设值的词添加到动作种子词表中,以得到动作指示词表。生成模块采用word2vec将所述词集合中的词和所述意图指示词、动作指示词转换为词向量。将分词后的预料作为word2vec模型的输入,训练出语料中每个词的低维稠密向量。将每个词转换为低维稠密向量,不但解决了维数灾难问题,并且挖掘了文本数据中词之间的关联属性,从而提高了向量语义上的准确度,进而提高了识别意图的准确性。
本发明实施例的识别用户意图的装置,通过基于意图指示词表与word2vec的文本显式意图无监督识别方法,最终确定出具有待识别意图的文本数据。通过初始化意图指示词表和动作指示词表,然后对大量语料训练word2vec模型,结合相似度计算,找出与现有词表中的词相似度极高的词,用于扩充相应词表,进而将两个词表进行组合,生成意图指示词表,再结合浅层句法分析,可以分析某段文本是否表现出待识别意图,并给出具有意图的强烈程度。通过对大量社交媒体的文本数据进行分析,可以指导多种商业行为,进而产生价值。意图指示词表为消费意图指示词表,通过能体现出待识别的消费意图的消费意图指示词表确定出的具有消费意图的文本数据,进而确定出具有消费意图的用户,达到了分析定位消费人群的效果。并且,通过对文本数据的内容进行分析,还能帮助发掘用户消费的原因,以更好了解产品的具体市场表现,帮助判断市场需求,监测消费需求变化。
图4示出了可以应用本发明实施例的识别用户意图的方法或识别用户意图的装置的示例性系统架构400。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本发明实施例所提供的识别用户意图的方法一般由服务器405执行,相应地,识别用户意图的装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图5,其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括筛选模块、评分模块和确定模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,筛选模块还可以被描述为“从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据;对于筛选出的每个文本数据,根据该文本数据包含的所述指示词组确定该文本数据的分值;将分值大于预设分值的文本数据确定为具有所述意图的文本数据。
根据本发明实施例的技术方案,通过意图指示词表对社交媒体的文本数据进行分析,从而识别出具有待识别意图的文本数据,解决了现有技术调查问卷发放和通过人工标注有监督学习的分类方法中效率低以及识别结果不准确的问题。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (11)
1.一种识别用户意图的方法,其特征在于,包括:
从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据;
对于筛选出的每个文本数据,根据该文本数据包含的所述指示词组确定该文本数据的分值;
将分值大于预设分值的文本数据确定为具有所述意图的文本数据;
在从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据之前,还包括:
根据待识别的意图确定出意图种子词表和动作种子词表;
根据所述多个文本数据分别对意图种子词表和动作种子词表进行扩充,以得到包含意图指示词的意图指示词表和包含动作指示词的动作指示词表;
将所述意图指示词与动作指示词进行两两组合得到指示词组,将所述指示词组保存以得到意图指示词表;
所述对于筛选出的每个文本数据,根据该文本数据包含的所述指示词组确定该文本数据的分值的步骤包括:
对于筛选出的每个文本数据,计算该文本数据中包含的所述指示词组的数量;并且
确定该文本数据对所述指示词组的表述中包含的否定词和程度副词;
根据所述数量、包含的否定词和程度副词以及设置的相应的权重,计算出该文本数据的分值。
2.根据权利要求1所述的方法,其特征在于,所述从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据的步骤之前,还包括:
根据待识别的意图确定一个或几个目标关键词,以及设置时间段;
从社交媒体获取所述时间段内包含所述一个或几个目标关键词的多个文本数据。
3.根据权利要求1所述的方法,其特征在于,根据所述多个文本数据分别对意图种子词表和动作种子词表进行扩充的步骤包括:
对所述多个文本数据进行分词处理,以得到词集合;
将所述词集合中的词和所述意图种子词表、动作种子词表中的词转换为词向量;
对于所述词集合中的每个词,计算该词与所述意图种子词表中的词的余弦相似度,将所述词集合中余弦相似度大于预设值的词添加到意图种子词表中,以得到包含意图指示词的意图指示词表;
对于所述词集合中的每个词,计算该词与所述动作种子词表中的词的余弦相似度,将所述词集合中余弦相似度大于预设值的词添加到动作种子词表中,以得到包含动作指示词的动作指示词表。
4.根据权利要求3所述的方法,其特征在于,采用word2vec将所述词集合中的词和所述意图种子词表、动作种子词表中的词转换为词向量。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述意图指示词表为消费意图指示词表,和/或,所述文本数据为微博文本数据。
6.一种识别用户意图的装置,其特征在于,包括:
筛选模块,用于从多个目标文本数据中筛选出包含意图指示词表中的指示词组的文本数据;
评分模块,用于对于筛选出的每个文本数据,根据该文本数据包含的所述指示词组确定该文本数据的分值;
确定模块,用于将分值大于预设分值的文本数据确定为具有所述意图的文本数据;
还包括生成模块,用于根据待识别的意图确定出意图种子词表和动作种子词表;根据所述多个文本数据分别对意图种子词表和动作种子词表进行扩充,以得到包含意图指示词的意图指示词表和包含动作指示词的动作指示词表;将所述意图指示词与动作指示词进行两两组合得到指示词组,将所述指示词组保存以得到意图指示词表;
所述评分模块还用于对于筛选出的每个文本数据,计算该文本数据中包含的所述指示词组的数量;以及,确定该文本数据对所述指示词组的表述中包含的否定词和程度副词;根据所述数量、包含的否定词和程度副词以及设置的相应的权重,计算出该文本数据的分值。
7.根据权利要求6所述的装置,其特征在于,还包括获取模块,用于根据待识别的意图确定一个或几个目标关键词,以及设置时间段;以及,从社交媒体获取所述时间段内包含所述一个或几个目标关键词的多个文本数据。
8.根据权利要求6所述的装置,其特征在于,所述生成模块还用于,对所述多个文本数据进行分词处理,以得到词集合;将所述词集合中的词和所述意图种子词表、动作种子词表中的词转换为词向量;对于所述词集合中的每个词,计算该词与所述意图种子词表中的词的余弦相似度,将所述词集合中余弦相似度大于预设值的词添加到意图种子词表中,以得到包含意图指示词的意图指示词表;对于所述词集合中的每个词,计算该词与所述动作种子词表中的词的余弦相似度,将所述词集合中余弦相似度大于预设值的词添加到动作种子词表中,以得到包含动作指示词的动作指示词表。
9.根据权利要求8所述的装置,其特征在于,所述生成模块采用word2vec将所述词集合中的词和所述意图种子词表、动作种子词表中的词转换为词向量。
10.一种识别用户意图的方法电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710970887.0A CN107798622B (zh) | 2017-10-18 | 2017-10-18 | 一种识别用户意图的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710970887.0A CN107798622B (zh) | 2017-10-18 | 2017-10-18 | 一种识别用户意图的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107798622A CN107798622A (zh) | 2018-03-13 |
CN107798622B true CN107798622B (zh) | 2021-06-29 |
Family
ID=61533347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710970887.0A Active CN107798622B (zh) | 2017-10-18 | 2017-10-18 | 一种识别用户意图的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107798622B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228573A (zh) * | 2018-03-23 | 2018-06-29 | 北京航空航天大学 | 文本情感分析方法、装置及电子设备 |
CN109388785B (zh) * | 2018-09-29 | 2023-09-01 | 京东科技控股股份有限公司 | 筛选文本的方法和装置 |
CN111046282B (zh) * | 2019-12-06 | 2021-04-16 | 北京房江湖科技有限公司 | 文本标签设置方法、装置、介质以及电子设备 |
CN111444421B (zh) * | 2020-03-24 | 2023-04-07 | 北京字节跳动网络技术有限公司 | 一种信息推送的方法、装置、计算机设备及存储介质 |
CN111833872B (zh) * | 2020-07-08 | 2021-04-30 | 北京声智科技有限公司 | 对电梯的语音控制方法、装置、设备、系统及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412882A (zh) * | 2013-07-18 | 2013-11-27 | 百度在线网络技术(北京)有限公司 | 一种识别消费意图的方法及装置 |
CN106503049A (zh) * | 2016-09-22 | 2017-03-15 | 南京理工大学 | 一种基于svm融合多种情感资源的微博情感分类方法 |
CN107153672A (zh) * | 2017-03-22 | 2017-09-12 | 中国科学院自动化研究所 | 基于言语行为理论的用户交互意图识别方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8918389B2 (en) * | 2011-07-13 | 2014-12-23 | Yahoo! Inc. | Dynamically altered search assistance |
-
2017
- 2017-10-18 CN CN201710970887.0A patent/CN107798622B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412882A (zh) * | 2013-07-18 | 2013-11-27 | 百度在线网络技术(北京)有限公司 | 一种识别消费意图的方法及装置 |
CN106503049A (zh) * | 2016-09-22 | 2017-03-15 | 南京理工大学 | 一种基于svm融合多种情感资源的微博情感分类方法 |
CN107153672A (zh) * | 2017-03-22 | 2017-09-12 | 中国科学院自动化研究所 | 基于言语行为理论的用户交互意图识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107798622A (zh) | 2018-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107798622B (zh) | 一种识别用户意图的方法和装置 | |
US11062089B2 (en) | Method and apparatus for generating information | |
CN107491547B (zh) | 基于人工智能的搜索方法和装置 | |
CN107066449B (zh) | 信息推送方法和装置 | |
CN107256267B (zh) | 查询方法和装置 | |
CN109522483B (zh) | 用于推送信息的方法和装置 | |
CN109947788B (zh) | 数据查询方法和装置 | |
CN106960030B (zh) | 基于人工智能的推送信息方法及装置 | |
CN107679217B (zh) | 基于数据挖掘的关联内容提取方法和装置 | |
US20130263019A1 (en) | Analyzing social media | |
WO2017024553A1 (zh) | 一种信息情感分析方法和系统 | |
CN108121699B (zh) | 用于输出信息的方法和装置 | |
US11651015B2 (en) | Method and apparatus for presenting information | |
CN108121814B (zh) | 搜索结果排序模型生成方法和装置 | |
US20180330278A1 (en) | Processes and techniques for more effectively training machine learning models for topically-relevant two-way engagement with content consumers | |
CN110334268B (zh) | 一种区块链项目热词生成方法以及装置 | |
CN111339295A (zh) | 用于展示信息的方法、装置、电子设备和计算机可读介质 | |
US20220121668A1 (en) | Method for recommending document, electronic device and storage medium | |
CN109190123B (zh) | 用于输出信息的方法和装置 | |
CN113268560A (zh) | 用于文本匹配的方法和装置 | |
US20140236939A1 (en) | Systems and methods for topical grouping of search results and organizing of search results | |
US20180349351A1 (en) | Systems And Apparatuses For Rich Phrase Extraction | |
CN110807097A (zh) | 分析数据的方法和装置 | |
CN110008807A (zh) | 一种合同内容识别模型的训练方法、装置及设备 | |
CN114880498B (zh) | 事件信息展示方法及装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |