CN113434767A - Ugc文本内容的挖掘方法、系统、设备和存储介质 - Google Patents
Ugc文本内容的挖掘方法、系统、设备和存储介质 Download PDFInfo
- Publication number
- CN113434767A CN113434767A CN202110767197.1A CN202110767197A CN113434767A CN 113434767 A CN113434767 A CN 113434767A CN 202110767197 A CN202110767197 A CN 202110767197A CN 113434767 A CN113434767 A CN 113434767A
- Authority
- CN
- China
- Prior art keywords
- word
- ugc
- words
- expansion
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Abstract
本发明提供一种UGC文本内容的挖掘方法、系统、设备和存储介质,挖掘方法包括:获取UGC文本内容;获取用户输入的主题词;基于主题词得到主题词的扩展词集合,其中,扩展词集合包括与主题词近似的扩展词,扩展词由基于UGC文本内容训练得到的模型输出;输出扩展词集合;将扩展词集合中被选择的扩展词作为主题词选择结果;计算主题词选择结果与UGC文本内容的相关度,按照相关度降序排序,输出扩展词的相关度排序靠前的若干UGC文本内容。本发明帮助用户精准地挖掘主题词相关的扩展词,从而能够通过选中的扩展词得到用户感兴趣的UGC文本内容,提高了精准度,提高了挖掘效率,节省了用户的时间。
Description
技术领域
本发明涉及OTA(Online Travel Agency,在线旅游)技术领域,尤其涉及一种UGC(User Generated Content,用户生成内容)文本内容的挖掘方法、系统、设备和存储介质。
背景技术
在旅游领域每天会产生大量的UGC内容,用户在购买或者了解某个产品之前,往往会通过阅读用户的评论信息或者攻略信息,目前无法实现快速地在海量(上亿级)数据上精准地挖掘出用户感兴趣的主题内容。如何快速地在海量数据上精准地挖掘出用户感兴趣的主题内容是现在旅游领域迫切需要解决的问题。
发明内容
本发明要解决的技术问题是为了克服现有技术中无法实现快速地在海量数据上精准地挖掘出用户感兴趣的主题内容的缺陷,提供一种UGC文本内容的挖掘方法、系统、设备和存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种UGC文本内容的挖掘方法,包括:
获取UGC文本内容;
获取用户输入的主题词;
基于所述主题词得到所述主题词的扩展词集合,其中,所述扩展词集合包括与所述主题词近似的扩展词,所述扩展词由基于所述UGC文本内容训练得到的模型输出;
输出所述扩展词集合;
将所述扩展词集合中被选择的扩展词作为主题词选择结果;
计算所述主题词选择结果与所述UGC文本内容的相关度,按照所述相关度降序排序,输出扩展词的相关度排序靠前的若干UGC文本内容。
较佳地,所述获取UGC文本内容的步骤具体包括:
获取原始UGC文本内容;
对所述原始UGC文本内容进行分词得到分词结果;
对所述分词结果进行词性标注得到所述UGC文本内容。
较佳地,所述基于所述主题词得到所述主题词的扩展词集合的步骤具体包括:
基于第一扩展词、第二扩展词和第三扩展词中的至少一种以及对应的概率得到所述扩展词以及所述扩展词对应的概率;
按照所述扩展词对应的概率降序排序得到所述扩展词集合;
其中,所述第一扩展词和对应的概率由将所述主题词输入二元语言模型得到,所述二元语言模型由UGC文本内容样本训练得到;所述第二扩展词和对应的概率由将所述主题词输入词共现模型得到,所述词共现模型由UGC文本内容样本训练得到;所述第三扩展词和对应的概率由将所述主题词输入word2vec词嵌入模型得到,所述word2vec词嵌入模型由UGC文本内容样本训练得到。
较佳地,所述挖掘方法还包括:
获取用户输入的基础设施词;
基于所述基础设施词使用多词表达抽取算法得到设施词,其中,所述设施词为以所述基础设施词为后缀的多个词的组合;
输出所述设施词;
将被选择的设施词作为设施词选择结果;
计算所述设施词选择结果与所述UGC文本内容的相关度,按照所述相关度降序排序,输出设施词的相关度排序靠前的若干UGC文本内容。
较佳地,所述挖掘方法还包括:
确定查询范围;
所述计算所述主题词选择结果与所述UGC文本内容的相关度的步骤具体包括:
提取所述查询范围内的所述UGC文本内容作为数据源文本;
计算所述主题词选择结果与所述数据源文本的相关度;
所述计算所述设施词选择结果与所述UGC文本内容的相关度的步骤具体包括:
提取所述查询范围内的所述UGC文本内容作为数据源文本;
计算所述设施词选择结果与所述数据源文本的相关度。
本发明还提供一种UGC文本内容的挖掘系统,包括:文本内容获取模块、主题词获取模块、扩展词集合计算模块、输出模块、主题词选择模块和第一相关度计算模块;
文本内容获取模块1用于获取UGC文本内容;
所述主题词获取模块用于获取用户输入的主题词;
所述扩展词集合计算模块用于基于所述主题词得到所述主题词的扩展词集合,其中,所述扩展词集合包括与所述主题词近似的扩展词,所述扩展词由基于所述UGC文本内容训练得到的模型输出;
所述输出模块用于输出所述扩展词集合;
所述主题词选择模块用于将所述扩展词集合中被选择的扩展词作为主题词选择结果;
所述第一相关度计算模块用于计算所述主题词选择结果与所述UGC文本内容的相关度,按照所述相关度降序排序,输出扩展词的相关度排序靠前的若干UGC文本内容。
较佳地,文本内容获取模块1包括:原始文本获取单元、分词单元和词性标注单元;
所述原始文本获取单元用于获取原始UGC文本内容;
所述分词单元用于对所述原始UGC文本内容进行分词得到分词结果;
所述词性标注单元用于对所述分词结果进行词性标注得到所述UGC文本内容。
较佳地,所述扩展词集合计算模块包括:扩展词计算单元和排序单元;
所述扩展词计算单元用于基于第一扩展词、第二扩展词和第三扩展词中的至少一种以及对应的概率得到所述扩展词以及所述扩展词对应的概率;
所述排序单元用于按照所述扩展词对应的概率降序排序得到所述扩展词集合;
其中,所述第一扩展词和对应的概率由将所述主题词输入二元语言模型得到,所述二元语言模型由UGC文本内容样本训练得到;所述第二扩展词和对应的概率由将所述主题词输入词共现模型得到,所述词共现模型由UGC文本内容样本训练得到;所述第三扩展词和对应的概率由将所述主题词输入word2vec词嵌入模型得到,所述word2vec词嵌入模型由UGC文本内容样本训练得到。
较佳地,所述挖掘系统还包括:基础设施词获取模块、设施词计算模块、设施词选择模块和第二相关度计算模块;
所述基础设施词获取模块用于获取用户输入的基础设施词;
所述设施词计算模块用于基于所述基础设施词使用多词表达抽取算法得到设施词,其中,所述设施词为以所述基础设施词为后缀的多个词的组合;
所述输出模块还用于输出所述设施词;
所述设施词选择模块用于将被选择的设施词作为设施词选择结果;
所述第二相关度计算模块用于计算所述设施词选择结果与所述UGC文本内容的相关度,按照所述相关度降序排序,输出设施词的相关度排序靠前的若干UGC文本内容。
较佳地,所述挖掘系统还包括:查询范围确定模块;
所述查询范围确定模块用于确定查询范围;
所述第一相关度计算模块包括:第一数据源文本提取单元和第一相关度计算单元;
所述第一数据源文本提取单元用于提取所述查询范围内的所述UGC文本内容作为数据源文本;
所述第一相关度计算单元用于计算所述主题词选择结果与所述数据源文本的相关度;
所述第二相关度计算模块包括:第二数据源文本提取单元和第二相关度计算单元;
所述第二数据源文本提取单元用于提取所述查询范围内的所述UGC文本内容作为数据源文本;
所述第二相关度计算单元用于计算所述设施词选择结果与所述数据源文本的相关度。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述的UGC文本内容的挖掘方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的UGC文本内容的挖掘方法。
本发明的积极进步效果在于:在用户输入主题词的基础上,通过基于UGC文本内容训练得到的模型来挖掘主题词得到扩展词集合,将扩展词集合中被选择的扩展词作为主题词选择结果,计算主题词选择结果与UGC文本内容的相关度,输出扩展词的相关度排序靠前的若干UGC文本内容,帮助用户精准地挖掘主题词相关的扩展词,从而能够通过选中的扩展词得到用户感兴趣的UGC文本内容,提高了精准度,提高了挖掘效率,节省了用户得到感兴趣的UGC文本内容的时间。
附图说明
图1为本发明的实施例1的UGC文本内容的挖掘方法的流程图。
图2为本发明的实施例1的UGC文本内容的挖掘方法中的步骤S11的一具体实施方式的流程图。
图3为本发明的实施例1的UGC文本内容的挖掘方法中的步骤S13的一具体实施方式的流程图。
图4为本发明的实施例1的UGC文本内容的挖掘方法的一具体实施方式的流程图。
图5为本发明的实施例1的UGC文本内容的挖掘方法的另一具体实施方式的流程图。
图6为本发明的实施例2的UGC文本内容的挖掘系统的模块示意图。
图7为本发明的实施例3的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种UGC文本内容的挖掘方法。参照图1,挖掘方法包括:
S11、获取UGC文本内容。
S12、获取用户输入的主题词。
S13、基于主题词得到主题词的扩展词集合,其中,扩展词集合包括与主题词近似的扩展词,扩展词由基于UGC文本内容训练得到的模型输出。
S14、输出扩展词集合。
S15、将扩展词集合中被选择的扩展词作为主题词选择结果。
S16、计算主题词选择结果与UGC文本内容的相关度,按照相关度降序排序,输出扩展词的相关度排序靠前的若干UGC文本内容。
其中,UGC文本内容可以包括景点的点评信息、酒店的点评信息、攻略文章内容和点评信息等。在对UGC文本内容的检索中,只采用用户输入的主题词进行检索往往由于主题词没有精准地表达用户的意图而导致检索效果不好,为了更好的表达用户的意图,需要对用户输入的主题词进行扩展以得到对应的扩展词,用户可以在这些扩展词中进行选择使得选中的扩展词能够精准地表达用户的意图。
本实施例在用户输入主题词的基础上,通过基于UGC文本内容训练得到的模型来挖掘主题词得到扩展词集合,将扩展词集合中被选择的扩展词作为主题词选择结果,计算主题词选择结果与UGC文本内容的相关度,输出扩展词的相关度排序靠前的若干UGC文本内容,帮助用户精准地挖掘主题词相关的扩展词,从而能够通过选中的扩展词得到用户感兴趣的UGC文本内容,提高了精准度,提高了挖掘效率,节省了用户得到感兴趣的UGC文本内容的时间。
在一个实施例中,参照图2,步骤S11具体包括:
S111、获取原始UGC文本内容。
S112、对原始UGC文本内容进行分词得到分词结果。
S113、对分词结果进行词性标注得到UGC文本内容。
其中,可以基于统计和词典相结合的方法进行分词,在词典中加入了旅游业务的实体词,实体词可以包括景点名称、酒店名称、机场名称、火车站名称、商圈名称和城市名称等。例如:原始UGC文本内容为“上海外滩游玩攻略”,那么,分词结果为“上海外滩游玩攻略”,实体词可以是“上海”和“外滩”,“上海”的词性标注为城市名称,“外滩”的词性标注为景点名称,“游玩”的词性标注为动词,“攻略”的词性标注为名词。
本实施例能够实现对原始UGC文本内容的预处理,全量文本的预处理和后续增量文本的预处理可以结合起来,兼顾预处理的效果和效率,例如:每周进行一次全量文本的预处理,每天进行一次后续增量文本的预处理。
在一个实施例中,参照图3,步骤S13具体包括:
S131、基于第一扩展词、第二扩展词和第三扩展词中的至少一种以及对应的概率得到扩展词以及扩展词对应的概率。
S132、按照扩展词对应的概率降序排序得到扩展词集合。
其中,第一扩展词和对应的概率由将主题词输入二元语言模型得到,二元语言模型由UGC文本内容样本训练得到。第二扩展词和对应的概率由将主题词输入词共现模型得到,词共现模型由UGC文本内容样本训练得到。第三扩展词和对应的概率由将主题词输入word2vec词嵌入模型得到,word2vec词嵌入模型由UGC文本内容样本训练得到。
二元语言模型可以计算二元、三元扩展词出现的概率。词共现模型可以统计每个词在一定窗口范围内和主题词共现的词出现的频率,进行阈值截取,获得每个词的高频共现词作为用户输入的主题词的扩展词,这是因为这几个高频共现词和主题词经常在同一个窗口单元中出现,高频共现词在一定程度上表达了与该主题词的语义相关性。word2vec词嵌入模型可以通过词向量的余弦相似度搜索和主题词相似的近义词作为扩展词。
本实施例将通过三个模型分别得到的第一扩展词、第二扩展词和第三扩展词以及对应的概率进行合并,得到扩展词集合,以避免单一模型带来的偏差,使得扩展词集合更精准更全面。在挖掘平台上以分页的形式展示扩展词集合给用户,供用户选择扩展词。
在一个实施例中,参照图4,挖掘方法还包括:
S21、获取用户输入的基础设施词。
S22、基于基础设施词使用多词表达抽取算法得到设施词,其中,设施词为以基础设施词为后缀的多个词的组合。
S23、输出设施词。
S24、将被选择的设施词作为设施词选择结果。
S25、计算设施词选择结果与UGC文本内容的相关度,按照相关度降序排序,输出设施词的相关度排序靠前的若干UGC文本内容。
其中,设施词是指OTA领域的设施实体词,比如酒店设施中的无边泳池、水上滑滑梯等。基础设施词是设施实体词中无法再缩减的后缀部分,例如:泳池是基础设施词,对应的设施词包括无边泳池、室内恒温游泳池等。用户想知道有哪些酒店中有她/他感兴趣的设施,但是并没有一个现成且完整的酒店设施词典提供给用户进行选择,本实施例使用多词表达抽取算法对用户输入的基础设施词进行挖掘得到对应的设施词以供用户选择。
具体地,本实施例将句子中的每个词定义为一个单元,通过计算相邻单元之间的对数似然进行单元消减,若值大于阈值,则这两个单元构成一个多词组合,将合并后的多个词再做为一个单元,进行上一步的计算,直到找不到新的多词组合。
设施实体词也可以作为主题词。本实施例通过基础设施词对设施实体词进行单独的挖掘,进一步提高了挖掘结果的精准度,提高了挖掘效率。
在一个实施例中,参照图5,挖掘方法还包括:
S150、确定查询范围。
步骤S16具体包括:
S161、提取查询范围内的UGC文本内容作为数据源文本。
S162、计算主题词选择结果与数据源文本的相关度,按照相关度降序排序,输出扩展词的相关度排序靠前的若干UGC文本内容。
步骤S25具体包括:
S251、提取查询范围内的UGC文本内容作为数据源文本。
S252、计算设施词选择结果与数据源文本的相关度,按照相关度降序排序,输出设施词的相关度排序靠前的若干UGC文本内容。
其中,对步骤S12、S150和S21的先后次序不做限定。
具体地,用户可以选择需要查询的数据源来确定查询范围。本实施例使用BM25算法计算主题词选择结果与数据源文本的相关度。BM25算法是信息检索领域用来计算query(查询)与文本相似度得分的经典算法。不同于TF-IDF(一种用于信息检索与数据挖掘的常用加权技术),BM25算法的公式主要由三个部分组成:1)query中每个单词与文本之间的相关性;2)单词与query之间的相似性;3)每个单词的权重。根据BM25算法召回与用户输入主题词相关的很多UGC文本内容,再根据相关度得分排序,取排名靠前的UGC文本内容展示给用户。
UGC文本内容有上亿的数据量,包括酒店点评,景点点评,攻略文章,美食评论等。为了提高检索效率,用户可以在平台上同时设置多个主题,并且设置某个主题对应查询的数据源,比如用户输入赏花主题词,且对应的查询数据源是景点点评和攻略文章,滑滑梯主题对应的查询数据源是酒店点评。
面对上亿的数据,为了达到多主题词或设施词并行检索,使用spark(一种专为大规模数据处理而设计的快速通用的计算引擎)集群进行批量的数据计算。Spark的优点:1)spark的计算模式属于MapReduce(一种编程模型,用于大规模数据集的并行运算),但不局限于Map(映射)和Reduce(归约)操作,还提供了多种数据集操作类型,编程模型比Hadoop(一种分布式系统基础架构)MapReduce更灵活;2)Spark提供了内存计算,可以将终结结果放到内存中,对于迭代运算效率更高;3)Spark基于DAG(Directed Acyclic Graph,有向无环图)的任务调度执行机制,优于Hadoop MapReduce的迭代执行机制;4)Spark提供了完整而强大的技术栈,包括SQL(Structured Query Language,结构化查询语言)查询、流式计算、机器学习和图算法组件;5)支持使用Scala(一种计算机编程语言)、Java(一种计算机编程语言)、Python(一种计算机编程语言)和R(一种计算机编程语言)语言进行编程,还可以通过Spark Shell进行交互式编程。RDD.map(一种函数)可以作为计算主题词和/或设施词和UGC文本内容相似度的核心功能函数。
用户在挖掘平台上设置好挖掘任务,一个任务包含一个用户对一个主题词或设施词在一个数据源限定的范围内的相似度计算,用户数量、主题词或设施词的数量以及数据源数量的增加均会导致对应的任务数量增加。调度模块将当前批次的任务传给Spark批量计算模块进行多用户多主题多数据源的并行相似度计算,批量计算模板运行结束,任务调度模块将结果返回挖掘平台进行相应的聚合展示,呈现给用户。
经实际检验,本实施例对整个的上亿级的数据源的检索从开始挖掘检索到将结果呈现给用户,时长能够控制在半个小时以内,帮助用户节省了时间,提高了精准度,提高了挖掘效率。
实施例2
本实施例还提供一种UGC文本内容的挖掘系统。参照图6,挖掘系统包括:文本内容获取模块1、主题词获取模块2、扩展词集合计算模块3、输出模块4、主题词选择模块5和第一相关度计算模块6。
文本内容获取模块1用于获取UGC文本内容。
主题词获取模块2用于获取用户输入的主题词。
扩展词集合计算模块3用于基于主题词得到主题词的扩展词集合,其中,扩展词集合包括与主题词近似的扩展词,扩展词由基于UGC文本内容训练得到的模型输出。
输出模块4用于输出扩展词集合。
主题词选择模块5用于将扩展词集合中被选择的扩展词作为主题词选择结果。
第一相关度计算模块6用于计算主题词选择结果与UGC文本内容的相关度,按照相关度降序排序,输出扩展词的相关度排序靠前的若干UGC文本内容。
其中,UGC文本内容可以包括景点的点评信息、酒店的点评信息、攻略文章内容和点评信息等。在对UGC文本内容的检索中,只采用用户输入的主题词进行检索往往由于主题词没有精准地表达用户的意图而导致检索效果不好,为了更好的表达用户的意图,需要对用户输入的主题词进行扩展以得到对应的扩展词,用户可以在这些扩展词中进行选择使得选中的扩展词能够精准地表达用户的意图。
本实施例在用户输入主题词的基础上,通过基于UGC文本内容训练得到的模型来挖掘主题词得到扩展词集合,将扩展词集合中被选择的扩展词作为主题词选择结果,计算主题词选择结果与UGC文本内容的相关度,输出扩展词的相关度排序靠前的若干UGC文本内容,帮助用户精准地挖掘主题词相关的扩展词,从而能够通过选中的扩展词得到用户感兴趣的UGC文本内容,提高了精准度,提高了挖掘效率,节省了用户得到感兴趣的UGC文本内容的时间。
在一个实施例中,文本内容获取模块1包括:原始文本获取单元101、分词单元102和词性标注单元103。
原始文本获取单元101用于获取原始UGC文本内容。
分词单元102用于对原始UGC文本内容进行分词得到分词结果。
词性标注单元103用于对分词结果进行词性标注得到UGC文本内容。
其中,可以基于统计和词典相结合的方法进行分词,在词典中加入了旅游业务的实体词,实体词可以包括景点名称、酒店名称、机场名称、火车站名称、商圈名称和城市名称等。例如:原始UGC文本内容为“上海外滩游玩攻略”,那么,分词结果为“上海外滩游玩攻略”,实体词可以是“上海”和“外滩”,“上海”的词性标注为城市名称,“外滩”的词性标注为景点名称,“游玩”的词性标注为动词,“攻略”的词性标注为名词。
本实施例能够实现对原始UGC文本内容的预处理,全量文本的预处理和后续增量文本的预处理可以结合起来,兼顾预处理的效果和效率,例如:每周进行一次全量文本的预处理,每天进行一次后续增量文本的预处理。
在一个实施例中,扩展词集合计算模块3包括:扩展词计算单元301和排序单元302。
扩展词计算单元301用于基于第一扩展词、第二扩展词和第三扩展词中的至少一种以及对应的概率得到扩展词以及扩展词对应的概率。
排序单元302用于按照扩展词对应的概率降序排序得到扩展词集合。
其中,第一扩展词和对应的概率由将主题词输入二元语言模型得到,二元语言模型由UGC文本内容样本训练得到。第二扩展词和对应的概率由将主题词输入词共现模型得到,词共现模型由UGC文本内容样本训练得到。第三扩展词和对应的概率由将主题词输入word2vec词嵌入模型得到,word2vec词嵌入模型由UGC文本内容样本训练得到。
二元语言模型可以计算二元、三元扩展词出现的概率。词共现模型可以统计每个词在一定窗口范围内和主题词共现的词出现的频率,进行阈值截取,获得每个词的高频共现词作为用户输入的主题词的扩展词,这是因为这几个高频共现词和主题词经常在同一个窗口单元中出现,高频共现词在一定程度上表达了与该主题词的语义相关性。word2vec词嵌入模型可以通过词向量的余弦相似度搜索和主题词相似的近义词作为扩展词。
本实施例将通过三个模型分别得到的第一扩展词、第二扩展词和第三扩展词以及对应的概率进行合并,得到扩展词集合,以避免单一模型带来的偏差,使得扩展词集合更精准更全面。在挖掘平台上以分页的形式展示扩展词集合给用户,供用户选择扩展词。
在一个实施例中,挖掘系统还包括:基础设施词获取模块7、设施词计算模块8、设施词选择模块9和第二相关度计算模块10。
基础设施词获取模块7用于获取用户输入的基础设施词。
设施词计算模块8用于基于基础设施词使用多词表达抽取算法得到设施词,其中,设施词为以基础设施词为后缀的多个词的组合。
输出模块4还用于输出设施词。
设施词选择模块9用于将被选择的设施词作为设施词选择结果。
第二相关度计算模块10用于计算设施词选择结果与UGC文本内容的相关度,按照相关度降序排序,输出设施词的相关度排序靠前的若干UGC文本内容。
其中,设施词是指OTA领域的设施实体词,比如酒店设施中的无边泳池、水上滑滑梯等。基础设施词是设施实体词中无法再缩减的后缀部分,例如:泳池是基础设施词,对应的设施词包括无边泳池、室内恒温游泳池等。用户想知道有哪些酒店中有她/他感兴趣的设施,但是并没有一个现成且完整的酒店设施词典提供给用户进行选择,本实施例使用多词表达抽取算法对用户输入的基础设施词进行挖掘得到对应的设施词以供用户选择。
具体地,本实施例将句子中的每个词定义为一个单元,通过计算相邻单元之间的对数似然进行单元消减,若值大于阈值,则这两个单元构成一个多词组合,将合并后的多个词再做为一个单元,进行上一步的计算,直到找不到新的多词组合。
设施实体词也可以作为主题词。本实施例通过基础设施词对设施实体词进行单独的挖掘,进一步提高了挖掘结果的精准度,提高了挖掘效率。
在一个实施例中,挖掘系统还包括:查询范围确定模块11。
查询范围确定模块11用于确定查询范围。
第一相关度计算模块6包括:第一数据源文本提取单元601和第一相关度计算单元602。
第一数据源文本提取单元601用于提取查询范围内的UGC文本内容作为数据源文本。
第一相关度计算单元602用于计算主题词选择结果与数据源文本的相关度。
第二相关度计算模块10包括:第二数据源文本提取单元1001和第二相关度计算单元1002。
第二数据源文本提取单元1001用于提取查询范围内的UGC文本内容作为数据源文本。
第二相关度计算单元1002用于计算设施词选择结果与数据源文本的相关度。
具体地,用户可以选择需要查询的数据源来确定查询范围。本实施例使用BM25算法计算主题词选择结果与数据源文本的相关度。BM25算法是信息检索领域用来计算query(查询)与文本相似度得分的经典算法。不同于TF-IDF(一种用于信息检索与数据挖掘的常用加权技术),BM25算法的公式主要由三个部分组成:1)query中每个单词与文本之间的相关性;2)单词与query之间的相似性;3)每个单词的权重。根据BM25算法召回与用户输入主题词相关的很多UGC文本内容,再根据相关度得分排序,取排名靠前的UGC文本内容展示给用户。
UGC文本内容有上亿的数据量,包括酒店点评,景点点评,攻略文章,美食评论等。为了提高检索效率,用户可以在平台上同时设置多个主题,并且设置某个主题对应查询的数据源,比如用户输入赏花主题词,且对应的查询数据源是景点点评和攻略文章,滑滑梯主题对应的查询数据源是酒店点评。
面对上亿的数据,为了达到多主题词或设施词并行检索,使用spark(一种专为大规模数据处理而设计的快速通用的计算引擎)集群进行批量的数据计算。Spark的优点:1)spark的计算模式属于MapReduce(一种编程模型,用于大规模数据集的并行运算),但不局限于Map(映射)和Reduce(归约)操作,还提供了多种数据集操作类型,编程模型比Hadoop(一种分布式系统基础架构)MapReduce更灵活;2)Spark提供了内存计算,可以将终结结果放到内存中,对于迭代运算效率更高;3)Spark基于DAG(Directed Acyclic Graph,有向无环图)的任务调度执行机制,优于Hadoop MapReduce的迭代执行机制;4)Spark提供了完整而强大的技术栈,包括SQL(Structured Query Language,结构化查询语言)查询、流式计算、机器学习和图算法组件;5)支持使用Scala(一种计算机编程语言)、Java(一种计算机编程语言)、Python(一种计算机编程语言)和R(一种计算机编程语言)语言进行编程,还可以通过Spark Shell进行交互式编程。RDD.map(一种函数)可以作为计算主题词和/或设施词和UGC文本内容相似度的核心功能函数。
用户在挖掘平台上设置好挖掘任务,一个任务包含一个用户对一个主题词或设施词在一个数据源限定的范围内的相似度计算,用户数量、主题词或设施词的数量以及数据源数量的增加均会导致对应的任务数量增加。调度模块将当前批次的任务传给Spark批量计算模块进行多用户多主题多数据源的并行相似度计算,批量计算模板运行结束,任务调度模块将结果返回挖掘平台进行相应的聚合展示,呈现给用户。
经实际检验,本实施例对整个的上亿级的数据源的检索从开始挖掘检索到将结果呈现给用户,时长能够控制在半个小时以内,帮助用户节省了时间,提高了精准度,提高了挖掘效率。
实施例3
图7为本发明实施例3提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1中的UGC文本内容的挖掘方法。图7显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1中的UGC文本内容的挖掘方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1中的UGC文本内容的挖掘方法。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1中的UGC文本内容的挖掘方法。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (12)
1.一种UGC文本内容的挖掘方法,其特征在于,包括:
获取UGC文本内容;
获取用户输入的主题词;
基于所述主题词得到所述主题词的扩展词集合,其中,所述扩展词集合包括与所述主题词近似的扩展词,所述扩展词由基于所述UGC文本内容训练得到的模型输出;
输出所述扩展词集合;
将所述扩展词集合中被选择的扩展词作为主题词选择结果;
计算所述主题词选择结果与所述UGC文本内容的相关度,按照所述相关度降序排序,输出扩展词的相关度排序靠前的若干UGC文本内容。
2.如权利要求1所述的UGC文本内容的挖掘方法,其特征在于,所述获取UGC文本内容的步骤具体包括:
获取原始UGC文本内容;
对所述原始UGC文本内容进行分词得到分词结果;
对所述分词结果进行词性标注得到所述UGC文本内容。
3.如权利要求1所述的UGC文本内容的挖掘方法,其特征在于,所述基于所述主题词得到所述主题词的扩展词集合的步骤具体包括:
基于第一扩展词、第二扩展词和第三扩展词中的至少一种以及对应的概率得到所述扩展词以及所述扩展词对应的概率;
按照所述扩展词对应的概率降序排序得到所述扩展词集合;
其中,所述第一扩展词和对应的概率由将所述主题词输入二元语言模型得到,所述二元语言模型由UGC文本内容样本训练得到;所述第二扩展词和对应的概率由将所述主题词输入词共现模型得到,所述词共现模型由UGC文本内容样本训练得到;所述第三扩展词和对应的概率由将所述主题词输入word2vec词嵌入模型得到,所述word2vec词嵌入模型由UGC文本内容样本训练得到。
4.如权利要求1所述的UGC文本内容的挖掘方法,其特征在于,所述挖掘方法还包括:
获取用户输入的基础设施词;
基于所述基础设施词使用多词表达抽取算法得到设施词,其中,所述设施词为以所述基础设施词为后缀的多个词的组合;
输出所述设施词;
将被选择的设施词作为设施词选择结果;
计算所述设施词选择结果与所述UGC文本内容的相关度,按照所述相关度降序排序,输出设施词的相关度排序靠前的若干UGC文本内容。
5.如权利要求4所述的UGC文本内容的挖掘方法,其特征在于,所述挖掘方法还包括:
确定查询范围;
所述计算所述主题词选择结果与所述UGC文本内容的相关度的步骤具体包括:
提取所述查询范围内的所述UGC文本内容作为数据源文本;
计算所述主题词选择结果与所述数据源文本的相关度;
所述计算所述设施词选择结果与所述UGC文本内容的相关度的步骤具体包括:
提取所述查询范围内的所述UGC文本内容作为数据源文本;
计算所述设施词选择结果与所述数据源文本的相关度。
6.一种UGC文本内容的挖掘系统,其特征在于,包括:文本内容获取模块、主题词获取模块、扩展词集合计算模块、输出模块、主题词选择模块和第一相关度计算模块;
文本内容获取模块1用于获取UGC文本内容;
所述主题词获取模块用于获取用户输入的主题词;
所述扩展词集合计算模块用于基于所述主题词得到所述主题词的扩展词集合,其中,所述扩展词集合包括与所述主题词近似的扩展词,所述扩展词由基于所述UGC文本内容训练得到的模型输出;
所述输出模块用于输出所述扩展词集合;
所述主题词选择模块用于将所述扩展词集合中被选择的扩展词作为主题词选择结果;
所述第一相关度计算模块用于计算所述主题词选择结果与所述UGC文本内容的相关度,按照所述相关度降序排序,输出扩展词的相关度排序靠前的若干UGC文本内容。
7.如权利要求6所述的UGC文本内容的挖掘系统,其特征在于,文本内容获取模块1包括:原始文本获取单元、分词单元和词性标注单元;
所述原始文本获取单元用于获取原始UGC文本内容;
所述分词单元用于对所述原始UGC文本内容进行分词得到分词结果;
所述词性标注单元用于对所述分词结果进行词性标注得到所述UGC文本内容。
8.如权利要求6所述的UGC文本内容的挖掘系统,其特征在于,所述扩展词集合计算模块包括:扩展词计算单元和排序单元;
所述扩展词计算单元用于基于第一扩展词、第二扩展词和第三扩展词中的至少一种以及对应的概率得到所述扩展词以及所述扩展词对应的概率;
所述排序单元用于按照所述扩展词对应的概率降序排序得到所述扩展词集合;
其中,所述第一扩展词和对应的概率由将所述主题词输入二元语言模型得到,所述二元语言模型由UGC文本内容样本训练得到;所述第二扩展词和对应的概率由将所述主题词输入词共现模型得到,所述词共现模型由UGC文本内容样本训练得到;所述第三扩展词和对应的概率由将所述主题词输入word2vec词嵌入模型得到,所述word2vec词嵌入模型由UGC文本内容样本训练得到。
9.如权利要求6所述的UGC文本内容的挖掘系统,其特征在于,所述挖掘系统还包括:基础设施词获取模块、设施词计算模块、设施词选择模块和第二相关度计算模块;
所述基础设施词获取模块用于获取用户输入的基础设施词;
所述设施词计算模块用于基于所述基础设施词使用多词表达抽取算法得到设施词,其中,所述设施词为以所述基础设施词为后缀的多个词的组合;
所述输出模块还用于输出所述设施词;
所述设施词选择模块用于将被选择的设施词作为设施词选择结果;
所述第二相关度计算模块用于计算所述设施词选择结果与所述UGC文本内容的相关度,按照所述相关度降序排序,输出设施词的相关度排序靠前的若干UGC文本内容。
10.如权利要求9所述的UGC文本内容的挖掘系统,其特征在于,所述挖掘系统还包括:查询范围确定模块;
所述查询范围确定模块用于确定查询范围;
所述第一相关度计算模块包括:第一数据源文本提取单元和第一相关度计算单元;
所述第一数据源文本提取单元用于提取所述查询范围内的所述UGC文本内容作为数据源文本;
所述第一相关度计算单元用于计算所述主题词选择结果与所述数据源文本的相关度;
所述第二相关度计算模块包括:第二数据源文本提取单元和第二相关度计算单元;
所述第二数据源文本提取单元用于提取所述查询范围内的所述UGC文本内容作为数据源文本;
所述第二相关度计算单元用于计算所述设施词选择结果与所述数据源文本的相关度。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-5中任一项所述的UGC文本内容的挖掘方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的UGC文本内容的挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110767197.1A CN113434767A (zh) | 2021-07-07 | 2021-07-07 | Ugc文本内容的挖掘方法、系统、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110767197.1A CN113434767A (zh) | 2021-07-07 | 2021-07-07 | Ugc文本内容的挖掘方法、系统、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113434767A true CN113434767A (zh) | 2021-09-24 |
Family
ID=77759377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110767197.1A Pending CN113434767A (zh) | 2021-07-07 | 2021-07-07 | Ugc文本内容的挖掘方法、系统、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113434767A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115718680A (zh) * | 2023-01-09 | 2023-02-28 | 江铃汽车股份有限公司 | 数据读取方法、系统、计算机及可读存储介质 |
CN115952350A (zh) * | 2022-12-09 | 2023-04-11 | 贝壳找房(北京)科技有限公司 | 信息的查询方法、电子设备、存储介质及计算机程序产品 |
-
2021
- 2021-07-07 CN CN202110767197.1A patent/CN113434767A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115952350A (zh) * | 2022-12-09 | 2023-04-11 | 贝壳找房(北京)科技有限公司 | 信息的查询方法、电子设备、存储介质及计算机程序产品 |
CN115718680A (zh) * | 2023-01-09 | 2023-02-28 | 江铃汽车股份有限公司 | 数据读取方法、系统、计算机及可读存储介质 |
CN115718680B (zh) * | 2023-01-09 | 2023-06-06 | 江铃汽车股份有限公司 | 数据读取方法、系统、计算机及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10963794B2 (en) | Concept analysis operations utilizing accelerators | |
US20180341871A1 (en) | Utilizing deep learning with an information retrieval mechanism to provide question answering in restricted domains | |
CN107210035B (zh) | 语言理解系统和方法的生成 | |
CN112100356A (zh) | 一种基于相似性的知识库问答实体链接方法及系统 | |
US20060242130A1 (en) | Information retrieval using conjunctive search and link discovery | |
CN110147421B (zh) | 一种目标实体链接方法、装置、设备及存储介质 | |
WO2014008272A1 (en) | Learning-based processing of natural language questions | |
CN108932218B (zh) | 一种实例扩展方法、装置、设备和介质 | |
CN112035598A (zh) | 一种智能语义检索方法、系统和电子设备 | |
US20220129448A1 (en) | Intelligent dialogue method and apparatus, and storage medium | |
Saxena et al. | KeyGames: A game theoretic approach to automatic keyphrase extraction | |
Wang et al. | Named entity disambiguation for questions in community question answering | |
CN113434767A (zh) | Ugc文本内容的挖掘方法、系统、设备和存储介质 | |
WO2022134355A1 (zh) | 基于关键词提示的检索方法、装置、电子设备及存储介质 | |
CN111611452A (zh) | 搜索文本的歧义识别方法、系统、设备及存储介质 | |
CN113761890A (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
JP2022091122A (ja) | 汎化処理方法、装置、デバイス、コンピュータ記憶媒体及びプログラム | |
CN113988157A (zh) | 语义检索网络训练方法、装置、电子设备及存储介质 | |
CN111931034B (zh) | 数据搜索方法、装置、设备及存储介质 | |
Juan | An effective similarity measurement for FAQ question answering system | |
JP2022054389A (ja) | 検索モデルの訓練方法、装置、デバイス、コンピュータ記憶媒体、及びコンピュータプログラム | |
Shehata et al. | An efficient concept-based retrieval model for enhancing text retrieval quality | |
Yu et al. | Role-explicit query identification and intent role annotation | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
Abimbola et al. | A Noun-Centric Keyphrase Extraction Model: Graph-Based Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |