CN110188352B - 一种文本主题确定方法、装置、计算设备及存储介质 - Google Patents

一种文本主题确定方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN110188352B
CN110188352B CN201910450423.6A CN201910450423A CN110188352B CN 110188352 B CN110188352 B CN 110188352B CN 201910450423 A CN201910450423 A CN 201910450423A CN 110188352 B CN110188352 B CN 110188352B
Authority
CN
China
Prior art keywords
word
target subject
text
analyzed
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910450423.6A
Other languages
English (en)
Other versions
CN110188352A (zh
Inventor
李长亮
郭昱
汪美玲
唐剑波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd, Chengdu Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Priority to CN201910450423.6A priority Critical patent/CN110188352B/zh
Publication of CN110188352A publication Critical patent/CN110188352A/zh
Application granted granted Critical
Publication of CN110188352B publication Critical patent/CN110188352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种文本主题确定方法、装置、计算设备及存储介质,涉及计算机技术领域。其中,一种文本主题确定方法包括,获取待分析文本,并根据所述待分析文本构建待分析文本词袋;基于所述待分析文本词袋、预设的目标主题词袋和预设的词关系网,构建第一目标主题判定向量;基于所述待分析文本词袋和预设的目标主题词袋,构建第二目标主题判定向量;根据所述第一目标主题判定向量和所述第二目标主题判定向量,确定所述待分析文本的目标主题。本申请提供的一种文本主题确定方法、装置、计算设备及存储介质,通过将两方面的目标主题判定向量结合,得出最终的文本主题判定结果,准确性更高、主题与文本之间的贴合度更高。

Description

一种文本主题确定方法、装置、计算设备及存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种文本主题确定方法、装置、计算设备及存储介质。
背景技术
文本的主题是指文本所表达的中心意思,它渗透和贯穿于文本的全部内容,体现了作者写作的主要意图,包含着作者对文章中反应的一切的客观事物的基本认识,理解以及评价。在素材推荐的过程中,如果能够预先判定出用户所创作的内容指向的主题,就可以有针对性的为用户推荐与其创作内容相符合的相关素材,提高推荐的准确性和采纳率。
目前,现有的文本主题确定方法是基于文档主题生成模型(LDA)进行主题确定。LDA是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息。LDA采用词袋的方法,将每一篇文档视为一个词频向量,并通过统计其中的词频信息来确定文档的主题。
但是,LDA文档主题生成模型只考虑文档中的词频信息,易导致最终确定的文本主题不准确。
发明内容
有鉴于此,本申请实施例提供了一种文本主题确定方法、装置、计算设备及存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种文本主题确定方法,包括:
获取待分析文本,并根据所述待分析文本构建待分析文本词袋;
基于所述待分析文本词袋、预设的目标主题词袋和预设的词关系网,构建第一目标主题判定向量;
基于所述待分析文本词袋和预设的目标主题词袋,构建第二目标主题判定向量;
根据所述第一目标主题判定向量和所述第二目标主题判定向量,确定所述待分析文本的目标主题。
进一步地,所述根据所述待分析文本构建待分析文本词袋,包括:
对所述待分析文本进行分词,得到待分析文本词袋。
进一步地,所述基于所述待分析文本词袋、预设的目标主题词袋和预设的词关系网,构建第一目标主题判定向量,包括:
在预设的词关系网中查找所述待分析文本词袋中的词的目标主题对应词;
统计所述目标主题词袋中的目标主题词在所述目标主题对应词中的词频,并基于统计得到的词频赋予所述目标主题词第一权重值,得到第一目标主题判定向量。
进一步地,所述基于所述待分析文本词袋和预设的目标主题词袋,构建第二目标主题判定向量,包括:
分别计算预设的目标主题词袋中的目标主题词与所述待分析文本词袋中的每个词之间的相关距离,汇总得到每个所述目标主题词的总相关距离;
基于所述目标主题词的总相关距离,赋予所述目标主题词第二权重值,得到第二目标主题判定向量。
进一步地,所述相关距离包括词移距离,所述总相关距离包括总词移距离;
分别计算预设的目标主题词袋中的目标主题词与所述待分析文本词袋中的每个词之间的词移距离,汇总得到每个所述目标主题词的总词移距离;
基于所述目标主题词的总词移距离,赋予所述目标主题词第二权重值,得到第二目标主题判定向量。
进一步地,所述根据所述第一目标主题判定向量和所述第二目标主题判定向量,确定所述待分析文本的目标主题,包括:
计算所述第一目标主题判定向量与所述第二目标主题判定向量中相同的目标主题词的表征系数,并基于计算得到的表征系数,确定所述待分析文本的目标主题。
进一步地,所述计算所述第一目标主题判定向量与所述第二目标主题判定向量中相同的目标主题词的表征系数,包括:
计算所述第一目标主题判定向量与所述第二目标主题判定向量中相同的目标主题词的第一权重值与第二权重值的总和或平均值,得到表征系数。
进一步地,所述基于计算得到的表征系数,确定所述待分析文本的目标主题,包括:
判断所述表征系数是否超过目标阈值,若所述表征系数超过目标阈值,则确定所述超过目标阈值的表征系数的目标主题词为所述待分析文本的目标主题。
进一步地,在获取待分析文本之前,还包括:
获取预设词库,并在所述预设词库中提取与目标主题相关的词,将提取得到的与目标主题相关的词汇总,得到目标主题词袋。
进一步地,所述文本主题确定方法,还包括:
基于所述待分析文本的目标主题,在预先配置的素材库中匹配并推荐与所述待分析文本主题相对应的素材信息。
一种素材推荐方法,包括:
获取待分析文本,并根据所述待分析文本构建待分析文本词袋;
基于所述待分析文本词袋、预设的目标主题词袋和预设的词关系网,构建第一目标主题判定向量;
基于所述待分析文本词袋和预设的目标主题词袋,构建第二目标主题判定向量;
基于所述第一目标主题判定向量和所述第二目标主题判定向量,在预先配置的素材库中匹配并推荐相对应的素材信息。
一种文本主题确定装置,包括:
第一获取模块,被配置为获取待分析文本,并根据所述待分析文本构建待分析文本词袋;
第一构建模块,被配置为基于所述待分析文本词袋、预设的目标主题词袋和预设的词关系网,构建第一目标主题判定向量;
第二构建模块,被配置为基于所述待分析文本词袋和预设的目标主题词袋,构建第二目标主题判定向量;
确定模块,被配置为根据所述第一目标主题判定向量和所述第二目标主题判定向量,确定所述待分析文本的目标主题。
可选地,所述第一获取模块,进一步地被配置为:
对所述待分析文本进行分词,得到待分析文本词袋。
可选地,所述第一构建模块,进一步地被配置为:
在预设的词关系网中查找所述待分析文本词袋中的词的目标主题对应词;
统计所述目标主题词袋中的目标主题词在所述目标主题对应词中的词频,并基于统计得到的词频赋予所述目标主题词第一权重值,得到第一目标主题判定向量。
可选地,所述第二构建模块,进一步地被配置为:
分别计算预设的目标主题词袋中的目标主题词与所述待分析文本词袋中的每个词之间的相关距离,汇总得到每个所述目标主题词的总相关距离;
基于所述目标主题词的总相关距离,赋予所述目标主题词第二权重值,得到第二目标主题判定向量。
可选地,所述所述相关距离包括词移距离,所述总相关距离包括总词移距离。
所述第二构建模块,进一步地被配置为:
分别计算预设的目标主题词袋中的目标主题词与所述待分析文本词袋中的每个词之间的词移距离,汇总得到每个所述目标主题词的总词移距离;
基于所述目标主题词的总词移距离,赋予所述目标主题词第二权重值,得到第二目标主题判定向量。
可选地,所述确定模块,进一步地被配置为:
计算所述第一目标主题判定向量与所述第二目标主题判定向量中相同的目标主题词的表征系数,并基于计算得到的表征系数,确定所述待分析文本的目标主题。
可选地,所述确定模块,进一步地被配置为:
计算所述第一目标主题判定向量与所述第二目标主题判定向量中相同的目标主题词的第一权重值与第二权重值的总和或平均值,得到表征系数。
可选地,所述确定模块,进一步地被配置为:
判断所述表征系数是否超过目标阈值,若所述表征系数超过目标阈值,则确定所述超过目标阈值的表征系数的目标主题词为所述待分析文本的目标主题。
可选的,所述文本主题确定装置,还包括:
预获取模块,被配置为获取预设词库,并在所述预设词库中提取与目标主题相关的词,将提取得到的与目标主题相关的词汇总,得到目标主题词袋。
可选地,所述文本主题确定装置,还包括:
第一推荐模块,被配置为基于所述待分析文本的目标主题,在预先配置的素材库中匹配并推荐与所述待分析文本主题相对应的素材信息。
一种素材推荐装置,包括:
第二获取模块,被配置为获取待分析文本,并根据所述待分析文本构建待分析文本词袋;
第三构建模块,被配置为基于所述待分析文本词袋、预设的目标主题词袋和预设的词关系网,构建第一目标主题判定向量;
第四构建模块,被配置为基于所述待分析文本词袋和预设的目标主题词袋,构建第二目标主题判定向量;
推荐模块,被配置为基于所述第一目标主题判定向量和所述第二目标主题判定向量,在预先配置的素材库中匹配并推荐相对应的素材信息。
一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现上述文本主题确定方法或素材推荐方法的步骤。
一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现上述文本主题确定方法或素材推荐方法的步骤。
本申请提供的一种文本主题确定方法、装置、计算设备及存储介质,通过将两方面的目标主题判定向量结合,得出最终的文本主题判定结果,准确性更高、主题与文本之间的贴合度更高。
附图说明
图1是本申请实施例的计算设备的结构框图;
图2是本申请实施例所述的一种文本主题确定方法步骤流程示意图;
图3是本申请实施例所述的一种文本主题确定方法步骤流程示意图;
图4是本申请实施例所述的一种文本主题确定方法步骤流程示意图;
图5是本申请实施例所述的一种文本主题确定方法步骤流程示意图;
图6是本申请实施例所述的一种素材推荐方法步骤流程示意图;
图7是本申请实施例所述的一种文本主题确定装置结构示意图;
图8是本申请实施例所述的一种素材推荐装置结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本申请中,提供了一种文本主题确定方法、装置、计算设备及存储介质,在下面的实施例中逐一进行详细说明。
图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
其中,数据库150保存的数据可以是在文本的主题确定过程中产生的各种数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。
如图2所示,一种文本主题确定方法,包括步骤S210~步骤S240。
步骤S210:获取待分析文本,并根据所述待分析文本构建待分析文本词袋。
在本申请的实施例中,待分析文本可以是用户即兴创作内容,也可以是已存在的文本内容,可以是一句话、一段话、一篇文章、多篇文章或是文本库等等,还可以是中文文本、英文文本等各种语言文本。待分析文本的形式可以是文档、网页等各种形式。获取待分析文本的方式可以是通过用户文字输入获取、通过用户语音输入并转换成文字获取等各种方式。
实际应用中,可以通过对所述待分析文本进行分词,得到待分析文本词袋。
可以根据待分析文本语言的不同,灵活的选择各种分词工具对文本内容进行分词,如结巴中文分词(jieba)、语言技术平台(Language Technology Platform,LTP)等分词工具。
例如,假设获取到的待分析文本为“隋末天下群雄并起,617年,唐国公李渊于晋阳起兵,618年于长安称帝建立唐朝”,利用jieba分词工具对待分析文本进行分词,其中,jieba分词包括全模式、精确模式和搜索引擎模式,在本实施例中采用精确模式进行分词,即得到包括有“隋末、天下、群雄并起、617年、唐国公、李渊、于、晋阳、起兵、618年、于、长安、称帝、建立、唐朝”的待分析文本词袋。
步骤S220:基于所述待分析文本词袋、预设的目标主题词袋和预设的词关系网,构建第一目标主题判定向量。
其中,主题是待分析文本所表达的中心意思,待分析文本的主题不局限于一个,可以同时包含有多个不同主题,本实施例中所述的目标主题是待分析文本中所关注的主题,同样的,目标主题可以是一个,也可以是多个。如假设待分析文本中包括主题A、B、C和D,若主题C为关注的主题,则主题C为目标主题,若主题A和D为关注的主题,则主题A和D均为目标主题,若主题A、B、C、D均为关注的主题,则主题A、B、C、D均为目标主题,以此类推,目标主题的具体数量可以根据实际需求确定,本申请对此不作限制。
例如,假设待分析文本的内容包括:“热带雨林气候主要分布在南美洲的亚马逊平原,非洲的刚果盆地,马来半岛和马来群岛;亚热带季风气候主要分布在中国东部秦岭淮河以南、热带季风气候类型以北的地带,以及日本南部和朝鲜半岛南部等地;温带大陆性气候主要分布于亚欧大陆和北美洲。”其中,“气候”、“气候地带”、“地域”、“国家”、“地形”等均可以作为该待分析文本的主题,若在该待分析文本中,侧重于对“气候”的描述,如“热带雨林气候”“亚热带季风气候”等,即关注的主题为“气候”,则“气候”可以为该待分析文本的目标主题;若在该待分析文本中,侧重于对“气候”与“地域”的描写,如待分析文本中的“温带大陆性气候主要分布于亚欧大陆和北美洲”,既关注了“温带大陆性气候”,又关注了“亚欧大陆”和“北美洲”,即关注的主题为“气候”和“地域”,则“气候”和“地域”可以为该待分析文本的目标主题,以此类推,目标主题的具体数量可以根据实际情况确定。
预设的目标主题词袋可以是由若干与目标主题相关的目标主题词组成的词袋,目标主题词可以通过在预设的词库中提取等方式获得,预设的词库可以是中文维基词库、英文维基词库等各种词库;预设的词关系网可以是单词网络(wordnet)或其他各种单词网络,本申请对此不做限制。
例如,在词库中提取出的关于目标主题“年代”的目标主题词可以包括“公元1世纪初、公元1世纪二十年代、公元1世纪三十年代、公元1世纪四十年代……”或“夏朝、商朝、周朝、汉朝……”等等,提取的目标主题词不局限于一种形式或写法,可以是与目标主题相关的任何形式,将提取到的目标主题词汇总,即得到目标主题词袋。
实际应用中,可以在预设的词关系网中查找所述待分析文本词袋中的词的目标主题对应词;统计所述目标主题词袋中的目标主题词在所述目标主题对应词中的词频,并基于统计得到的词频赋予所述目标主题词第一权重值,得到第一目标主题判定向量。
在本说明书一实施例中,可以结合wordnet查找待分析文本词袋中的每个词的目标主题对应词,其中,目标主题对应词与待分析文本词袋中的词存在关联关系,目标主题对应词可以是待分析文本词袋中的词的同义词、近义词、上位词、下位词或该词本身等等,如“实验”与“试验”为同义词,则“实验”可以是“试验”的目标主题对应词,“试验”也可以是“实验”的目标主题对应词,可视具体情况而定,本申请对此不作限制;如“理想”与“梦想”为近义词,则“理想”可以是“梦想”的目标主题对应词,“梦想”也可以是“理想”的目标主题对应词,可视具体情况而定,本申请对此不作限制;如“铅笔”“橡皮”的上位词均为“文具”,则“文具”可以是“铅笔”“橡皮”的目标主题对应词,若该词本身已经是上位词,无法再次上位,则该词的目标主题对应词即为该词本身,如若在待分析文本词袋中直接出现“文具”一词,该词无法再次上位,则“文具”的目标主题对应词可以是“文具”。
例如,待分析文本词袋中包括有“隋末、天下、群雄并起、617年、唐国公、李渊、于、晋阳、起兵、618年、于、长安、称帝、建立、唐朝”,结合wordnet分别对待分析文本词袋中的每个词进行查询分析后,得到的目标主题对应词依次为“隋朝、天下、群雄并起、隋朝、唐朝、唐朝、于、晋阳、起兵、唐朝、于、长安、称帝、建立、唐朝”。
在本说明书一实施例中,词频可以是词出现的次数,例如,假设目标主题对应词包括2个A,2个B,1个C、1个D和1个F,目标主题词包括A和B,其中目标主题词A在所有目标主题对应词中出现2次,目标主题词B在所有目标主题对应词中出现3次,则目标主题词A的词频为2,目标主题词B的词频为3。第一权重值可以是基于目标主题词在目标主题对应词中的词频赋予该目标主题词的权重,且第一权重值可以是整数、小数、分数等各种形式,可以通过算法计算等各种方式获得。分别统计每个目标主题词在目标主题对应词中出现的次数,基于统计得到的目标主题词出现的次数多少,赋予该目标主题词一个权重,例如,若目标主题词包括A和B,其中目标主题词A的词频为2,目标主题词B的词频为3,则可以根据目标主题词A和B的词频在总词频中占的比重赋予目标主题词A第一权重值0.4、赋予目标主题词B第一权重值0.6,或可以根据目标主题词A与目标主题词B之间的词频之比赋予目标主题词A第一权重值1、赋予目标主题词B第一权重值1.5或以其他方式赋予目标主题词第一权重值,赋予目标主题词第一权重值的具体方式可以根据实际情况确定,本申请对此不作限制。目标主题词加第一权重值即得到第一目标主题判定向量,例如,若目标主题词A的第一权重值为0.4,目标主题词B的第一权重值为0.6,则第一目标主题判定向量可以是(A0.4,B0.6)。
例如,假设目标主题词袋中包括“夏朝、商朝、周朝……隋朝、唐朝、宋朝、元朝、明朝、清朝……”等目标主题词,对待分析文本词袋中的每个词分别进行查询后,得到的目标主题对应词依次为“隋朝、天下、群雄并起、隋朝、唐朝、唐朝、于、晋阳、起兵、唐朝、于、长安、称帝、建立、唐朝”,经统计目标主题词在目标主题对应词中的词频后得到,“隋朝”共出现2次,“唐朝”共出现4次,其他目标主题词在目标主题对应词中均未出现,根据“隋朝”和“唐朝”出现的次数,赋予“隋朝”第一权重值为0.33,赋予“唐朝”第一权重值为0.67,得到第一目标主题判定向量为(“隋朝”0.33,“唐朝”0.67)。
S230:基于所述待分析文本词袋和预设的目标主题词袋,构建第二目标主题判定向量。
实际应用中,可以通过分别计算预设的目标主题词袋中的目标主题词与所述待分析文本词袋中的每个词之间的相关距离,汇总得到每个所述目标主题词的总相关距离;基于所述目标主题词的总相关距离,赋予所述目标主题词第二权重值。
其中,此步骤中的目标主题词袋与步骤S220中的目标主题词袋相同。相关距离可以表示目标主题词与待分析文本词袋中的词之间的相关性大小,可以通过相似度等形式表达,所述相关距离的计算方法可以是基准方法或预训练编码器法等方法,所述相关距离的表达形式及计算方法本申请均不做限制。总相关距离可以表示目标主题词与待分析文本之间的相关性大小,可以通过目标主题词与待分析文本词袋中的每个词之间的相关距离相加或求平均等各种方法得到。例如,若目标主题词A与待分析文本中的词M1、M2……Mn之间的相似度分别为x1、x2……xn,则可以通过求平均的方法计算得到目标主题词A与该待分析文本之间的总相似度即总相关距离为(x1+x2+……+xn)/n,或通过求和的方法计算得到总相关距离为x1+x2+……+xn,或采用其他方法计算得到均可,本申请对此不作限制。第二权重值可以是基于每个目标主题词的总相关距离,如总相似度,赋予该目标主题词的权重,且可以通过算法计算等各种方式获得,例如,若目标主题词A与待分析文本之间的总相关距离为0.5,目标主题词B与待分析文本之间的总相关距离为0.9,则可以根据每个目标主题词之间的比例赋予目标主题词A第二权重值0.5,目标主题词B第二权重值0.9,或以其他方式赋予目标主题词第二权重值,本申请对此不做限制。目标主题词加第二权重值即得到第二目标主题判定向量,如目标主题词A的第二权重值为0.5,目标主题词B的第二权重值为0.9,则第二目标主题判定向量可以是(A0.5,B0.9)。
例如,假设目标主题词袋中包括“夏朝、商朝、周朝……隋朝、唐朝、宋朝、元朝、明朝、清朝……”等目标主题词,待分析文本词袋中包括有“隋末、天下、群雄并起、617年、唐国公、李渊、于、晋阳、起兵、618年、于、长安、称帝、建立、唐朝”,分别计算每个目标主题词与待分析文本词袋中的每个词的相似度,若目标主题词与待分析文本词袋中的词之间的相似度为0,则舍弃。以目标主题词“隋朝”为例,其与待分析文本词袋中的“天下”等词之间的相似度为零,舍弃;目标主题词“隋朝”与待分析文本词袋中的“隋末”、“617年”和“618年”之间的相似度分别为1、1和0.5,将上述三者相加即得到目标主题词“隋朝”的总相似度为2.5,根据此目标主题词与其他目标主题词的总相似度,赋予每个目标主题词相应的第二权重值,最终获得第二目标主题判定向量,如表1所示:
表1
Figure BDA0002074964930000151
本步骤中以相关距离的具体表现形式为相似度为例,其他相关距离表现形式的运用过程均相类似,此处不再赘述。
步骤S240:根据所述第一目标主题判定向量和所述第二目标主题判定向量,确定所述待分析文本的目标主题。
实际应用中,可以通过计算所述第一目标主题判定向量与所述第二目标主题判定向量中相同的目标主题词的表征系数,并基于计算得到的表征系数,确定所述待分析文本的目标主题。
对第一目标主题判定向量与第二目标主题判定向量中相同的目标主题词的第一权重值和第二权重值进行计算,得到该目标主题词的表征系数。其中,对两个权重值进行计算的方式可以是求和、求平均、计算加权平均等各种方式。例如,目标主题词A的第一权重值为0.2,第二权重值为0.5,通过求和的方式得到目标主题词A的表征系数为0.7,或以其他方式获得目标主题词A的表征系数均可,本申请对此不作限制。表征系数可以表示目标主题词与待分析文本之间的总相关性大小,根据计算得到的各个目标主题词表征系数的大小,进而可以确定待分析文本的目标主题。
例如,假设在步骤S220中得到的第一目标主题判定向量为(“隋朝”0.33,“唐朝”0.67),在步骤S230中得到的第二目标主题判定向量为(“隋朝”0.4,“唐朝”0.6),其中,目标主题词“隋朝”的第一权重值为0.33,第二权重值为0.4,经过计算得到目标主题词“隋朝”的表征系数为0.73,目标主题词“唐朝”的第一权重值为0.67,第二权重值为0.6,经过计算得到目标主题词“唐朝”的表征系数为1.27。经过对所有目标主题词的表征系数的比较,确定“唐朝”为该待分析文本的目标主题。
本说明书一实施例所述的文本主题确定方法,从词频和相关性两方面入手,分别采用两种方式对待分析文本与目标主题词之间的相关度进行计算,对于词频的计算统计可以准确的获知某词在文本中重复出现的次数,且在统计词频时,本实施例还采用词关系网对待分析文本中的词进行查询,可以对待分析文本中的词进行进一步的更深层次的且更为丰富的归类分析,使得对词频的统计更加精确,有效避免遗漏;对于相关距离的计算,本实施例提供了多种方式,其中,计算目标主题词与待分析文本词袋中各词的相似度并进行统计,可以准确的获知目标主题词与每个待分析词袋中的词之间的相似度,从而获得每个目标主题词与待分析文本之间的相似度,最后,综合词频和相关性两方面确定待分析文本的主题,更加精确且主题贴合度更高。
如图3所示,一种文本主题确定方法,包括步骤S310~S340。
步骤S310:获取待分析文本,并根据所述待分析文本构建待分析文本词袋。
实际应用中,可以通过对待分析文本进行分词后,得到待分析文本词袋。
步骤S320:基于所述待分析文本词袋和预设的词关系网,构建第一目标主题判定向量。
实际应用中,可以通过在预设的词关系网中查找所述待分析文本词袋中的词的目标主题对应词;统计所述目标主题词袋中的目标主题词在所述目标主题对应词中的词频,并基于统计得到的词频赋予所述目标主题词第一权重值,得到第一目标主题判定向量。
步骤S330:分别计算预设的目标主题词袋中的目标主题词与所述待分析文本词袋中的每个词之间的词移距离,汇总得到每个所述目标主题词的总词移距离;基于所述目标主题词的总词移距离,赋予所述目标主题词第二权重值,得到第二目标主题判定向量。
其中,词移距离表示词与词之间的距离,本实施例中采用词移距离算法(WordMover’s Distance)来计算词移距离,并通过计算得到词移距离来表示词与词之间的相关性,词移距离大,则相关性小,反之,词移距离小,则相关性大。
在通过目标主题词的词移距离计算该目标主题词的总词移距离时,可以直接计算,也可以先判断筛选出位于目标范围内的词移距离,再进行计算,或采取其他计算方式均可,本实施例对此不作限制。其中,当采取判断筛选出位于一定范围内的词移距离,再进行计算的方式时,首先判断该词移距离与目标阈值之间的关系,目标阈值可以是词移距离的临界值,如最大值或最小值等,目标阈值可以通过算法计算等各种方式获得。例如,当目标阈值为词移距离的最大值时,若待分析文本词袋中的词与目标主题词之间的词移距离大于目标阈值,则判定待分析文本词袋中的词与该目标主题词不相关,不计入总词移距离的汇总统计。再判断该词移距离是否为零,若词移距离为零,则判定待分析文本词袋中的词与该目标主题词密切相关,同样不计入总词移距离的汇总统计,将剩余位于目标范围内的每个目标主题词对应的词移距离分别求平均值,即得到该目标主题词的总词移距离,基于每个目标主题词的总词移距离赋予其第二权重值,即得到第二目标主题判定向量。
例如,假设目标主题词袋中包括“夏朝、商朝、周朝……隋朝、唐朝、宋朝、元朝、明朝、清朝……”等目标主题词,待分析文本词袋中包括有“隋末、天下、群雄并起、617年、唐国公、李渊、于、晋阳、起兵、618年、于、长安、称帝、建立、唐朝”,以目标主题词“唐朝”为例,分别计算“唐朝”与待分析文本中各词的词移距离,如经过计算得到“隋末”与“唐朝”之间的词移距离为1.5,设定的目标阈值(词移距离最大值)为1,则“隋末”与“唐朝”之间的词移距离大于目标阈值,判定两者不相关,舍弃;经过计算待分析文本中的“唐朝”与目标主题词“唐朝”之间的词移距离为零,则判定两者密切相关,不计入汇总统计;经过计算得到目标主题词“唐朝”与待分析文本中的“唐国公、李渊、618年、长安”的词移距离处于零与目标阈值之间,分别为0.1、0.2、0.5和0.7,计算上述词移距离的平均值,即得到目标主题词“唐朝”的总词移距离,最后根据各个目标主题词的总词移距离,赋予其第二权重值,即得到第二目标主题判定向量,具体如表2所示:
表2
Figure BDA0002074964930000191
步骤S340:根据所述第一目标主题判定向量和所述第二目标主题判定向量,确定所述待分析文本的目标主题。
实际应用中,可以通过计算所述第一目标主题判定向量与所述第二目标主题判定向量中相同的目标主题词的表征系数,并基于计算得到的表征系数,确定所述待分析文本的目标主题。
本实施例中通过词移距离算法计算目标主题词与待分析文本中的词的词移距离,进而得到目标主题词与待分析文本之间的相关性,文本主题判定结果与文本之间的偏差更小,准确性更高。
如图4所示,一种文本主题确定方法,包括步骤S410~步骤S452。
步骤S410:获取待分析文本,并根据所述待分析文本构建待分析文本词袋。
实际应用中,可以通过对待分析文本进行分词后,得到待分析文本词袋。
步骤S420:基于所述待分析文本词袋和预设的词关系网,构建第一目标主题判定向量。
实际应用中,可以通过在预设的词关系网中查找所述待分析文本词袋中的词的目标主题对应词;统计所述目标主题词袋中的目标主题词在所述目标主题对应词中的词频,并基于统计得到的词频赋予所述目标主题词第一权重值,得到第一目标主题判定向量。
步骤S430:基于所述待分析文本词袋和预设的目标主题词袋,构建第二目标主题判定向量。
实际应用中,可以通过分别计算预设的目标主题词袋中的目标主题词与所述待分析文本词袋中的每个词之间的词移距离,汇总得到每个所述目标主题词的总词移距离;基于所述目标主题词的总词移距离,赋予所述目标主题词第二权重值,得到第二目标主题判定向量。
步骤S440:计算所述第一目标主题判定向量与所述第二目标主题判定向量中相同的目标主题词的表征系数。
表征系数可以表示目标主题词与待分析文本之间的总相关性大小,且可以通过对第一目标主题判定向量和第二目标主题判定向量中相同目标主题词的第一权重值和第二权重值相加求和或求平均各种计算方法获得。
例如,假设目标主题词“隋朝”的第一权重值为0.3,第二权重值为0.4,则通过相加求和的方式得到目标主题词“隋朝”的表征系数为0.7,或通过求平均的方式得到目标主题词“唐朝”的表征系数为0.35。
步骤S450:判断所述表征系数是否超过目标阈值,若是,则执行步骤S451,若否,则执行步骤S452。
步骤S451:确定所述超过目标阈值的表征系数的目标主题词为所述待分析文本的目标主题。
步骤S452:确定所述未超过目标阈值的表征系数的目标主题词不是所述待分析文本的目标主题。
若所有目标主题词的表征系数均未超过目标阈值,则判定该待分析文本没有明确主题;若存在多个目标主题词的表征系数均超过目标阈值,则判定该待分析文本为多主题文本,超过目标阈值的目标主题词均为该待分析文本的主题。
其中,目标阈值可以是表征系数的临界值,如最大值、最小值等等,且可以通过算法计算等方式获得。
例如,假设设定的表征系数的目标阈值为0.5,通过计算得到目标主题词“隋朝”的表征系数为0.3,目标主题词“唐朝”的表征系数为0.6,则目标主题词“唐朝”的表征系数大于目标阈值,确定“唐朝”为待分析文本的主题。
例如,假设设定的表征系数的目标阈值为0.5,通过计算得到目标主题词“隋朝”的表征系数为0.3,目标主题词“唐朝”的表征系数为0.4,则所有目标主题词的表征系数均未超过目标阈值,确定该待分析文本无明确主题。
例如,假设设定的表征系数的目标阈值为0.5,通过计算得到目标主题词“隋朝”的表征系数为0.7,目标主题词“唐朝”的表征系数为0.9,目标主题词“隋朝”和“唐朝”的表征系数均大于目标阈值,确定“隋朝”和“唐朝”均为该待分析文本的主题。
如图5所示,一种文本主题确定方法,包括步骤S510~步骤S560。
步骤S510:获取预设词库,并在所述预设词库中提取与目标主题相关的词,将提取得到的与目标主题相关的词汇总,得到目标主题词袋。
其中,预设词库可以是中文词库、英文词库、泰文词库等各种语言文字词库,本申请对此不做限制。在预设词库中提取与目标主题相关的词可以是目标主题的同义词、近义词、上位词、下位词等等,本申请对此不做限制。
步骤S520:获取待分析文本,并根据所述待分析文本构建待分析文本词袋。
实际应用中,可以通过对待分析文本进行分词后,得到待分析文本词袋。
步骤S530:基于所述待分析文本词袋和预设的词关系网,构建第一目标主题判定向量。
实际应用中,可以通过在预设的词关系网中查找所述待分析文本词袋中的词的目标主题对应词;统计所述目标主题词袋中的目标主题词在所述目标主题对应词中的词频,并基于统计得到的词频赋予所述目标主题词第一权重值,得到第一目标主题判定向量。
步骤S540:基于所述待分析文本词袋和预设的目标主题词袋,构建第二目标主题判定向量。
实际应用中,可以通过分别计算预设的目标主题词袋中的目标主题词与所述待分析文本词袋中的每个词之间的词移距离,汇总得到每个所述目标主题词的总词移距离;基于所述目标主题词的总词移距离,赋予所述目标主题词第二权重值,得到第二目标主题判定向量。
步骤S550:根据所述第一目标主题判定向量和所述第二目标主题判定向量,确定所述待分析文本的目标主题。
实际应用中,可以通过计算所述第一目标主题判定向量与所述第二目标主题判定向量中相同的目标主题词的表征系数,并基于计算得到的表征系数,确定所述待分析文本的目标主题。
步骤S560:基于所述待分析文本的目标主题,在预先配置的素材库中匹配并推荐与所述待分析文本主题相对应的素材信息。
其中,预先配置的素材库可以是写作素材库等各种类型的素材库,本申请对此不做限制。素材信息可以是文章、段落、语句、词语等等,本申请对此不做限制。素材信息的数量可以是一个或多个,本申请对此不做限制。素材信息也可以是中文、英文、俄文等各种语言文字,本申请对此不做限制。与所述待分析文本主题相对应的素材信息可以是具有与待分析文本相同或相关主题的文章、段落、语句等,本申请对此不做限制。
例如,假设待分析文本的目标主题为“清朝”和“货币”,在预设的数据库中匹配到的与目标主题“清朝”和“货币”相对应的素材信息可以是词语“银子”、“银元”、“银票”、“铜板”、“铜钱”等,可以是语句“清代各地使用的货币并不统一,尤其是各省铸造的铜钱,只在本地流通,因此各省对货币调整的措施具有本地特色,且在同一时期内,各地又有不同”等,也可以是文章《清朝的社会经济与货币流通》等。
本申请一实施例所述的文本主题确定方法,可以在确定待分析文本主题的同时,为用户推荐与该文本主题相同或相近的素材,供用户选择使用。
下面结合具体应用对本申请的实施例进行进一步说明。
在预设的词库中通过提取与目标主题词袋相关的目标主题词组成目标主题词袋。
获取待分析文本,假设待分析文本中包括有如下内容:“在岛国斐济,每年的8月份都要举办为期7天的红花节。红花即扶桑花,或称木槿花,是斐济的国花,斐济人非常喜爱这种花,在红花节期间,首都苏瓦市被装扮得格外美丽,呈现一片欢腾的景象。”
对待分析文本进行分词,得到包括有“在、岛国、斐济、每年、的、8月份、都、要、举办、为、期、7天、的、红花节、红花、即、扶桑花、或、称、木槿花、是、斐济、的、国花、斐济、人、非常、喜爱、这种、花、在、红花节、期间、首都、苏瓦市、被、装扮、得、格外、美丽、呈现、一片、欢腾、的、景象”的待分析文本词袋。
将上述待分析文本词袋中的每个词分别通过预设词关系网即wordnet进行查询后,得到相应的目标主题对应词,在本实施例中,查找的目标主题对应词为上位词,如“斐济”“花”的目标主题对应词即为该词本身,“苏瓦市”的目标主题对应词为“斐济”,“红花节”的目标主题对应词为“节日”,“红花”“扶桑花”“木槿花”“国花”的目标主题对应词为“花”。
统计目标主题词袋中的目标主题词在目标主题对应词中的词频,如目标主题词“斐济”在目标主题对应词中出现4次,目标主题词“节日”在目标主题对应词中出现2次,目标主题词“花”在目标主题对应词中出现5次,基于上述统计得到的各目标主题词的词频,赋予目标主题词“斐济”第一权重值0.36,赋予目标主题词“节日”第一权重值0.18,赋予目标主题词“花”第一权重值0.46,得到第一目标主题判定向量为(“斐济”0.36,“节日”0.18,“花”0.46)。
通过词移距离算法分别计算目标主题词袋中的目标主题词与待分析文本词袋中的每个词之间的词移距离,去除计算结果为零和大于目标阈值1的词移距离,计算每个目标主题词剩余的词移距离的平均值,获得每个目标主题词的总词移距离,并根据总词移距离分别赋予每个目标主题词第二权重值,得到第二目标主题判定向量,如表3所示:
表3
Figure BDA0002074964930000251
假设本实施例中设置的表征系数的目标阈值为0.3,计算目标主题词“斐济”的第一权重值与第二权重值的平均值,得到其表征系数为0.355,计算目标主题词“节日”的第一权重值与第二权重值的平均值,得到其表征系数为0.265,计算目标主题词“花”的第一权重值与第二权重值的平均值,得到其表征系数为0.38,目标主题词“斐济”和“花”的表征系数均超过预先设置的目标阈值,确定“斐济”和“花”均为本待分析文本的主题。
基于目标主题“斐济”和“花”,在预设的数据库中匹配与目标主题“斐济”和“花”相对应的素材信息,即得到“斐济的花很多,到处都是戴着鲜花的人们,男男女女无一例外。据说,把花戴在左边是表示未婚,而把花戴在两边则表示已结婚”。将该素材语句展示并推荐给用户,供用户选择和参考。
本申请一实施例在确定待分析文本的主题时,为目标主题词的表征系数预先设置了阈值,且增加了对表征系数进行判断的步骤,判断表征系数是否超过了阈值,若超过阈值,则判断其为该待分析文本的主题。由于有些文本内容囊括多个主题,判断步骤的设置,可以有效避免多主题文本被判定成单主题文本或无主题文本被误定主题的情况,有效增大了本申请的适用范围,且有效提高了本申请文本主题确定的准确性。
如图6所示,一种素材推荐方法,包括步骤S610~步骤S640。
步骤S610:获取待分析文本,并根据所述待分析文本构建待分析文本词袋。
实际应用中,可以通过对待分析文本进行分词后,得到待分析文本词袋。
步骤S620:基于所述待分析文本词袋、预设的目标主题词袋和预设的词关系网,构建第一目标主题判定向量。
实际应用中,可以通过在预设的词关系网中查找所述待分析文本词袋中的词的目标主题对应词;统计所述目标主题词袋中的目标主题词在所述目标主题对应词中的词频,并基于统计得到的词频赋予所述目标主题词第一权重值,得到第一目标主题判定向量。
步骤S630:基于所述待分析文本词袋和预设的目标主题词袋,构建第二目标主题判定向量。
实际应用中,可以通过分别计算预设的目标主题词袋中的目标主题词与所述待分析文本词袋中的每个词之间的词移距离,汇总得到每个所述目标主题词的总词移距离;基于所述目标主题词的总词移距离,赋予所述目标主题词第二权重值,得到第二目标主题判定向量。
步骤S640:基于所述第一目标主题判定向量和所述第二目标主题判定向量,在预先配置的素材库中匹配并推荐相对应的素材信息。
实际应用中,可以将所述第一目标主题判定向量与所述第二目标主题判定向量相结合,确定所述待分析文本的目标主题,并基于所述待分析文本的目标主题,在预先配置的素材库中匹配并推荐相对应的素材信息。
下面结合具体的例子对上述实施例进行进一步说明。
在预设的词库中通过提取与目标主题词袋相关的目标主题词组成目标主题词袋。
获取待分析文本,假设待分析文本为用户创作的文本,包括有如下内容:“狗通常被称为“人类最忠实的朋友”,也是饲养率最高的宠物,其中博美犬、贵宾犬、吉娃娃、法国斗牛犬、日本柴犬、金毛寻回犬等尤为受到人们的喜爱。”
对待分析文本进行分词,得到包括有“狗、宠物、博美犬、贵宾犬、吉娃娃、法国、法国斗牛犬、日本、日本柴犬、金毛寻回犬”等词的待分析文本词袋。
将上述待分析文本词袋中的每个词分别通过预设词关系网即wordnet进行查询后,得到相应的目标主题对应词,在本实施例中,假设查找的目标主题对应词为一级上位词(上位一次得到的词),如“宠物”的目标主题对应词可以为“动物”,“狗”的目标主题对应词为“宠物”,“博美犬”、“贵宾犬”、“吉娃娃”的一级上位词可以为“玩赏犬”,二级上位词为“犬类”,三级上位词为“宠物”,更多级别的上位词可以此类推,不再赘述,则“博美犬”、“贵宾犬”、“吉娃娃”的目标主题对应词为“玩赏犬”,“法国斗牛犬”、“日本柴犬”的目标主题对应词为“家庭犬”,“金毛寻回犬”的目标主题对应词为“运动犬”。当然,“博美犬”、“贵宾犬”、“吉娃娃”等词的目标主题对应词也可以是“小型犬”等多种情况,本申请对此不做限制,不再赘述。
统计目标主题词袋中的目标主题词在目标主题对应词中的词频,如目标主题词“玩赏犬”在目标主题对应词中出现3次,目标主题词“家庭犬”在目标主题对应词中出现2次,目标主题词“运动犬”在目标主题对应词中出现1次,基于上述统计得到的各目标主题词的词频,赋予目标主题词“玩赏犬”第一权重值0.5,赋予目标主题词“家庭犬”第一权重值0.33,赋予目标主题词“运动犬”第一权重值0.17,得到第一目标主题判定向量为(“玩赏犬”0.5,“家庭犬”0.33,“运动犬”0.17)。
通过词移距离算法分别计算目标主题词袋中的目标主题词与待分析文本词袋中的每个词之间的词移距离,去除计算结果为零和大于目标阈值1的词移距离,计算每个目标主题词剩余的词移距离的平均值,获得每个目标主题词的总词移距离,并根据总词移距离分别赋予每个目标主题词第二权重值,得到第二目标主题判定向量,如表4所示:
表4
Figure BDA0002074964930000281
根据第一目标主题判定向量(“玩赏犬”0.5,“家庭犬”0.33,“运动犬”0.17),第二目标主题判定向量(“玩赏犬”3,“家庭犬”2,“运动犬”3),确定“玩赏犬”为该待分析文本的目标主题词。
在预先配置的素材库中查找匹配与“玩赏犬”相关的文字信息,例如“玩赏犬其实也有人称为伴侣犬,其中主要是小型犬种和一些较小型的工作犬种实用犬种。伴侣犬除了供人观赏外,还能陪人玩耍,安抚独居者孤独和寂寞的心灵,甚至会照顾老人、幼儿和患病者,是人类的最佳伴侣”等,并为用户进行推荐展示。
本申请一实施例所述的素材推荐方法,可以针对用户创作的内容,灵活的匹配并推荐相关的写作素材,供用户选择使用,且可以有效提高素材推荐的准确性和采纳率。
如图7所示,一种文本主题确定装置,包括:
第一获取模块710,被配置为获取待分析文本,并根据所述待分析文本构建待分析文本词袋。
第一构建模块720,被配置为基于所述待分析文本词袋、预设的目标主题词袋和预设的词关系网,构建第一目标主题判定向量。
第二构建模块730,被配置为基于所述待分析文本词袋和预设的目标主题词袋,构建第二目标主题判定向量。
确定模块740,被配置为根据所述第一目标主题判定向量和所述第二目标主题判定向量,确定所述待分析文本的目标主题。
可选地,所述第一获取模块710,进一步地被配置为:
对所述待分析文本进行分词,得到待分析文本词袋。
可选地,所述第一构建模块720,进一步地被配置为:
在预设的词关系网中查找所述待分析文本词袋中的词的目标主题对应词;
统计所述目标主题词袋中的目标主题词在所述目标主题对应词中的词频,并基于统计得到的词频赋予所述目标主题词第一权重值,得到第一目标主题判定向量。
可选地,所述第二构建模块730,进一步地被配置为:
分别计算预设的目标主题词袋中的目标主题词与所述待分析文本词袋中的每个词之间的相关距离,汇总得到每个所述目标主题词的总相关距离。
基于所述目标主题词的总相关距离,赋予所述目标主题词第二权重值,得到第二目标主题判定向量。
可选地,所述第二构建模块730,进一步地被配置为:
所述相关距离包括词移距离,所述总相关距离包括总词移距离。
分别计算预设的目标主题词袋中的目标主题词与所述待分析文本词袋中的每个词之间的词移距离,汇总得到每个所述目标主题词的总词移距离。
基于所述目标主题词的总词移距离,赋予所述目标主题词第二权重值,得到第二目标主题判定向量。
可选地,所述确定模块740,进一步地被配置为:
计算所述第一目标主题判定向量与所述第二目标主题判定向量中相同的目标主题词的表征系数,并基于计算得到的表征系数,确定所述待分析文本的目标主题。
可选地,所述确定模块740,进一步地被配置为:
计算所述第一目标主题判定向量与所述第二目标主题判定向量中相同的目标主题词的第一权重值与第二权重值的总和或平均值,得到表征系数。
可选地,所述确定模块740,进一步地被配置为:
判断所述表征系数是否超过目标阈值,若所述表征系数超过目标阈值,则确定所述超过目标阈值的表征系数的目标主题词为所述待分析文本的目标主题。
可选地,在第一获取模块710之前,还包括预获取模块:
预获取模块,被配置为获取预设词库,并在所述预设词库中提取与目标主题相关的词,将提取得到的与目标主题相关的词汇总,得到目标主题词袋。
可选地,在确定模块740之后,还包括匹配模块:
第一推荐模块,被配置为基于所述待分析文本的目标主题,在预先配置的素材库中匹配并推荐与所述待分析文本主题相对应的素材信息。
本申请一实施例所述的文本主题确定装置,通过同时对词频和相关性两方面的分析,可以快速精准的确定待分析文本的主题,准确性高,贴合度高。
如图8所示,一种素材推荐装置,包括:
第二获取模块810,被配置为获取待分析文本,并根据所述待分析文本构建待分析文本词袋。
第三构建模块820,被配置为基于所述待分析文本词袋、预设的目标主题词袋和预设的词关系网,构建第一目标主题判定向量。
第四构建模块830,被配置为基于所述待分析文本词袋和预设的目标主题词袋,构建第二目标主题判定向量。
推荐模块840,被配置为基于所述第一目标主题判定向量和所述第二目标主题判定向量,在预先配置的素材库中匹配并推荐相对应的素材信息。
本申请一实施例所述的素材推荐装置,可以有效提高素材推荐的贴合度、灵活性、准确性和采纳率。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:
获取待分析文本,并根据所述待分析文本构建待分析文本词袋。
基于所述待分析文本词袋、预设的目标主题词袋和预设的词关系网,构建第一目标主题判定向量。
基于所述待分析文本词袋和预设的目标主题词袋,构建第二目标主题判定向量。
根据所述第一目标主题判定向量和所述第二目标主题判定向量,确定所述待分析文本的目标主题。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述文本主题确定方法或素材推荐方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本主题确定方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本主题确定方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (18)

1.一种文本主题确定方法,其特征在于,包括:
获取待分析文本,并根据所述待分析文本构建待分析文本词袋;
基于所述待分析文本词袋、预设的目标主题词袋和预设的词关系网,构建第一目标主题判定向量,其中,所述预设的目标主题词袋是由与目标主题相关的目标主题词组成的词袋,所述预设的词关系网用于查找所述待分析文本词袋中的每个词的目标主题对应词,所述第一目标主题判定向量表征所述目标主题词袋中的目标主题词在所述目标主题对应词中的词频;
基于所述待分析文本词袋和预设的目标主题词袋,构建第二目标主题判定向量,其中,所述第二目标主题判定向量表征目标主题词与所述待分析文本之间的相关性大小;
计算所述第一目标主题判定向量与所述第二目标主题判定向量中相同的目标主题词的表征系数,并基于计算得到的表征系数,确定所述待分析文本的目标主题,其中,所述表征系数表示目标主题词与待分析文本之间的总相关性大小。
2.根据权利要求1所述的文本主题确定方法,其特征在于,所述根据所述待分析文本构建待分析文本词袋,包括:
对所述待分析文本进行分词,得到待分析文本词袋。
3.根据权利要求1所述的文本主题确定方法,其特征在于,所述基于所述待分析文本词袋、预设的目标主题词袋和预设的词关系网,构建第一目标主题判定向量,包括:
在预设的词关系网中查找所述待分析文本词袋中的词的目标主题对应词;
统计所述目标主题词袋中的目标主题词在所述目标主题对应词中的词频,并基于统计得到的词频赋予所述目标主题词第一权重值,得到第一目标主题判定向量。
4.根据权利要求1所述的文本主题确定方法,其特征在于,所述基于所述待分析文本词袋和预设的目标主题词袋,构建第二目标主题判定向量,包括:
分别计算预设的目标主题词袋中的目标主题词与所述待分析文本词袋中的每个词之间的相关距离,汇总得到每个所述目标主题词的总相关距离;
基于所述目标主题词的总相关距离,赋予所述目标主题词第二权重值,得到第二目标主题判定向量。
5.根据权利要求4所述的文本主题确定方法,其特征在于,所述相关距离包括词移距离,所述总相关距离包括总词移距离;
分别计算预设的目标主题词袋中的目标主题词与所述待分析文本词袋中的每个词之间的词移距离,汇总得到每个所述目标主题词的总词移距离;
基于所述目标主题词的总词移距离,赋予所述目标主题词第二权重值,得到第二目标主题判定向量。
6.根据权利要求1所述的文本主题确定方法,其特征在于,所述计算所述第一目标主题判定向量与所述第二目标主题判定向量中相同的目标主题词的表征系数,包括:
计算所述第一目标主题判定向量与所述第二目标主题判定向量中相同的目标主题词的第一权重值与第二权重值的总和或平均值,得到表征系数。
7.根据权利要求1所述的文本主题确定方法,其特征在于,所述基于计算得到的表征系数,确定所述待分析文本的目标主题,包括:
判断所述表征系数是否超过目标阈值,若所述表征系数超过目标阈值,则确定所述超过目标阈值的表征系数的目标主题词为所述待分析文本的目标主题。
8.根据权利要求1所述的文本主题确定方法,其特征在于,在获取待分析文本之前,还包括:
获取预设词库,并在所述预设词库中提取与目标主题相关的词,将提取得到的与目标主题相关的词汇总,得到目标主题词袋。
9.根据权利要求1所述的文本主题确定方法,其特征在于,还包括:
基于所述待分析文本的目标主题,在预先配置的素材库中匹配并推荐与所述待分析文本主题相对应的素材信息。
10.一种素材推荐方法,其特征在于,包括:
获取待分析文本,并根据所述待分析文本构建待分析文本词袋;
基于所述待分析文本词袋、预设的目标主题词袋和预设的词关系网,构建第一目标主题判定向量,其中,所述预设的目标主题词袋是由与目标主题相关的目标主题词组成的词袋,所述预设的词关系网用于查找所述待分析文本词袋中的每个词的目标主题对应词,所述第一目标主题判定向量表征所述目标主题词袋中的目标主题词在所述目标主题对应词中的词频;
基于所述待分析文本词袋和预设的目标主题词袋,构建第二目标主题判定向量,其中,所述第二目标主题判定向量表征目标主题词与所述待分析文本之间的相关性大小;
计算所述第一目标主题判定向量与所述第二目标主题判定向量中相同的目标主题词的表征系数,并基于计算得到的表征系数,确定所述待分析文本的目标主题,基于所述待分析文本的目标主题,在预先配置的素材库中匹配并推荐相对应的素材信息,其中,所述表征系数表示目标主题词与待分析文本之间的总相关性大小。
11.一种文本主题确定装置,其特征在于,包括:
第一获取模块,被配置为获取待分析文本,并根据所述待分析文本构建待分析文本词袋;
第一构建模块,被配置为基于所述待分析文本词袋、预设的目标主题词袋和预设的词关系网,构建第一目标主题判定向量,其中,所述预设的目标主题词袋是由与目标主题相关的目标主题词组成的词袋,所述预设的词关系网用于查找所述待分析文本词袋中的每个词的目标主题对应词,所述第一目标主题判定向量表征所述目标主题词袋中的目标主题词在所述目标主题对应词中的词频;
第二构建模块,被配置为基于所述待分析文本词袋和预设的目标主题词袋,构建第二目标主题判定向量,其中,所述第二目标主题判定向量表征目标主题词与所述待分析文本之间的相关性大小;
确定模块,被配置为计算所述第一目标主题判定向量与所述第二目标主题判定向量中相同的目标主题词的表征系数,并基于计算得到的表征系数,确定所述待分析文本的目标主题,其中,所述表征系数表示目标主题词与待分析文本之间的总相关性大小。
12.根据权利要求11所述的文本主题确定装置,其特征在于,所述第一构建模块,进一步地被配置为:
在预设的词关系网中查找所述待分析文本词袋中的词的目标主题对应词;
统计所述目标主题词袋中的目标主题词在所述目标主题对应词中的词频,并基于统计得到的词频赋予所述目标主题词第一权重值,得到第一目标主题判定向量。
13.根据权利要求11所述的文本主题确定装置,其特征在于,所述第二构建模块,进一步地被配置为:
分别计算预设的目标主题词袋中的目标主题词与所述待分析文本词袋中的每个词之间的相关距离,汇总得到每个所述目标主题词的总相关距离;
基于所述目标主题词的总相关距离,赋予所述目标主题词第二权重值,得到第二目标主题判定向量。
14.根据权利要求11所述的文本主题确定装置,其特征在于,所述确定模块,进一步地被配置为:
判断所述表征系数是否超过目标阈值,若所述表征系数超过目标阈值,则确定所述超过目标阈值的表征系数的目标主题词为所述待分析文本的目标主题。
15.根据权利要求11所述的文本主题确定装置,其特征在于,还包括:
第一推荐模块,被配置为基于所述待分析文本的目标主题,在预先配置的素材库中匹配并推荐与所述待分析文本主题相对应的素材信息。
16.一种素材推荐装置,其特征在于,包括:
第二获取模块,被配置为获取待分析文本,并根据所述待分析文本构建待分析文本词袋;
第三构建模块,被配置为基于所述待分析文本词袋、预设的目标主题词袋和预设的词关系网,构建第一目标主题判定向量,其中,所述预设的目标主题词袋是由与目标主题相关的目标主题词组成的词袋,所述预设的词关系网用于查找所述待分析文本词袋中的每个词的目标主题对应词,所述第一目标主题判定向量表征所述目标主题词袋中的目标主题词在所述目标主题对应词中的词频;
第四构建模块,被配置为基于所述待分析文本词袋和预设的目标主题词袋,构建第二目标主题判定向量,其中,所述第二目标主题判定向量表征目标主题词与所述待分析文本之间的相关性大小;
推荐模块,被配置为计算所述第一目标主题判定向量与所述第二目标主题判定向量中相同的目标主题词的表征系数,并基于计算得到的表征系数,确定所述待分析文本的目标主题,基于所述待分析文本的目标主题,在预先配置的素材库中匹配并推荐相对应的素材信息,其中,所述表征系数表示目标主题词与待分析文本之间的总相关性大小。
17.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1~9任意一项或权利要求10所述方法的步骤。
18.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1~9任意一项或权利要求10所述方法的步骤。
CN201910450423.6A 2019-05-28 2019-05-28 一种文本主题确定方法、装置、计算设备及存储介质 Active CN110188352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910450423.6A CN110188352B (zh) 2019-05-28 2019-05-28 一种文本主题确定方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910450423.6A CN110188352B (zh) 2019-05-28 2019-05-28 一种文本主题确定方法、装置、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN110188352A CN110188352A (zh) 2019-08-30
CN110188352B true CN110188352B (zh) 2023-05-26

Family

ID=67718210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910450423.6A Active CN110188352B (zh) 2019-05-28 2019-05-28 一种文本主题确定方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN110188352B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705275B (zh) * 2019-09-18 2023-04-25 东软集团股份有限公司 主题词提取方法、装置、存储介质及电子设备
CN110728135B (zh) * 2019-10-12 2023-06-09 中国科学技术信息研究所 文本主题标引方法、装置、电子设备及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929937A (zh) * 2012-09-28 2013-02-13 福州博远无线网络科技有限公司 基于文本主题模型的商品分类的数据处理方法
CN106294314A (zh) * 2016-07-19 2017-01-04 北京奇艺世纪科技有限公司 主题挖掘方法及装置
CN107247728A (zh) * 2017-05-02 2017-10-13 北京小度信息科技有限公司 文本处理方法、装置及计算机存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645298B2 (en) * 2010-10-26 2014-02-04 Microsoft Corporation Topic models
CN103970730A (zh) * 2014-04-29 2014-08-06 河海大学 一种从单个中文文本中提取多主题词的方法
CN105243065A (zh) * 2014-06-24 2016-01-13 中兴通讯股份有限公司 一种素材信息输出方法和系统
US9575952B2 (en) * 2014-10-21 2017-02-21 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts
CN105893611B (zh) * 2016-04-27 2020-04-07 南京邮电大学 一种构建面向社交网络的兴趣主题语义网络的方法
CN107220232B (zh) * 2017-04-06 2021-06-11 北京百度网讯科技有限公司 基于人工智能的关键词提取方法及装置、设备与可读介质
CN107122349A (zh) * 2017-04-24 2017-09-01 无锡中科富农物联科技有限公司 一种基于word2vec‑LDA模型的文本主题词提取方法
CN107577671B (zh) * 2017-09-19 2020-09-22 中央民族大学 一种基于多特征融合的主题词提取方法
CN107992477B (zh) * 2017-11-30 2019-03-29 北京神州泰岳软件股份有限公司 文本主题确定方法及装置
CN108710613B (zh) * 2018-05-22 2022-04-08 平安科技(深圳)有限公司 文本相似度的获取方法、终端设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929937A (zh) * 2012-09-28 2013-02-13 福州博远无线网络科技有限公司 基于文本主题模型的商品分类的数据处理方法
CN106294314A (zh) * 2016-07-19 2017-01-04 北京奇艺世纪科技有限公司 主题挖掘方法及装置
CN107247728A (zh) * 2017-05-02 2017-10-13 北京小度信息科技有限公司 文本处理方法、装置及计算机存储介质

Also Published As

Publication number Publication date
CN110188352A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN108920622B (zh) 一种意图识别的训练方法、训练装置和识别装置
CN109271493B (zh) 一种语言文本处理方法、装置和存储介质
CN108536852B (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
CN104598445B (zh) 自动问答系统和方法
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
US20160306800A1 (en) Reply recommendation apparatus and system and method for text construction
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN109241255A (zh) 一种基于深度学习的意图识别方法
CN110532379B (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN107122455A (zh) 一种基于微博的网络用户增强表示方法
CN106407235B (zh) 一种基于点评数据的语义词典构建方法
CN103869998B (zh) 一种对输入法所产生的候选项进行排序的方法及装置
CN106708802A (zh) 一种信息推荐的方法及系统
CN102929861A (zh) 一种文本情感指数计算方法和系统
CN116797684B (zh) 图像生成方法、装置、电子设备及存储介质
CN109598586A (zh) 一种基于注意力模型的推荐方法
CN109635080A (zh) 应答策略生成方法及装置
CN107862004A (zh) 智能排序方法及装置、存储介质、电子设备
CN106202053A (zh) 一种社交关系驱动的微博主题情感分析方法
CN102609500A (zh) 一种问题推送方法和采用该方法的问答系统和搜索引擎
CN110188352B (zh) 一种文本主题确定方法、装置、计算设备及存储介质
CN108345612A (zh) 一种问题处理方法和装置、一种用于问题处理的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant