CN113961666B - 关键词识别方法、装置、设备、介质及计算机程序产品 - Google Patents
关键词识别方法、装置、设备、介质及计算机程序产品 Download PDFInfo
- Publication number
- CN113961666B CN113961666B CN202111103103.7A CN202111103103A CN113961666B CN 113961666 B CN113961666 B CN 113961666B CN 202111103103 A CN202111103103 A CN 202111103103A CN 113961666 B CN113961666 B CN 113961666B
- Authority
- CN
- China
- Prior art keywords
- keyword
- candidate
- target text
- character
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种关键词识别方法、装置、设备、介质及计算机程序产品,涉及数据分析技术领域。该方法包括:获取目标文本;以字符为单位对目标文本进行特征提取,得到目标文本中的字符特征;对目标文本进行分词处理,得到目标文本中的至少两个分词词汇;基于字符特征获取分词词汇的词汇特征;对至少一个词汇特征组成的候选特征进行关键词预测,得到至少一个候选特征对应的关键词概率;基于关键词概率确定目标文本对应的关键词。通过以上方式,可以让候选特征充分融合目标文本中的语义信息,使得关键词识别过程的灵活度更高,克服了依赖词库中存储的关键词对目标文本进行关键词识别的局限性。本申请可应用于云技术、人工智能、智慧交通等各种场景。
Description
技术领域
本申请实施例涉及数据分析技术领域,特别涉及一种关键词识别方法、装置、设备、介质及计算机程序产品。
背景技术
处理海量的文本数据时,最关键的是要把有价值的内容提取出来。而无论是对于长文本还是短文本,往往可以通过几个关键词窥探整个文本的主题思想。因此,关键词识别在推荐系统、信息检索领域的应用也十分广泛,关键词识别的准确程度直接关系到推荐系统的构建是否完善以及信息检索结果是否合格。
相关技术中,基于预先构建好的词库实现关键词识别,查找文本中所有包含在词库中的候选关键词,再确定候选关键词与文本之间的匹配得分,最后将所有候选关键词按匹配得分从高到低排序,选择匹配得分高于预设阈值的候选关键词作为结果输出。
然而,通过将待检测关键词的文本与预先构建好的词库进行比较分析,虽然能提取到关键词,但也会造成过于依赖词库的情况发生,导致当词库中不存在待检测文本的关键词时,无法灵活对待检测文本的关键词进行识别,从而导致关键词识别的局限性过大。
发明内容
本申请实施例提供了一种关键词识别方法、装置、设备、介质及计算机程序产品,能够提高关键词识别的准确率。所述技术方案如下。
一方面,提供了一种关键词识别方法,所述方法包括:
获取目标文本,所述目标文本为待进行关键词识别的文本;
以字符为单位对所述目标文本进行特征提取,得到所述目标文本中的字符特征;
对所述目标文本进行分词处理,得到所述目标文本中的至少两个分词词汇;
基于所述字符特征获取所述分词词汇的词汇特征;
对至少一个词汇特征组成的候选特征进行关键词预测,得到至少一个候选特征对应的关键词概率,其中,当至少两个词汇特征组成所述候选特征时,所述至少两个词汇特征为相邻特征;
基于所述关键词概率确定所述目标文本对应的关键词。
另一方面,提供了一种关键词识别装置,所述装置包括:
文本获取模块,用于获取目标文本,所述目标文本为待进行关键词识别的文本;
提取模块,用于以字符为单位对所述目标文本进行特征提取,得到所述目标文本中的字符特征;
分词模块,用于对所述目标文本进行分词处理,得到所述目标文本中的至少两个分词词汇;
特征获取模块,用于基于所述字符特征获取所述分词词汇的词汇特征;
预测模块,用于对至少一个词汇特征组成的候选特征进行关键词预测,得到至少一个候选特征对应的关键词概率,其中,当至少两个词汇特征组成所述候选特征时,所述至少两个词汇特征为相邻特征;
确定模块,用于基于所述关键词概率确定所述目标文本对应的关键词。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述关键词识别方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的关键词识别方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的关键词识别方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
本实施例提供的方法中,对目标文本进行关键词识别,首先以字符为单位对目标文本进行字符提取得到字符特征,之后对目标文本进行分词处理得到至少两个分词词汇,基于分词词汇中字符对应的字符特征得到至少两个分词词汇的词汇特征,再对词汇特征进行组合得到候选特征,基于对候选特征进行关键词预测得到关键词概率后确定目标文本中的关键词。通过以上方式,既可以对目标文本中字符特征进行更细颗粒度的分析,还可以让分词词汇之间具有更强的词义边界,而候选特征更充分融合了目标文本中的语义信息,使得关键词识别过程的灵活度更高,克服了依赖词库中存储的关键词对目标文本进行关键词识别的局限性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的实施环境示意图;
图2是本申请一个示例性实施例提供的关键词识别方法的流程图;
图3是本申请另一个示例性实施例提供的关键词识别方法的流程图;
图4是本申请另一个示例性实施例提供的关键词识别方法的流程图;
图5是本申请另一个示例性实施例提供的关键词识别方法的流程图;
图6是本申请一个示例性实施例提供的关键词识别方法的过程示意图;
图7是本申请一个示例性实施例提供的关键词识别装置的结构框图;
图8是本申请另一个示例性实施例提供的关键词识别装置的结构框图;
图9是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,针对本申请实施例中涉及的名词进行简单介绍。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
相关技术中,基于文本匹配的关键词识别方法通常依赖于预先建设好的关键词词库,首先从词库中查找出所有包含在输入文本中的候选关键词,再使用文本匹配模型对文本和每个候选关键词计算匹配得分。然而,基于文本匹配的方法只能抽取出已经收录在词库中的关键词,对于词库中缺少的词汇或者需要发现新关键词的场景,该方法并不适用。
本申请实施例中,提供了一种关键词识别方法,对文本数据中的字符、分词等进行向量分析得到对应的向量表示,通过计算分词为关键词的概率,对分词自动进行关键词识别,提高关键词识别的准确率。针对本申请训练得到的关键词识别方法,在应用时包括如下场景中的至少一种。
一:信息检索系统。
信息检索系统是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统,至少包括信息存储、信息检索功能,可以为用户提供信息检索服务。示意性的,用户在使用信息检索系统时,可以通过搜索引擎实现检索过程,使用搜索引擎时,用户往往有明确的目的,并可以将对于信息的检索通过较为精确的关键词进行输入,用户将关键词输入搜索引擎后,信息检索系统根据关键词反馈给用户其存储的、符合关键词的检索信息。在信息检索过程中,关键词由用户输入,信息检索系统在已经存储的文件数据中搜索包含或者体现该关键词信息的文件,即对已经存储的文件数据进行关键词识别。
二:推荐系统。
推荐系统是为了解决信息过载问题而提出的系统,推荐系统与信息检索系统相对,通常应用于用户没有明确的目的,或者用户的目的是模糊的情况下。推荐系统根据用户的历史行为、兴趣偏好等用户的特征信息,运用推荐算法产生用户可能感兴趣的内容列表。示意性的,用户使用一款影音应用程序并授权该应用程序获取其兴趣偏好,推荐系统基于用户的授权,对用户曾经进行观看、点赞、评论等操作的视频进行计算分析,根据全部或者部分视频的标题、分类、标注等进行关键词识别,确定用户的兴趣偏好,例如经过对观看历史记录进行分析,确定用户对娱乐向、搞笑向视频具有一定偏好。在推荐过程中,推荐系统基于多种特征信息对关键词进行识别,并根据识别到的关键词向用户推送与关键词相关的内容。
值得注意的是,上述应用场景仅为示意性的举例,本实施例提供的关键词识别方法还可以应用于其他场景中,本申请实施例对此不加以限定。
其次,对本申请实施例中涉及的实施环境进行说明,示意性的,请参考图1,该实施环境中涉及终端110、服务器120,终端110和服务器120之间通过通信网络130连接,还涉及关键词识别模型140。
在一些实施例中,终端110用于向服务器120发送目标文本。示意性的,终端110中安装有具有特征提取功能的应用程序;或者,终端110中安装有具有分词处理功能的应用程序;或者,终端110中安装有具有预测功能的应用程序。
服务器120中包括通过关键词识别模型140预测得到的关键词概率,根据关键词概率对目标文本中的关键词进行确认,输出关键词,并将关键词反馈至终端110进行显示。
首先获取目标文本,对目标文本中的字符进行特征提取,得到目标文本中的字符特征,之后对目标文本进行分词处理,得到目标文本中至少两个分词词汇,根据分词词汇中的字符确定分词词汇对应的词汇特征,然后将至少一个词汇特征组成候选特征进行关键词预测,得到关键词概率,最后根据关键词概率确定目标文本的关键词。
上述终端可以是手机、平板电脑、台式电脑、便携式笔记本电脑、智能电视等多种形式的终端设备,本申请实施例对此不加以限定。
值得注意的是,上述终端可以实现为手机、平板电脑、便携式膝上笔记本电脑等移动终端,也可以实现为台式电脑等;上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、应用程序、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,上述服务器还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
结合上述名词简介和应用场景,对本申请提供的关键词识别方法进行说明,以该方法应用于服务器为例,如图2所示,该方法包括如下步骤。
步骤210,获取目标文本。
其中,目标文本为待进行关键词识别的文本。
文本是由字符、标点符号、图片、表格等至少一种内容组成的文件类型。文本既可以是中文文本,也可以是其他语言文本。此外,文本还包括许多存在形式,如:pdf形式、mobi形式、doc形式等,文本还包括众多类别,如:学术论文、散文、小说、戏剧、诗歌等。示意性的,目标文本为包含有一定信息的文本,目标文本中的信息可以通过对目标文本中的关键字或者关键词等关键信息进行识别从而快速知悉。
关键词是指能够反映文本类型、文本内容等文本信息的词语,示意性的,对目标文本中关键词进行识别包括以下方式中的至少一种。
1.将能够表达文本含义的词语作为关键词。
示意性的,目标文本为一张线性代数试卷,试卷中包含众多阿拉伯数字,通过统计词频的方式统计得到的数据并不能体现出该试卷的重点、难点等,此时可以采用提取文本含义的方式对关键词进行提取,如通过该目标文本中的概念定义、矩阵、表达式等内容信息进行分析,从而确定目标文本中涉及的知识点,将知识点所涉及的领域或者内容作为该试卷的关键词。
2.将文本中词跨度大的词语作为关键词。
词跨度是指词语在文本中首次出现的位置和末次出现的位置之间的距离,通常词语在文本中的词跨度越大,越说明词语在文本中的影响范围广,越能反映文本的主题。示意性的,目标文本为一篇散文,散文中词语“家乡”在目标文本中出现的跨度最大,首次出现在目标文本的首段,最后一次出现在目标文本的末端,故可以将词语“家乡”作为该散文的关键词。
需要注意的是,关键词检测的方法不仅可以单独应用,也可以将两种或者两种以上的方法进行结合使用,从而识别目标文本中的关键词。以上仅为示意性的举例,本申请实施例对此不加以限定。
步骤220,以字符为单位对目标文本进行特征提取,得到目标文本中的字符特征。
示意性的,目标文本是由字符、标点符号、图片等内容组成的一篇文本。在对目标文本进行关键词提取时,可以根据需要对目标文本进行预处理,以去除标点符号、图片等信息干扰。
可选地,对文本进行预处理至少包括以下几种方法。
1.在获取目标文本后,对字符以外的内容进行删除。
示意性的,目标文本中除包括字符外,还包含逗号、句号等标点符号以及图片等内容,为避免标点符号在文本中占据字符位置或者图片内容使得字符不连贯等现象导致的关键词提取不准确的情况发生,可以在对目标文本进行预处理时,将目标文本中出现的标点符号进行删除处理,使得目标文本只保留字符内容。
2.基于标点符号、图片等文本信息对目标文本进行初步划分,之后删除字符以外的内容。
示意性的,在对目标文本进行预处理时,首先确定目标文本中标点符号、图片等内容的位置信息,根据标点符号、图片等内容的位置信息,对于目标文本进行适当划分,如:标记标点符号、图片等内容出现的位置,将对应位置的目标文本中的字符进行换行操作、另行存储操作等,待对全部或者需要部分的目标文本进行预处理操作后,将对应位置的标点符号、图片等内容进行删除,对保留下的字符内容进行关键字识别。
可选地,因目标文本的形式不同,字符的形式也会存在不同的划分,如字符至少包括以下形式。
1.目标文本为中文文本。
如果目标文本为中文文本,则组成目标文本的字符为汉字字符,在对目标文本进行关键词识别时,对目标文本进行识别的过程即是对中文文本中汉字字符的识别过程。
2.目标文本为英文文本或者编程代码。
如果目标文本为英文文本或者编程代码,考虑到单个的字母字符蕴含的语义信息通常较少,既可以选择以字母为字符对目标文本进行分析,也可以考虑更粗粒度的切分方式,如单词切分(Word Piece)方法,以单词为字符对目标文本进行识别过程。
在一个可选地实施例中,对目标文本中的字符依次进行特征映射,得到与字符顺次对应的映射特征结果;
将第i个字符的映射特征结果与至少一个其他映射特征结果融合,得到第i个字符的字符特征,i为正整数。
示意性的,以目标文本为中文文本为例,即以汉字为字符对目标文本进行特征映射。其中,可以根据场景需要将目标文本中的至少一个汉字通过变压器的双向编码器模型(Bidirectional Encoder Representations for Transformers,BERT)、超长网络模型(Extra Long Net,XLNet)、长短期记忆模型(Long Short Term Memory,LSTM)等模型中的至少一种,对至少一个汉字字符进行映射,得到映射特征结果。可选地,在对目标文本中的汉字字符进行映射时,可以按照目标文本中汉字字符的排列顺序对字符进行顺次映射,得到的映射特征结果和该映射特征结果对应的汉字字符的顺序相同。
可选地,在使用上述模型对字符进行映射时,可以首先对模型进行训练,如:当采用Bert模型对字符进行映射处理前,将Bert模型在已经存在的大规模语料库上以遮罩语言模型(Mask Language Modeling)为训练目标进行预训练,使得Bert模型可以学习到更丰富的语义信息,提升将Bert模型实际应用在映射处理任务上的效果。
在一个可选的实施例中,目标文本存在至少一个汉字字符,汉字字符中蕴含着语义信息,语义信息既包括通过单个汉字即可以传达的信息,如“可”能够传达“可以”等表示赞同的语义信息;也包括通过单个汉字与相邻汉字结合后所传达的信息,如“可乐”中的“可”,侧重表达饮料的语义信息;还包括单个汉字在目标文本中所传达的独特的、与文本强相关的语义信息,如在文言文中,现代的汉字在文言文中的含义常与文本存在强相关关系,与现代相同汉字的常用含义有所差异。
示意性的,目标文本中包括n个字符,对目标文本中的n个字符按照字符顺序依次进行映射后,得到n个字符的映射特征结果。从n个字符中依照字符顺序选取第i个字符,将第i个字符所对应的特征映射结果与至少一个其他映射特征结果进行融合。其中,映射特征结果的融合至少包括以下几种方式。
1.将第i个字符的映射特征结果与相邻的至多两个字符所对应的映射特征结果进行融合。
示意性的,目标文本为一篇作文,对目标文本中的字符进行特征映射后得到了每个字符对应的映射特征结果,当i为10时,既可以只将第10个字符的映射特征结果与第9个字符所对应的映射特征结果进行融合,也可以只将第10个字符的映射特征结果与第11个字符所对应的映射特征结果进行融合,还可以将第10个字符的特征向量与第9个字符和第11个字符所对应的映射特征结果进行融合。
2.将第i字符的映射特征结果与相邻的至少两个字符所对应的映射特征结果进行逐层融合。
示意性的,对目标文本中的字符进行特征映射后得到了每个字符对应的映射特征结果,当i为10时,将第10个字符的映射特征结果与前后预设数量的字符所对应的映射特征结果进行逐层融合(如:与前后10个字符所对应的映射特征结果进行融合)。
可选地,逐层融合可以使用多层的多头自注意力网络(Multi-Head Attention)进行操作。示意性的,将每个字符对应的映射特征结果x1,x2,x3,…,xT输入到多层的多头自注意力网络,使用嵌入层(可选)对每个字符对应的映射特征结果x1,x2,x3,…,xT进行初步的特征映射,得到a1,a2,a3,…,aT,然后使用三个矩阵WQ,WK,WV分别与a1,a2,a3,…,aT相乘,得到Qi,Ki,Vi,i∈(1,2,3…T)。其中,三个矩阵WQ,WK,WV是在特征映射过程中较为合适的系数,可以是预先设置的,Q、K、V分别代表查询(Query)、键(Key)、价值(Value)。
利用q1分别与k1,k2,k3,…,kT计算向量点积,得到α1,1,α1,2,α1,3,…α1,T,从数值上看,α1,1不一定是0~1之间的数,故可以经过归一化指数函数(softmax)处理。将α1,1,α1,2,α1,3,…α1,T输入softmax函数,从而得到均在0~1之间的注意力权重值;
将上一步得到的注意力权重值分别与对应位置的v1,v2,v3,…,vT相乘后求和,即得到了与输入的x1所对应的输出b1。同样地,与输入的x2所对应的输出b2也可以根据类似过程获得。即计算每个字符的映射特征结果的过程,即是将一个字符的Query与每个字符的Key的相似度作为权重,对所有Value进行加权求和的过程。
当经过上述至少一种融合方式后,会使得第i个字符所包含的语义信息与目标文本中所表达的语义信息更为贴合,由此得到融合后的映射特征结果,即为第i个字符的字符特征。
步骤230,对目标文本进行分词处理,得到目标文本中的至少两个分词词汇。
分词处理是对目标文本中的字符进行处理,使得至少一个字符组成具有一定含义的分词词汇形式。示意性的,目标文本为一篇小说,由于目标文本中除标点符号外,字符之间往往密切相连,缺乏明显的词边界,因此很难直接通过对目标文本进行读取的方式,对目标文本中的关键词进行识别。
若目标文本为中文文本,单个汉字字符作为最基本的语义单位,虽然大多有自己的含义,但表意能力较差,意义也较为分散,而词汇的表意能力更强,能够更准确地对事物进行描述。因此,可以采用字符划分方法对目标文本中的字符进行分词处理,即依照字符在目标文本中出现的顺序,将至少一个字符组合成分词词汇。例如:预设两个字符为一个分词词汇的组成方式,对目标文本中的字符进行分词处理。
可选地,考虑到在进行分词处理时,有的相邻字符无法组成具有含义的词语,如“附近的房子”在进行分词处理后,其中“附近”和“房子”是有含义的分词词汇,而当字符“的”单独与字符“近”或者字符“房”组成分词词汇——“近的”或“的房”的分词词汇时,易产生表意不清的情况。示意性的,在进行分词处理时,可以将字符依照目标文本中出现的顺序输入到已经训练好的模型中进行分词处理,如词典分词模型、隐马尔科夫模型(HiddenMarkov Model,HMM)、长短时记忆模型(LSTM)等,得到词汇表意更清楚的分词词汇。
可选地,还可以将上述字符划分方法与模型处理方法进行结合,在对分词词汇进行颗粒度划分的基础上,尽量保证分词词汇的表意清晰。此外,为了区别字符与分词词汇,可以将字符组成的分词词汇采用添加颜色、添加底纹等标注方式进行标记。
步骤240,基于字符特征获取分词词汇的词汇特征。
其中,字符特征是目标文本中的字符经过特征提取后得到的对应的向量表示,经过特征提取后的字符特征,不仅仅具有字符本身的含义,还因为至少一个字符对应的映射特征结果可以与其他字符对应的映射特征结果进行融合,使得至少一个字符融合了该目标文本的上下文语义信息。分词词汇是依据字符在目标文本中出现的顺序,将词汇进行分词处理得到的词汇。分词词汇中包含至少一个字符,至少一个字符对应着至少一个已经经过特征提取而得到的字符特征。示意性的,在对分词词汇进行词汇特征提取时,根据分词词汇中包含的字符特征得到词汇特征。
在一个可选的实施例中,基于分词词汇,确定分词词汇中包含的至少一个分词字符,分词字符包含于字符中;
从目标文本的字符特征中获取分词字符对应的分词字符特征;
对分词字符特征进行向量计算,得到分词词汇的词汇特征。
示意性的,目标文本中的字符经过字典分词模型,被拆分成至少一个分词词汇,分词词汇中包含有分词字符,根据字典分词模型中对于词汇的划分,不同的分词词汇中包含的分词字符可能并不固定,如有的分词词汇中包括3个分词字符,有的分词词汇只包括1个分词字符等。由于分词字符属于目标文本,因此分词字符包含于文本的字符中,分词字符对应的分词字符特征也包含在经过特征提取后得到的字符特征中。可选地,分词字符特征可以以向量形式进行表示,通过分词字符特征得到词汇特征至少包括以下几种方式。
1.对分词字符特征直接进行向量计算得到词汇特征。
示意性的,对于一个分词词汇,其中至少包括一个分词字符。当分词字符为1时,可以直接将该分词字符对应的字符特征作为词汇特征,当分词字符为除1以外的正整数时,将该分词词汇中包含的分词字符特征所对应的向量进行向量运算。示意性的,设分词词汇包含个分词字符,其中个分词字符对应的字符特征分别为,分词词汇对应的词汇特征的向量运算公式为:
通过上述词汇特征的向量计算公式,可以通过分词字符特征,得到词汇特征。
2.将分词字符特征输入到编码器中得到词汇特征。
示意性的,将目标文本中特征提取得到的字符特征和经过分词处理得到的分词词汇一同输入到一款词编码器中,该词编码器不仅可以根据分词词汇对分词词汇中包含的分词字符进行划分,还可以采用词编码器中的分析结构对于分词字符的字符特征进行分析。例如:采用平均池化操作(mean-pooling),对属于同一个分词词汇的分词字符的字符特征求平均值,作为分析结果,即词汇特征;或者,采用最大池化操作(max-pooling),即在每个维度上,取分词字符在该维度上的最大的字符特征作为词汇特征;又或者,采用自注意力模型、长短时记忆网络等模型作为分析结构。
步骤250,对至少一个词汇特征组成的候选特征进行关键词预测,得到至少一个候选特征对应的关键词概率。
其中,当至少两个词汇特征组成候选特征时,至少两个词汇特征为相邻特征。
可选地,词汇特征是将融合了上下文语义信息得到的字符特征进行向量运算得到的,因此词汇特征中包含了与目标文本存在较强关联的语义信息,若将至少一个词汇特征进行组合,可以对至少一个词汇特征之间的语义信息进行进一步的语义分析。示意性的,词汇特征组成候选特征至少包括以下方式。
1.候选特征中只包括一个词汇特征。
示意性的,在进行候选特征划分时,候选特征中只包括一个词汇特征,可以将该词汇特征直接作为候选特征进行分析。
2.候选特征中包括两个或两个以上词汇特征。
示意性的,在进行候选特征划分时,规定将两个词汇特征列入到候选特征中,根据词汇特征对应的分词词汇在目标文本中的顺序,对词汇特征进行划分。其中,当第n个分词词汇对应的词汇特征与第n-1个分词词汇对应的词汇特征列入到一个候选特征中,第n个分词词汇对应的词汇特征还可以与第n+1个分词词汇对应的词汇特征列入到另一个候选特征中,在对候选特征进行分析时,对上述候选特征分别进行分析。
示意性的,基于候选特征确定后,对候选特征进行关键词预测,候选特征是由至少一个词汇特征组成的,当候选特征以向量表示时,对候选特征进行关键词预测时,可以将候选特征进行向量运算,对向量运算的结果进行回归预测,使的经候选特征计算得到的关键词概率结果位于0~1之间。
可选地,在对候选特征进行分析时,可以规定将词汇特征列入候选特征时词汇特征个数的不同划分标准,并根据不同的划分标准对候选特征分别进行分析后,结合判断关键词概率。例如:可以在对两个词汇特征组成的候选特征进行分析的同时,对三个词汇组成的候选特征进行分析,并将两种分析结果结合分析,从而判断关键词概率。
步骤260,基于关键词概率确定目标文本对应的关键词。
基于对候选特征进行向量运算得到关键词概率后,会得到至少一个候选特征对应的数值表示。示意性的,当对于候选特征进行分析时,采用结合多种划分标准对分词词汇进行划分的方式,则候选特征中包含的词汇特征不一定是固定的个数,可以是只包括1个词汇特征的候选特征,也可以是包括2个或者更多词汇特征的候选特征。此外,考虑到词汇特征对应的分词词汇中的分词字符数的个数,候选特征中还可能存在只有一个字符的字符特征的情形。
可选地,结合不同划分标准对目标文本进行关键词识别,最终得到的关键词概率对应词汇中包含的字符数量并不唯一。根据关键词概率确定目标文本中的关键词时,既可以对关键词概率进行排序,选择关键词概率最高的至少一个词汇作为关键词;也可以根据预设的概率阈值,将关键词概率达到概率阈值的至少一个词汇作为关键词。
综上所述,本实施例提供的方法中,对目标文本进行关键词识别,首先以字符为单位对目标文本进行字符提取得到字符特征,之后对目标文本进行分词处理得到至少两个分词词汇,基于分词词汇中字符对应的字符特征得到至少两个分词词汇的词汇特征,再对词汇特征进行组合得到候选特征,基于对候选特征进行关键词预测得到关键词概率后确定目标文本中的关键词。通过以上方式,既可以对目标文本中字符特征进行更细颗粒度的分析,还可以让分词词汇之间具有更强的词义边界,而候选特征更充分融合了目标文本中的语义信息,使得关键词识别过程的灵活度更高,克服了依赖词库中存储的关键词对目标文本进行关键词识别的局限性。
在一个可选的实施例中,对关键词进行预测时,关键词概率的获取的包括多个步骤。示意性的,如图3所示,上述图2所示出的实施例中的步骤250还包括如下步骤310至步骤330。
步骤310,对词汇特征进行关键词预测,得到词汇特征对应的第一关键词概率。
示意性的,词汇特征中包括至少一个字符特征,字符特征中融合的目标文本中部分文本信息。对词汇特征进行关键词预测时,可以对词汇特征计算该词汇特征对应的向量表示,得到词汇特征向量。之后,将该词汇特征向量进行概率运算,得到与词汇特征对应的第一关键词概率。
步骤320,对至少两个相邻词汇特征组成的候选特征进行关键词预测,得到候选特征对应的候选关键词概率。
示意性的,对目标文本进行分词处理后得到的分词词汇,是依照字符在目标文本中的顺序得到的,保持分词词汇的顺序不变,将至少两个相邻的分词词汇对应的词汇特征组成候选特征。
在一个可选的实施例中,基于至少两个词汇特征对应的词汇数量,对至少两个相邻词汇特征进行特征计算,得到候选特征。
可选地,在对目标文本进行分析后得到至少两个词汇特征,可以将至少两个相邻词汇特征组成至少两个子序列,如:目标文本分析后得到a个词汇特征,将a个词汇特征中相邻的n个词汇特征组成一个子序列后,对子序列进行特征计算,求解向量表示。示意性的,对子序列进行特征计算时,将子序列通过卷积神经网络(Convolutional Neural Network,CNN),激活函数采用线性整流函数(Rectified Linear Unit,ReLU),子序列中的词汇特征的词向量分别为,则对子序列进行特征计算的公式为:
在另一个可选的实施例中,对候选特征进行回归预测,得到候选特征对应的候选关键词概率。
在对至少两个词汇特征进行特征计算后,得到的候选特征存在数值较为分散的情况,直接通过候选特征进行关键词预测的结果也会较为分散。示意性的,可以对候选特征进行回归预测,即将候选特征通过一个较为连续、平滑的函数,将分散的数值形式变成不容易发散的非线性数值形式,使得候选特征的返回值落在0~1之间,得到至少一个候选特征对应的至少一个候选关键词概率。
可选地,将候选特征通过全连接神经网络(Deep Neural Networks,DNN),并采用激活函数Sigmoid作为候选特征进行回归预测的函数,则对候选特征进行回归预测得到候选特征对应的候选关键词概率的公式为:
在一个可选的实施例中,对相邻两个词汇特征组成的第一候选特征进行关键词预测,得到第一候选特征对应的第二关键词概率。
示意性的,对候选特征的划分标准为候选特征中包含两个相邻的词汇特征,则将相邻两个词汇特征作为的第一候选特征,第一候选特征中的两个词汇特征在组成候选特征后,其中任一词汇特征可以根据需要和相邻的另一个词汇特征组成另一个第一候选特征,在对第一候选特征进行关键词预测时,不同的第一候选特征之间各自分析、彼此不影响。
可选地,在对第一候选特征进行关键词预测时,可以对第一候选特征进行回归预测,得到第一候选特征对应的第二关键词概率。
在另一个可选的实施例中,对相邻三个词汇特征组成的第二候选特征进行关键词预测,得到第二候选特征对应的第三关键词概率。
示意性的,对候选特征的划分标准为候选特征中包含三个相邻的词汇特征,则将相邻三个词汇特征作为的第二候选特征。此外,第二候选特征中的三个词汇特征在组成候选特征后,其中任一词汇特征可以根据需要和相邻的另一个词汇特征组成另外的至少一个第二候选特征,在对第二候选特征进行关键词预测时,不同的第二候选特征之间各自分析、彼此不影响。
可选地,在对第二候选特征进行关键词预测时,可以对第二候选特征进行回归预测,得到第二候选特征对应的第三关键词概率。
步骤330,基于第一关键词概率和候选关键词概率确定目标文本对应的关键词概率。
基于对词汇特征进行概率运算后得到对应的第一关键词概率。其中,词汇特征也可以视为候选特征的划分标准为候选特征中只包含一个词汇特征,因此,对词汇特征进行概率运算的过程,可以视为对只有一个词汇特征的候选特征进行概率运算的过程,概率运算可以采用回归预测操作。
候选关键词概率是对至少两个词汇特征组成的候选特征进行回归预测得到的概率。示意性的,候选特征中的词汇特征的词汇数量采用表示,在获取候选关键词概率的过程中,分别取,分别计算取不同值时对应的候选关键词概率,计算的方式至少包括以下几种:
示意性的,对于、时的候选特征进行回归预测时,回归预测的操作是依次进行的,如:在时的候选特征进行回归预测后,再对时的候选特征进行回归预测,即对时的候选特征进行回归预测的过程结束后,得到两组候选特征对应的关键词概率的预测结果。
需要注意的是,上述的取值不仅限于上述或的情况,可以对取更大的数值,同时,得到取不同值的关键词概率后,可以根据关键词概率对应的关键词中分词词汇的词汇数量,对的取值进行调整,如新增的情况,将、以及时候选特征对应的候选关键词概率进行综合分析。
综上所述,本实施例提供的方法中,对目标文本进行关键词识别,首先以字符为单位对目标文本进行字符提取得到字符特征,之后对目标文本进行分词处理得到至少两个分词词汇,基于分词词汇中字符对应的字符特征得到至少两个分词词汇的词汇特征,再对词汇特征进行组合得到候选特征,基于对候选特征进行关键词预测得到关键词概率后确定目标文本中的关键词。通过以上方式,既可以对目标文本中字符特征进行更细颗粒度的分析,还可以让分词词汇之间具有更强的词义边界,而候选特征更充分融合了目标文本中的语义信息,使得关键词识别过程的灵活度更高,克服了依赖词库中存储的关键词对目标文本进行关键词识别的局限性。
在一个可选的实施例中,确定关键词的方式至少包括根据关键词概率数值大小进行判断的方式和根据关键词概率达到预设概率阈值进行判断的方式。示意性的,如图4所示,上述图2所示出的实施例中的步骤260还包括如下步骤410至步骤420。
步骤410,对关键词概率进行降序排序,基于排序结果确定目标文本对应的关键词。
其中,降序排列是根据关键词概率的数值依照从大到小的顺序得到的,概率的数值界于0~1之间,因此降序排列得到的排序结果中的至少一个关键词概率,均位于0~1之间。
在一个可选的实施例,对关键词概率进行降序排序,得到关键词概率序列;
确定关键词概率序列中前n个关键词概率对应的关键词作为目标文本对应的关键词,n为正整数。
示意性的,目标文本经过处理后得到了个关键词概率,将个关键词概率依照关键词概率数值从大到小进行降序排列,得到关键词概率序列。如:,5个关键词概率分别为0.13、0.52、0.78、0.12、0.62,将5个关键词概率进行降序排列后得到的关键词概率序列为:0.78、0.62、0.52、0.13、0.12。
根据降序排列得到的关键词概率序列后,可以选择关键词概率序列中前n个关键词概率对应的关键词,确定目标文本的关键词。示意性的,确定关键词至少包括以下方式。
1.将最高的关键词概率对应的关键词确定为目标文本的关键词。
示意性的,关键词概率序列为降序排列得到的,则可以将该关键词概率序列中第一个关键词概率对应的关键词作为目标文本的关键词。
2.将关键词概率序列中至少两个关键词概率对应的关键词确定为目标文本的关键词。
在一个可选的实施例中,在确定关键词概率后,可能会存在关键词概率较大的两个或者多个关键词概率对应的关键词为包含关系,示意性的,关键词概率进行降序排列后,序列中前两个关键词概率对应的关键词分别为“新房子”和“房子”,此时,可以综合分析目标文本中的语义信息,决定将两个关键词共同作为目标文本的关键词,还是选择剔除其中一个关键词,选择该序列中第三个关键词概率对应的关键词作为目标文本的关键词。
步骤420,将关键词概率达到预设概率阈值的关键词确定为目标文本对应的关键词。
示意性的,预设的概率阈值为0.5,将经过处理得到的至少一个关键词概率分别与预设的概率阈值0.5进行比较,将超过0.5的关键词概率对应的关键词作为目标文本的关键词。
可选地,当得到的关键词概率中不存在超过预设的概率阈值的关键词概率时,既可以选择将全部关键词概率进行排除;也可以选择重新计算关键词概率;还可以选择将关键词概率进行排序的方式,从而将最高的至少一个关键词概率对应的关键词确定为目标文本对应的关键词。
在一个可选的实施例中,确定目标文本对应的关键词可以采用升序排列的方式,即将关键词概率按照从小到大的顺序进行排列,选择最后至少一个关键词概率对应的关键词作为目标文本的关键词;也可以采用对关键词概率求平均值后,将超过平均值的关键词概率对应的关键词作为目标文本的关键词。以上仅为示意性的举例,本申请实施例对此不加以限定。
综上所述,本实施例提供的方法中,对目标文本进行关键词识别,首先以字符为单位对目标文本进行字符提取得到字符特征,之后对目标文本进行分词处理得到至少两个分词词汇,基于分词词汇中字符对应的字符特征得到至少两个分词词汇的词汇特征,再对词汇特征进行组合得到候选特征,基于对候选特征进行关键词预测得到关键词概率后确定目标文本中的关键词。通过以上方式,既可以对目标文本中字符特征进行更细颗粒度的分析,还可以让分词词汇之间具有更强的词义边界,而候选特征更充分融合了目标文本中的语义信息,使得关键词识别过程的灵活度更高,克服了依赖词库中存储的关键词对目标文本进行关键词识别的局限性。
在一个可选的实施例中,可以通过关键词识别模型对候选特征进行关键词预测,输出得到候选特征对应的关键词概率,其中,关键词识别模型为预先训练得到的模型。示意性的,如图5所示,该关键词识别模型的训练过程包括如下步骤510至步骤540。
步骤510,获取样本文本。
其中,样本文本标注有关键词标签,即在样本文本中,关键词是已经确定的分词词汇,分词词汇既可以只包含有一个字符、也可以包含有多个字符。
步骤520,通过关键词识别模型对样本文本进行关键词预测,输出得到关键词概率识别结果。
其中,关键词识别模型是用来对候选特征进行关键词预测的模型。示意性的,将样本文本进行字符的特征提取后得到字符特征,再对样本文本进行分词处理,得到样本文本中的至少两个样本分词词汇,将至少一个样本分词词汇对应的样本词汇特征组成候选特征。之后,可以将候选特征作为关键词识别模型的输入,在该模型中,可以采用全连接神经网络(DNN)、卷积神经网络(CNN)等,对候选特征进行回归预测。之后,基于回归预测后的结果,将关键词概率的识别结果通过该模型的输出层输出。
步骤530,基于关键词概率识别结果确定与样本文本对应的样本关键词。
示意性的,对关键词概率识别结果进行降序排序,基于排序结果确定样本文本对应的样本关键词;或者,将关键词概率识别结果达到预设概率阈值的关键词确定为样本文本对应的样本关键词;或者,将关键词概率识别结果位于关键词概率平均值以上的关键词确定为样本文本对应的样本关键词等。
步骤540,基于样本关键词与关键词标签之间的差异,对关键词识别模型进行训练。
可选地,样本关键词为经过关键词识别模型对样本文本预测得到的关键词,与样本文本确定的关键词之间存在一定的语义差异。基于已经对样本文本中的关键词进行标注后获取到的关键词标签,将样本关键词与关键词标签进行比较,可以知悉样本关键词与关键词之间的语义差异。
在一个可选的实施例中,基于关键词标签确定样本关键词的含义损失;
基于含义损失对关键词识别模型的模型参数进行调整,直至含义损失收敛。
其中,含义损失是经过关键词识别模型得到样本关键词与关键词标签之间的含义差异。
示意性的,对关键词识别模型的训练过程可以通过样本关键词与关键词标签之间的差异计算二分类的交叉熵损失函数,其中交叉熵损失函数的计算公式如下:
其中,是关键词标签,是样本关键词是关键词的概率。在二分类的交叉熵损失函数中,的取值为0~1之间的正数,而的取值会根据样本关键词是否为样本文本的关键词而取值不同,且的取值仅为0和1,因此称之为二分类的交叉熵损失函数。根据关键词的确定标准,当样本关键词是关键词时,取值为1;当样本关键词不是关键词时,的取值为0。基于以上规则以及关键词标签,计算确定样本关键词与关键词标签之间的含义损失。
基于得到的含义损失,可以对关键词识别模型中的模型参数进行更新调整。示意性的,采用随机梯度下降算法,即在计算含义损失下降最快的方向处随机选择一个含义损失数据进行计算,按照该计算方式,含义损失的数值会呈现下降趋势,基于该算法对关键词识别模型的模型参数进行更新调整,使得经调整后的关键词识别模型得到的样本关键词与关键词标签之间的语义差异逐渐缩小。当经过交叉熵损失函数得到的含义损失收敛时(如:含义损失的数值不再下降;或者含义损失下降的数值低于预设阈值),关键词识别模型的参数调整结束,得到训练好的关键词识别模型。
综上所述,本实施例提供的方法中,对关键词识别模型进行预先训练。首先以字符为单位对样本文本进行字符提取得到样本字符特征,之后对样本文本进行分词处理得到至少两个样本分词词汇,基于样本分词词汇中字符对应的样本字符特征得到至少两个样本分词词汇的样本词汇特征,再对样本词汇特征进行组合得到候选样本特征,基于对候选样本特征进行关键词预测得到样本关键词概率后确定样本文本中的样本关键词,同时,通过含义损失对关键词识别模型进行预先训练,直至含义损失达到收敛状态,完成关键词识别模型的训练。通过以上方式,既可以对样本文本中样本字符特征进行更细颗粒度的分析,还可以让样本分词词汇之间具有更强的词义边界,而候选样本特征更充分融合了样本文本中的语义信息,使得关键词识别过程的灵活度更高。
对本申请提供的关键词识别方法进行说明,该方法可以由服务器或者终端执行,也可以由服务器和终端共同执行,本申请实施例中,以该方法由服务器执行为例进行说明,如图6所示,该方法过程如下所述。
首先,输入文本“原汁原味经典消消乐”作为目标文本,得到该目标文本的字序列610,即:原、汁、原、味等共9个字符,将字序列输入到字编码器630中,如字编码器630采用Bert模型。
在字编码器630中,对字序列610的字符分别机选一个蕴含语义信息的向量表示,如使用Bert模型作为字编码器,首先使用嵌入层将每个字映射为一个Embedding向量,之后使用多层的多头自注意力网络逐层计算融合上下文信息的语义向量,第一个多头自注意力网络的输入为Embedding向量,再将每个多头自注意力网络的输入为前一个多头自注意力网络的输出向量,取最后一个多头自注意网络的输出作为模块最终输出的字向量。此外,Bert模型可以在大规模语料上以遮罩语言模型(Mask Language Modeling)为训练目标进行预训练,使模型学习到丰富的语义信息。
在对字序列进行特征映射的同时,还可以将目标文本输入到分词器中620,分词器620用于将输入的中文文本切分为词序列,使得每个词包含一个或者多个字符,示意性的,常用的中文分词算法包括基于词典的算法、隐马尔科夫模型(HMM)、长短时记忆网络(LSTM)等。将目标文本“原汁原味经典消消乐”输入分词器620后,输出的词序列640为“原汁原味”、“经典”和“消消乐”。
之后,将经过分词器620进行分词处理后得到的词序列640和经过字编码器得到的字向量一同输入到词编码器650中。即对于分词器620输出的一个词,词编码器的输入为该词包含的所有字符的向量,并由字向量计算该词的向量表示作为模块的输出,即输出词向量。示意性的,词编码器可以采用平均池化层作为该模块的模型结构,即对属于同一个词的所有字向量求均值作为该模块的输出。
然后,将词编码器650输出的词向量进行分组分析。示意性的,在分词器620输出的词序列中,将相邻的N个词组成的子序列称为一个N-Gram,N-Gram编码器的输入为词编码器输出的词向量序列,对该序列中的每个N-Gram计算一个向量表示。Uni-Gram CNN编码器660为N=1时的N-Gram编码器,即将1个词组成的子序列称为一个N-Gram;同理,Bi-Gram CNN编码器670为N=2时的N-Gram编码器,即将相邻的2个词组成的子序列称为一个N-Gram;Tri-Gram CNN编码器680为N=3时的N-Gram编码器,即将相邻的3个词组成的子序列称为一个N-Gram。
其中,可以结合N取不同取值的N-Gram编码器对关键词进行识别,通常取N = 1,2,3(此时的N-Gram通常称为Uni-Gram、Bi-Gram、Tri-Gram),分别计算所有Uni-Gram、Bi-Gram、Tri-Gram的向量表示。此外,如果关键词包含的词数较多,可根据实际情况扩大N的取值。N-Gram编码器的模型结构为卷积核大小为N的一维卷积神经网络(CNN),该卷积神经网络的输入通道数与词编码器输出的向量大小相同,输出通道数为模型超参数,激活函数一般取线性整流函数(ReLU)。
最后,通过N-Gram编码器(即Uni-Gram CNN编码器660、Bi-Gram CNN编码器670以及Tri-Gram CNN编码器680)中的模型结构对词向量序列进行关键词概率计算。示意性的,当N=1时,经过Uni-Gram CNN编码器660后得到“原汁原味”为关键词的概率为0;“经典”为关键词的概率为0;“消消乐”为关键词的概率为1,即确定“消消乐”为目标文本“原汁原味经典消消乐”的关键词,同理,当采用Bi-Gram CNN编码器670或者Tri-Gram CNN编码器680,也可以得到相应的结论。
综上所述,本实施例提供的方法中,对目标文本进行关键词识别,首先以字符为单位对目标文本进行字符提取得到字符特征,之后对目标文本进行分词处理得到至少两个分词词汇,基于分词词汇中字符对应的字符特征得到至少两个分词词汇的词汇特征,再对词汇特征进行组合得到候选特征,基于对候选特征进行关键词预测得到关键词概率后确定目标文本中的关键词。通过以上方式,既可以对目标文本中字符特征进行更细颗粒度的分析,还可以让分词词汇之间具有更强的词义边界,而候选特征更充分融合了目标文本中的语义信息,使得关键词识别过程的灵活度更高,克服了依赖词库中存储的关键词对目标文本进行关键词识别的局限性。
图7是本申请一个示例性实施例提供的关键词识别装置的结构框图,如图7所示,该装置包括如下部分:
文本获取模块710,用于获取目标文本,所述目标文本为待进行关键词识别的文本;
提取模块720,用于以字符为单位对所述目标文本进行特征提取,得到所述目标文本中的字符特征;
分词模块730,用于对所述目标文本进行分词处理,得到所述目标文本中的至少两个分词词汇;
特征获取模块740,用于基于所述字符特征获取所述分词词汇的词汇特征;
预测模块750,用于对至少一个词汇特征组成的候选特征进行关键词预测,得到至少一个候选特征对应的关键词概率,其中,当至少两个词汇特征组成所述候选特征时,所述至少两个词汇特征为相邻特征;
确定模块760,用于基于所述关键词概率确定所述目标文本对应的关键词。
如图8所示,在一个可选的实施例中,所述预测模块750用于对所述词汇特征进行关键词预测,得到所述词汇特征对应的第一关键词概率;对至少两个相邻词汇特征组成的候选特征进行关键词预测,得到所述候选特征对应的候选关键词概率;基于所述第一关键词概率和所述候选关键词概率确定所述目标文本对应的关键词概率。
在一个可选的实施例中,所述预测模块750还用于对相邻两个词汇特征组成的第一候选特征进行关键词预测,得到所述第一候选特征对应的第二关键词概率;或,对相邻三个词汇特征组成的第二候选特征进行关键词预测,得到所述第二候选特征对应的第三关键词概率。
在一个可选的实施例中,所述预测模块750包括:
计算单元751,用于基于所述至少两个词汇特征对应的词汇数量,对所述至少两个相邻词汇特征进行特征计算,得到所述候选特征;
预测单元752,用于对所述候选特征进行回归预测,得到所述候选特征对应的所述候选关键词概率。
在一个可选的实施例中,特征获取模块740用于基于所述分词词汇,确定所述分词词汇中包含的至少一个分词字符,所述分词字符包含于所述字符中;从所述目标文本的字符特征中获取所述分词字符对应的分词字符特征;对所述分词字符特征进行向量计算,得到所述分词词汇的所述词汇特征。
在一个可选的实施例中,所述确定模块760用于对所述关键词概率进行降序排序,基于排序结果确定所述目标文本对应的关键词;或者,将所述关键词概率达到预设概率阈值的关键词确定为所述目标文本对应的关键词。
在一个可选的实施例中,对所述关键词概率进行降序排序;
所述确定模块760还用于对所述关键词概率进行降序排序,得到关键词概率序列;确定所述关键词概率序列中前n个关键词概率对应的关键词作为所述目标文本对应的关键词,n为正整数。
在一个可选的实施例中,所述提取模块720包括:
映射单元721,用于对所述目标文本中的字符依次进行特征映射,得到与所述字符顺次对应的映射特征结果;
融合单元722,用于将第i个字符的映射特征结果与至少一个其他映射特征结果融合,得到所述第i个字符的字符特征,i为正整数。
在一个可选的实施例中,所述预测模块750还用于通过关键词识别模型对所述候选特征进行关键词预测,输出得到所述候选特征对应的关键词概率,其中,所述关键词识别模型为预先训练得到的模型。
在一个可选的实施例中,所述装置还用于获取样本文本,所述样本文本标注有关键词标签;通过所述关键词识别模型对所述样本文本进行关键词预测,输出得到关键词概率识别结果;基于所述关键词概率识别结果确定与所述样本文本对应的样本关键词;基于所述样本关键词与所述关键词标签之间的差异,对所述关键词识别模型进行训练。
在一个可选的实施例中,所述关键词识别模型中包括模型参数;
所述装置还用于基于所述关键词标签确定所述样本关键词的含义损失;基于所述含义损失对所述关键词识别模型的所述模型参数进行调整,直至所述含义损失收敛。
综上所述,本实施例提供的装置中,对目标文本进行关键词识别,首先以字符为单位对目标文本进行字符提取得到字符特征,之后对目标文本进行分词处理得到至少两个分词词汇,基于分词词汇中字符对应的字符特征得到至少两个分词词汇的词汇特征,再对词汇特征进行组合得到候选特征,基于对候选特征进行关键词预测得到关键词概率后确定目标文本中的关键词。通过以上方式,既可以对目标文本中字符特征进行更细颗粒度的分析,还可以让分词词汇之间具有更强的词义边界,而候选特征更充分融合了目标文本中的语义信息,使得关键词识别过程的灵活度更高,克服了依赖词库中存储的关键词对目标文本进行关键词识别的局限性。
需要说明的是:上述实施例提供的多媒体互动装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的多媒体互动装置与多媒体互动方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图9示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器900包括中央处理单元(Central Processing Unit,CPU)901、包括随机存取存储器(RandomAccess Memory,RAM)902和只读存储器(Read Only Memory,ROM)903的系统存储器904,以及连接系统存储器904和中央处理单元901的系统总线905。服务器900还包括用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备906。
大容量存储设备906通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。大容量存储设备906及其相关联的计算机可读介质为服务器900提供非易失性存储。也就是说,大容量存储设备906可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备906可以统称为存储器。
根据本申请的各种实施例,服务器900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器900可以通过连接在系统总线905上的网络接口单元911连接到网络912,或者说,也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的关键词识别方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的关键词识别方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的关键词识别方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (13)
1.一种关键词识别方法,其特征在于,所述方法包括:
获取目标文本,所述目标文本为待进行关键词识别的文本;
对所述目标文本中的字符依次进行特征映射,得到与所述字符顺次对应的映射特征结果;
将第i个字符的映射特征结果与至少一个其他映射特征结果融合,得到所述第i个字符的字符特征,i为正整数;
对所述目标文本进行分词处理,得到所述目标文本中的至少两个分词词汇;
基于所述字符特征获取所述分词词汇的词汇特征;
对所述词汇特征进行关键词预测,得到所述词汇特征对应的第一关键词概率;对至少两个相邻词汇特征组成的候选特征进行关键词预测,得到所述候选特征对应的候选关键词概率;基于所述第一关键词概率和所述候选关键词概率确定所述目标文本对应的关键词概率;其中,所述候选特征通过将至少两个相邻词汇特征组成至少两个子序列,并对所述子序列进行特征计算得到;所述候选关键词概率通过对所述候选特征进行回归预测得到;
基于所述关键词概率确定所述目标文本对应的关键词;
其中,所述对所述子序列进行特征计算,包括:
将所述子序列通过卷积神经网络,其中,激活函数采用线性整流函数,对所述子序列进行特征计算的公式为:
ReLU(x)=max(x,0)
2.根据权利要求1所述的方法,其特征在于,所述对至少两个相邻词汇特征组成的候选特征进行关键词预测,得到所述候选特征对应的候选关键词概率,包括:
对相邻两个词汇特征组成的第一候选特征进行关键词预测,得到所述第一候选特征对应的第二关键词概率;
或,
对相邻三个词汇特征组成的第二候选特征进行关键词预测,得到所述第二候选特征对应的第三关键词概率。
3.根据权利要求1所述的方法,其特征在于,所述候选特征基于所述至少两个词汇特征对应的词汇数量,对所述至少两个相邻词汇特征进行特征计算得到。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述字符特征获取所述分词词汇的词汇特征,包括:
基于所述分词词汇,确定所述分词词汇中包含的至少一个分词字符,所述分词字符包含于所述字符中;
从所述目标文本的字符特征中获取所述分词字符对应的分词字符特征;
对所述分词字符特征进行向量计算,得到所述分词词汇的所述词汇特征。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述关键词概率确定所述目标文本对应的关键词,包括:
对所述关键词概率进行降序排序,基于排序结果确定所述目标文本对应的关键词;
或者,
将所述关键词概率达到预设概率阈值的关键词确定为所述目标文本对应的关键词。
6.根据权利要求5所述的方法,其特征在于,所述对所述关键词概率进行降序排序,基于排序结果确定所述目标文本对应的关键词,包括:
对所述关键词概率进行降序排序,得到关键词概率序列;
确定所述关键词概率序列中前n个关键词概率对应的关键词作为所述目标文本对应的关键词,n为正整数。
7.根据权利要求1至3任一项所述的方法,其特征在于,所述对至少一个词汇特征组成的候选特征进行关键词预测,得到至少一个候选特征对应的关键词概率,包括:
通过关键词识别模型对所述候选特征进行关键词预测,输出得到所述候选特征对应的关键词概率,其中,所述关键词识别模型为预先训练得到的模型。
8.根据权利要求7所述的方法,其特征在于,所述通过关键词识别模型对所述候选特征进行关键词预测之前,还包括:
获取样本文本,所述样本文本标注有关键词标签;
通过所述关键词识别模型对所述样本文本进行关键词预测,输出得到关键词概率识别结果;
基于所述关键词概率识别结果确定与所述样本文本对应的样本关键词;
基于所述样本关键词与所述关键词标签之间的差异,对所述关键词识别模型进行训练。
9.根据权利要求8所述的方法,其特征在于,所述关键词识别模型中包括模型参数;
所述基于所述样本关键词与所述关键词标签之间的差异,对所述关键词识别模型进行训练,包括:
基于所述关键词标签确定所述样本关键词的含义损失;
基于所述含义损失对所述关键词识别模型的所述模型参数进行调整,直至所述含义损失收敛。
10.一种关键词识别的装置,其特征在于,所述装置包括:
文本获取模块,用于获取目标文本,所述目标文本为待进行关键词识别的文本;
提取模块,用于对所述目标文本中的字符依次进行特征映射,得到与所述字符顺次对应的映射特征结果;将第i个字符的映射特征结果与至少一个其他映射特征结果融合,得到所述第i个字符的字符特征,i为正整数;
分词模块,用于对所述目标文本进行分词处理,得到所述目标文本中的至少两个分词词汇;
特征获取模块,用于基于所述字符特征获取所述分词词汇的词汇特征;
预测模块,用于:对所述词汇特征进行关键词预测,得到所述词汇特征对应的第一关键词概率;对至少两个相邻词汇特征组成的候选特征进行关键词预测,得到所述候选特征对应的候选关键词概率;基于所述第一关键词概率和所述候选关键词概率确定所述目标文本对应的关键词概率;其中,所述候选特征通过将至少两个相邻词汇特征组成至少两个子序列,并对所述子序列进行特征计算得到;所述候选关键词概率通过对所述候选特征进行回归预测得到;
确定模块,用于基于所述关键词概率确定所述目标文本对应的关键词;
其中,所述对所述子序列进行特征计算,包括:
将所述子序列通过卷积神经网络,其中,激活函数采用线性整流函数,对所述子序列进行特征计算的公式为:
ReLU(x)=max(x,0)
11.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一项所述的关键词识别方法。
12.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一项所述的关键词识别方法。
13.一种计算机程序产品,其特征在于,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现如权利要求1至9任一项所述的关键词识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111103103.7A CN113961666B (zh) | 2021-09-18 | 2021-09-18 | 关键词识别方法、装置、设备、介质及计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111103103.7A CN113961666B (zh) | 2021-09-18 | 2021-09-18 | 关键词识别方法、装置、设备、介质及计算机程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113961666A CN113961666A (zh) | 2022-01-21 |
CN113961666B true CN113961666B (zh) | 2022-08-23 |
Family
ID=79461785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111103103.7A Active CN113961666B (zh) | 2021-09-18 | 2021-09-18 | 关键词识别方法、装置、设备、介质及计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113961666B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364860A (zh) * | 2020-11-05 | 2021-02-12 | 北京字跳网络技术有限公司 | 字符识别模型的训练方法、装置和电子设备 |
CN114461914B (zh) * | 2022-02-11 | 2023-03-24 | 江苏灵狐软件科技有限公司 | 一种基于课程平台数据库的专业教程推送方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3118751A1 (fr) * | 2015-07-13 | 2017-01-18 | Pixalione | Procédé d'extraction de mots clés, dispositif et programme d'ordinateur correspondant |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985229B (zh) * | 2019-05-21 | 2023-07-07 | 腾讯科技(深圳)有限公司 | 一种序列标注方法、装置及计算机设备 |
CN110826328A (zh) * | 2019-11-06 | 2020-02-21 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置、存储介质和计算机设备 |
CN113221553A (zh) * | 2020-01-21 | 2021-08-06 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置、设备以及可读存储介质 |
CN112131350B (zh) * | 2020-09-30 | 2024-04-30 | 腾讯科技(深圳)有限公司 | 文本标签确定方法、装置、终端及可读存储介质 |
-
2021
- 2021-09-18 CN CN202111103103.7A patent/CN113961666B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3118751A1 (fr) * | 2015-07-13 | 2017-01-18 | Pixalione | Procédé d'extraction de mots clés, dispositif et programme d'ordinateur correspondant |
Also Published As
Publication number | Publication date |
---|---|
CN113961666A (zh) | 2022-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN112084337B (zh) | 文本分类模型的训练方法、文本分类方法及设备 | |
Ay Karakuş et al. | Evaluating deep learning models for sentiment classification | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN110826328A (zh) | 关键词提取方法、装置、存储介质和计算机设备 | |
CN110704576B (zh) | 一种基于文本的实体关系抽取方法及装置 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN111046941A (zh) | 一种目标评论检测方法、装置、电子设备和存储介质 | |
KR102155768B1 (ko) | 학습을 통하여 진화하는 질의응답 데이터 셋을 이용한 쇼핑몰 질의응답 추천 서비스 제공 방법 | |
CN113961666B (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
CN110457585B (zh) | 负面文本的推送方法、装置、系统及计算机设备 | |
CN112307164A (zh) | 信息推荐方法、装置、计算机设备和存储介质 | |
CN113569001A (zh) | 文本处理方法、装置、计算机设备及计算机可读存储介质 | |
CN112131345B (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN114416995A (zh) | 信息推荐方法、装置及设备 | |
CN114357151A (zh) | 文本类目识别模型的处理方法、装置、设备及存储介质 | |
CN114329051B (zh) | 数据信息识别方法、装置、设备、存储介质及程序产品 | |
CN115168590A (zh) | 文本特征提取方法、模型训练方法、装置、设备及介质 | |
Dwivedi et al. | Survey on fake news detection techniques | |
CN113535949B (zh) | 基于图片和句子的多模态联合事件检测方法 | |
Hou et al. | Leveraging search history for improving person-job fit | |
CN115878752A (zh) | 文本情感的分析方法、装置、设备、介质及程序产品 | |
Lindén et al. | Evaluating combinations of classification algorithms and paragraph vectors for news article classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |