CN115496039B - 一种词语提取方法及计算机设备 - Google Patents

一种词语提取方法及计算机设备 Download PDF

Info

Publication number
CN115496039B
CN115496039B CN202211439921.9A CN202211439921A CN115496039B CN 115496039 B CN115496039 B CN 115496039B CN 202211439921 A CN202211439921 A CN 202211439921A CN 115496039 B CN115496039 B CN 115496039B
Authority
CN
China
Prior art keywords
word
text data
character
characters
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211439921.9A
Other languages
English (en)
Other versions
CN115496039A (zh
Inventor
李胜超
曹熠炜
汤泳
卢志超
余强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202211439921.9A priority Critical patent/CN115496039B/zh
Publication of CN115496039A publication Critical patent/CN115496039A/zh
Application granted granted Critical
Publication of CN115496039B publication Critical patent/CN115496039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种词语提取方法及计算机设备,应用于文本处理领域;用于解决提取的候选词语不准确,进而导致利用这些候选词语无法达到舆情监控、分析产品发展趋势等目的问题。该方法应用于计算机设备,包括:获取与目标对象关联的多个第一文本数据。基于第一预设神经网络模型提取多个第一文本数据中每两个字符之间的字符关系向量;其中,字符关系向量用于表征两个字符之间的字符关系类型。根据得到的字符关系向量,查找多个第一文本数据中包含的属性词语和观点词语,并确定每个属性词语和每个观点词语之间的词语关系类型。若词语关系类型表征第一属性词语和第一观点词语属于同一个候选词语,则组合第一属性词语和第一观点词语,得到第一候选词语。

Description

一种词语提取方法及计算机设备
技术领域
本申请涉及文本处理技术领域,尤其涉及一种词语提取方法及计算机设备。
背景技术
热门词语是一段时期内使用频率突然增加的词语,也可以称为高频词语。热门词语可能是以往已存在但近期频率突然增加的词语,或者也有可能是以往不存在的新词语。对搜索引擎、新闻、期刊等来源提供的文本信息提取高频词语是掌握事情发展的动态、分析趋势以及监控舆情的重要手段。
相关技术中,有采用基于词典的高频词语提取方法首先采用N-Gram算法对语料库进行分词得到固定大小的词典,然后将文本数据和语料库中的基础词语进行匹配,确定匹配的文本数据为候选词语。但这种方式得到的候选词语不准确,有些词语词不达意,效果不好,利用这些候选词语无法达到舆情监控、分析产品发展趋势等目的。
发明内容
本申请实施例提供一种词语提取方法及计算机设备,用于解决提取的候选词语不准确,进而导致利用这些候选词语无法达到舆情监控、分析产品发展趋势等目的问题。为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,提供了一种词语提取方法,该方法包括:
计算机设备获取与目标对象关联的多个第一文本数据。然后,计算机设备基于第一预设神经网络模型提取多个第一文本数据中每两个字符之间的字符关系向量;其中,字符关系向量用于表征两个字符之间的字符关系类型,且字符关系类型包括以下四种:两个字符属于同一属性词语,两个字符属于同一观点词语,两个字符中的一个字符属于属性词语、另一个字符属于观点词语、且两个字符属于同一个候选词语,两个字符之间的关系不属于以上三种关系类型。第一预设神经网络模型是基于第一初始神经网络模型训练确定的,学习了大量样本文本数据中的字符与字符之间的关系,对多个第一文本数据可以提取得到更为准确的字符关系类型。然后,计算机设备根据得到的字符关系向量,查找多个第一文本数据中包含的属性词语和观点词语,并确定每个属性词语和每个观点词语之间的词语关系类型;其中,词语关系类型用于表征对应属性词语和观点词语是否属于同一个候选词语。如果词语关系类型表征第一属性词语和第一观点词语属于同一个候选词语,那么计算机设备组合第一属性词语和第一观点词语,得到与目标对象关联的第一候选词语;其中,第一属性词语可以是多个第一文本数据中的任一个属性词语,第一观点词语可以是多个第一文本数据中的任一个观点词语。
这样,对于多个第一文本数据中以前出现过和未出现过的候选词语,都可以通过该方法提取出来。不仅可以保证提取的候选词语的准确性,还可以保证从新的文本数据中提取出新的候选词语。进而计算机设备可以自动完成根据最新的数据更新候选词语的数据库,无需人工维护候选词语数据库,减少人工成本。
在一些可能的实施方式中,根据得到的字符关系向量,查找多个第一文本数据中包含的属性词语和观点词语,并确定每个属性词语和每个观点词语之间的词语关系类型,具体可以包括:生成n行n列的目标字对网格,n为多个第一文本数据中的字符的个数,每行对应多个第一文本数据中的一个字符,每列对应多个第一文本数据中的一个字符;将字符关系向量rij填充至目标字对网格的第i行第j列;其中,字符关系向量rij是多个第一文本数据中第i个字符与第j个字符之间的字符关系向量;i和j在{1,2,……,n}中取值;根据填充了字符关系向量rij的目标字对网格,确定每个属性词语和每个观点词语之间的词语关系类型。
在该方案中,将多个第一文本数据中每两个字符的字符关系向量以目标字对网格的形式呈现,便于计算机设备查找多个第一文本数据中包含的属性词语和观点词语,以及获取每个属性词语和每个观点词语之间的词语关系类型。
在一些可能的实施方式中,根据填充了字符关系向量rij的目标字对网格,确定每个属性词语和每个观点词语之间的词语关系类型,具体可以包括:
将填充了字符关系向量rij的目标字对网格中、字符关系类型均为第一字符关系类型的相邻字符拼接,得到属性词语;第一字符关系类型用于指示两个字符属于同一属性词语;将填充了字符关系向量rij的目标字对网格中、字符关系类型均为第二字符关系类型的连续相邻字符拼接,得到观点词语;第二字符关系类型用于指示两个字符属于同一观点词语;根据目标字对网格中、第二属性词语包含的每个字符与第二观点词语包含的每个字符之间的字符关系类型,确定第二属性词语和第二观点词语之间的词语关系类型;其中,第二属性词语为目标字对网格中的任一个属性词语,第二观点词语为目标字对网格中的任一个观点词语。
在该方案中,先在字对网格中搜索字符关系向量,确定第一文本数据中包含的属性词语和观点词语。应理解,多个第一文本数据中确定出的属性词语和观点词语可能都包括多个。然后再基于属性词语中包含字符与观点词语包含字符之间的字符关系向量,推断属性词语和观点词语之间的词语关系。这样,可以提高从多个第一文本数据中查找出的属性词语和观点词语的准确性。
在一些可能的实施方式中,根据目标字对网格中、第二属性词语包含的每个字符与第二观点词语包含的每个字符之间的字符关系类型,确定第二属性词语和第二观点词语之间的词语关系类型,具体可以包括:如果第二属性词语与第二观点词语分别所包含的字符之间的字符关系类型为第三字符关系类型的数量大于预设数量阈值,则计算机设备确定第二属性词语和第二观点词语之间的词语关系类型属于同一候选词语;第三字符关系类型用于指示两个字符中的一个字符属于属性词语、另一个字符属于观点词语、且两个字符属于同一个候选词语。如果第二属性词语与第二观点词语分别所包含的字符之间的字符关系类型为第三字符关系类型的数量小于或者等于预设数量阈值时,确定第二属性词语和第一观点词语之间的词语关系类型不属于同一候选词语。如果词语包含的字符之间的字符关系类型大部分都是属于第三字符关系类型,那么这一组属性词语和观点词语之间属于同一候选词语的可能性较高。通过字符关系类型推断词语关系的方式,可以提高提取词语的准确性。
在一些可能的实施方式中,基于第一预设神经网络模型提取多个第一文本数据中每两个字符之间的字符关系向量,具体可以包括:计算机设备对多个第一文本数据进行特征提取,得到多个第一文本数据中各字符的语义特征向量;其中,语义特征向量用于表征各字符在多个第一文本数据中的词语含义。然后,计算机设备分别对多个第一文本数据中任意两个字符的语义特征向量进行向量运算,得到多个第一文本数据中的每两个字符对应的第一向量。再然后,计算机设备获取预设字符关系权重矩阵;预设字符关系权重矩阵是基于初始字符关系权重矩阵经过训练确定的。最后,计算机设备分别基于各第一向量与预设字符关系权重矩阵,确定多个第一文本数据中每两个字符之间的字符关系向量。
在该方案中,先对多个第一文本数据提取语义特征向量,并基于语义特征向量以及预设字符关系权重矩阵,计算得到多个第一文本数据中每两个字符之间的字符关系向量。由于预设字符关系权重矩阵是经过大量样本数据训练确定的,学习了大量样本数据中字符与字符之间的关系,对于多个第一文本数据中字符,可以更准确的预测每两个字符之间的字符关系类型。
在一些可能的实施方式中,对多个第一文本数据进行特征提取,得到多个第一文本数据中各字符的语义特征向量,具体可以包括:计算机设备对多个第一文本数据进行编码,得到第一矩阵。然后,计算机设备将第一矩阵输入预设自注意力机制模块;预设自注意力机制模块是基于初始自注意力机制模块训练确定的。接着,计算机设备获取预设自注意力机制模块输出的第二矩阵;第二矩阵中包含多个第一文本数据中每个字符对应的字符向量。最后,计算机设备基于第二预设神经网络模型对第二矩阵进行特征提取,得到多个第一文本数据中各字符的语义特征向量;第二预设神经网络模型是基于样本文本数据,对第二初始神经网络模型进行训练确定的;初始神经网络包括线性神经网络或多层感知机。
在该方案中,使用自注意力机制模块和第二预设神经网络模块对第一文本数据进行特征提取,由于自注意力机制模块的特点在于无视词之间的距离直接计算依赖关系,能够学习一个句子的内部结构,可以捕获文本数据中字符之间的长距离依赖关系,且实现较为简单,可以并行计算。而神经网络模块可以提取文本数据中深层的语义信息。这样,可以提取到更丰富的文本数据的语义特征。
在一些实施例中,对多个第一文本数据进行编码,得到第一矩阵,具体可以包括:基于预设位置编码矩阵,对多个第一文本数据进行位置编码得到第三矩阵;预设位置编码矩阵是对初始位置编码矩阵训练确定的;基于预设语义编码矩阵,对多个第一文本数据进行语义编码得到第四矩阵;预设语义编码矩阵是对初始语义编码矩阵训练确定的;对第三矩阵和第四矩阵进行矩阵运算,得到第一矩阵。在该方案中,对文本数据进行特征提取时,结合了各字符在第一文本数据中的位置信息和语义编码信息,可以使提取的特征更符合字符在文本数据中的含义。在基于提取的特征查找并提取出第一文本数据中的候选词语时,可以提高词语提取的准确性。
在一些可能的实施方式中,获取多个第一文本数据,具体可以包括:计算机设备先获取与目标对象关联的多个第二文本数据。然后计算机设备判断多个第二文本数据中每个第二文本数据的数据来源。最后,计算机设备根据每个第二文本数据的数据来源,分别对每个第二文本数据进行文本数据过滤,得到与目标对象关联的多个第一文本数据。在该方案中,通过对获取的文本数据进行过滤,可以删除掉其中对于目标对象的评价、讨论内容无关的文本数据。这样,过滤掉不是候选词语的文本数据,可以提高从第一文本数据中提取词语的准确性,同时减少计算机设备对非候选词语进行处理导致的资源浪费。
在一些可能的实施方式中,获取多个第二文本数据具体可以从搜索引擎对应服务器、销售平台对应服务器、第三方软件对应服务器或者本地数据库获取多个第二文本数据。这样,对来自各个来源的数据进行词语提取,可以快速的关注到各数据来源对目标对象的评价、讨论内容,便于快速关注到各数据来源与目标对象关联的事件发展和舆情监控。
在一些可能的实施方式中,上述方法在组合第一属性词语和第一观点词语,得到与目标对象关联的第一候选词语之后,还包括:若数据库中未保存第一候选词语,则将第一候选词语存储至数据库;其中,数据库中保存有多个候选词语。
在一些可能的实施方式中,上述方法还包括:计算机设备获取与目标对象关联的多个第三文本数据。然后,计算机设备统计数据库中保存的多个候选词语中每个候选词语在第三文本数据中的出现频率。最后将出现频率满足预设频率条件的第二候选词语,作为高频词语输出。在该方案中,在提取得到的候选词语之后,可以对与目标对象关联的文本数据进行监控,快速关注到高频词语,便于相关人员快速作出相应措施。
第二方面,提供了一种计算机设备,包括:处理器和存储器;该存储器用于存储计算机执行指令,当该计算机设备运行时,该处理器执行该存储器存储的该计算机执行指令,以使该计算机设备执行如上述第一方面中任一项的词语提取方法。
第三方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机可以执行上述第一方面中任一项的词语提取方法。
第四方面,提供了一种包含指令的计算机程序产品,当其在计算机设备上运行时,使得计算机设备可以执行上述第一方面中任一项的词语提取方法。
第五方面,提供了一种装置(例如,该装置可以是芯片系统),该装置包括处理器,用于支持计算机设备实现上述第一方面中所涉及的功能。在一种可能的设计中,该装置还包括存储器,该存储器,用于保存计算机设备必要的程序指令和数据。该装置是芯片系统时,可以由芯片构成,也可以包含芯片和其他分立器件。
其中,第二方面至第五方面中任一种设计方式所带来的技术效果可参见第一方面中不同设计方式所带来的技术效果,此处不再赘述。
附图说明
图1为本申请实施例提供的候选词语的出现频率的统计分析界面示意图;
图2为本申请实施例提供的一种个人计算机的结构示意图;
图3为本申请实施例提供的一种词语提取方法的流程示意图;
图4为本申请实施例提供的另一种词语提取方法的流程示意图;
图5为本申请实施例提供的另一种词语提取方法的流程示意图;
图6为本申请实施例提供的一种目标字对网格的示意图;
图7为本申请实施例提供的一种第二预设神经网络模型的结构示意图;
图8为本申请实施例提供的另一种词语提取方法的流程示意图;
图9为本申请实施例提供的另一种目标字对网格的示意图;
图10为本申请实施例提供的另一种词语提取方法的流程示意图;
图11为本申请实施例提供的一种第三预设神经网络模型的结构示意图;
图12为本申请实施例提供的一种词语搜索模块的结构示意图;
图13为本申请实施例提供的一种芯片模块的结构示意图。
具体实施方式
热门词语是一段时期内使用频率突然增加的词语,也可以称为高频词语。热门词语可能是以往已存在但近期频率突然增加的词语,或者也有可能是以往不存在的新词语。对搜索引擎、新闻、期刊等来源提供的文本信息提取高频词语是掌握事情发展的动态、分析趋势以及监控舆情的重要手段。
相关技术中,有采用基于词典的高频词语提取方法首先采用N-Gram算法对语料库进行分词得到固定大小的词典,然后将文本数据和语料库中的基础词语进行匹配,确定匹配的文本数据为候选词语。但这种方式得到的候选词语不准确,有些词语词不达意,效果不好,利用这些候选词语无法达到舆情监控、分析产品发展趋势等目的。
另外相关技术中还有基于依存句法分析的词语提取方法,这类方法通过依存句法分析算法得到句子的主干结构(主语、谓语、宾语等结构),通过将主干结构拼接到一起得到候选词语。但由于中文语法结构的复杂性,通过依存句法分析得到的主干结构过于灵活,会产生很多语法不同、逻辑不同候选词语。另外,该方法存在词语数据库配置复杂,维护困难等问题。
基于此,本申请提出一种词语提取方法,应用于计算机设备。该方法可以从与目标对象关联的文本数据中,通过特征提取、计算文本数据各字符之间的字符关系向量,确定该文本数据中包含的属性词语和观点词语,以及各属性词语和各观点词语之间的词语关系类型。如果属性词语和观点词语之间的词语关系类型满足一定条件,那么则组合属性词语和观点词语,得到该文本数据中与目标对象关联的候选词语。
在本申请实施例提供的技术方案中,通过计算文本数据的各字符之间的字符关系来查找文本数据中包含的词语,使得从文本数据中的词语更准确。然后计算词语之间的词语关系类型,再根据词语关系类型从文本数据中提取出与目标对象关联的候选词语。这样,可以得到能够更准确的表达词语意思的与目标对象关联的候选词语。且提取出的候选词语可以用于维护数据库,更新数据库中的候选词语,无需人工维护数据库,减少人力成本。
进一步的,使用存储有与目标对象关联的候选词语的数据库,可以通过统计指定时间段内各候选词语的出现频率,实现对目标对象相关的事件发展动态进行追踪、分析,以及舆情监控。在一些实施例中,如图1所示为本申请一实施例提供的候选词语的出现频率的统计分析界面示意图。在该界面中可以选择所需要关注的对象,声音分类、情感分类、数据来源、词库、主题类型以及日期。统计结果可以在界面中进行展示,示例性的,如图1所示的词云图中包含的多个词语,为数据库中包含的候选词语。在该示例中,以不同字体大小表示候选词语在指定时间段内的文本数据中的出现频率,如出现频率越高字体越大。应理解,在其他实施例中,还可以通过字体颜色等其他显示格式来区分候选词语的出现频率。
示例性的,上述计算机设备具体可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、台式电脑、超级本(ultrabook)、上网本,以及蜂窝电话、个人数字助理(personal digitalassistant,PDA)、穿戴设备、增强现实(augmented reality,AR)\虚拟现实(virtualreality,VR)设备、媒体播放器、电视机等设备,本申请实施例对该设备的具体形态不作特殊限制。
请参照图2,为本申请一实施例提供的个人计算机10的结构示意图。示例性的,上述计算机设备可以是个人计算机10。如图2所示,该个人计算机10可以包括:处理器11、存储器12、显示屏13、Wi-Fi装置14、蓝牙装置15、音频电路16、麦克风16A、扬声器16B、电源系统17、外设接口18、传感器模块19、数据转换模块20等部件。这些部件可通过一根或多根通信总线或信号线(图2中未示出)进行通信。本领域技术人员可以理解,图2中示出的硬件结构并不构成对个人计算机10的限定,个人计算机10可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,处理器11是个人计算机10的控制中心,利用各种接口和线路连接个人计算机10的各个部分,通过运行或执行存储在存储器12内的应用程序,以及调用存储在存储器12内的数据和指令,执行个人计算机10的各种功能和处理数据。在一些实施例中,处理器11可包括一个或多个处理单元;处理器11还可以集成应用处理器和调制解调处理器;其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器11中。
在本申请其他一些实施例中,上述处理器11还可以包括AI芯片。AI芯片的学习和处理能力包括图像理解能力、自然语言理解能力和语音识别能力等。AI芯片可以使得个人计算机10具有更好的性能、更长的续航时间以及更好的安全性和隐私性。例如,若个人计算机10通过云端处理数据则需要数据上传处理后再返回结果,在现有技术条件下效率很低。若个人计算机10本地端具有较强的AI学习能力,那么个人计算机10就不需要把数据上传到云端,直接在本地端处理即可,因而可以在提高处理效率的同时,提高数据的安全性和隐私性。
存储器12用于存储应用程序以及数据,处理器11通过运行存储在存储器12的应用程序以及数据,执行个人计算机10的各种功能以及数据处理。存储器12主要包括存储程序区以及存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等);存储数据区可以存储根据使用个人计算机10时所创建的数据(比如音频数据、视频数据等)。此外,存储器12可以包括高速随机存取存储器,还可以包括非易失存储器,例如磁盘存储器件、闪存器件或其他非易失性固态存储器件等。
存储器12可以存储各种操作系统。示例性地,存储器12中还可以存储与本申请实施例相关的拨号软件等,存储器12中还存储可与本申请实施例注册登录相关的信息,例如用户账号信息。
显示屏13用于显示图像,视频等。该显示屏可以是触摸屏。在一些实施例中,个人计算机10可以包括1个或N个显示屏13,N为大于1的正整数。个人计算机10通过GPU,显示屏13,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏13和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器11可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
Wi-Fi装置14,用于为个人计算机10提供遵循Wi-Fi相关标准协议的网络接入。个人计算机10可以通过Wi-Fi装置14接入到Wi-Fi接入点,进而帮助用户收发电子邮件、浏览网页和访问流媒体等,它为用户提供了无线的宽带互联网访问。个人计算机10还可以通过Wi-Fi装置和Wi-Fi接入点与连接到该Wi-Fi接入点的终端设备建立Wi-Fi连接,用于相互传输数据。在其他一些实施例中,该Wi-Fi装置14也可以作为Wi-Fi无线接入点,可以为其他计算机设备提供Wi-Fi网络接入。
蓝牙装置15,用于实现个人计算机10与其他短距离的电子设备(例如终端、智能手表等)之间的数据交换。本申请实施例中的蓝牙装置可以是集成电路或者蓝牙芯片等。
音频电路16、麦克风16A、扬声器16B可提供用户与个人计算机10之间的音频接口。音频电路16可将接收到的音频数据转换后的电信号,传输到扬声器16B,由扬声器16B换为声音信号输出;另一方面,麦克风16A将收集的声音信号转换为电信号,由音频电路16接收后转换为音频数据,再通过互联网或者Wi-Fi网络或者蓝牙将音频数据发送给终端,或者将音频数据输出至存储器12以便进一步处理。
电源系统17用于给个人计算机10的各个部件充电。电源系统17可以包括有电池和电源管理模块,电池可以通过电源管理芯片与处理器11逻辑相连,从而通过电源系统17实现管理充电、放电、以及功耗管理等功能。
外设接口18,用于为外部的输入/输出设备(例如键盘、鼠标、外接显示器、外部存储器、用户识别模块卡等)提供各种接口。例如通过通用串行总线接口与鼠标连接,实现接收用户通过鼠标实施的相关操作的目的。又例如,通过外部存储器接口与外部存储器连接,例如Micro SD卡,实现扩展个人计算机10的存储能力。外设接口18可以被用来将上述外部的输入/输出外围设备耦接到处理器11和存储器12。
传感器模块19可以包括至少一种传感器。例如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器。其中,环境光传感器可根据环境光线的明暗来调节显示屏13的亮度。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别个人计算机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。当然,根据实际需求,传感器模块还可以包括其他任意可行的传感器。
数据转换模块20可以包括有数模转换器20A和模数转换器20B。其中,数模转换器(digital to analog converter,DAC),又称D/A转换器。数模转换器是把数字信号转变成模拟信号的器件。模数转换器(analog to digitalconverter,ADC),又称为A/D转换器。模数转换器是把模拟信号转换成数字信号的器件。
以下实施例中的词语提取方法,均可以在具备上述硬件结构的计算机10中执行。
本申请提供一种词语提取方法,用于从来自如搜索引擎、问卷调查、社交媒体软件等的大量文本数据中提取出用于评价目标对象的候选词语。进一步的,根据提取出的候选词语可以统计指定时间段内候选词语的出现频率,从而实现对目标对象相关事件的发展动态跟踪和分析,以及舆情监控的效果。
以下对本申请实施例中可能涉及到的技术名词进行说明。
N-Gram是一种统计语言模型,用来根据前(n-1)个项目(item)来预测第n个item。通常可以从大规模文本数据或音频语料库中生成N-Gram模型。
神经网络是一种计算模型,由大量的节点(或神经元)直接相互关联而构成。
自注意力机制(self-attention):在做自然语言处理时,句子中的一个词往往不是独立的,而是与该词的上下文相关。但是词语与其上下文中不同的词的相关性是不同的,在关注该词语的上下文的同时,也要更加聚焦与该词语相关性更高的词,这就要用到self-attention。一个self-attention模块接收n个输入,然后返回n个输出。
自注意力机制的运算过程中,根据输入将会生成查询(query)、键(key)和值(value)。在自注意力机制中,通过注意力评分函数可以得到query和key之间的注意力分数。然后,自注意力分数通过softmax函数可以得到注意力权重;将自注意力权重作用到各个value 上,得到最终自注意力层的输出。
Key:表示从原始输入中,从事物自身本来所固有的某一个属性(或多个属性上)上提取出来的特征, 这些特征可以抽象的表示原始输入。
Value: 从原始输入中,进行映射,在另外一个特征维度上来表征输入。
Query: 由机器从原始输入中提炼出来的一种属性特征。
注意力评分函数用于将query和key两个向量映射成标量,即注意力分数。选择不同的注意力评分函数会导致不同的注意力汇聚操作,得到不同的注意力分数。
字符编码(Character Encoding):字符编码是指一种映射规则,根据这个映射规则可以将 某个字符映射成其他形式的数据以便在个人计算机中存储和传输。
文本位置编码(Positional Encoding)是一种用词的位置信息对文本序列中的每个词进行表示的方法,让输入数据携带位置信息,以使神经网络模型能够找出位置特点。
文本语义编码是一种利用词语的词语含义对文本数据中的每个词进行表示的方法。
Softmax函数又被称为归一化指数函数。其作用是将多分类的结果以概率的形式展现出来。
正则表达式(Regular Expression)又称规则表达式,是一种文本模式,可以包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”)。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式(规则)的文本。
线性神经网络采用Widrow-Hoff学习规则(一种近似最速下降法),即最小二乘法(Least Mean Square,LMS)算法来调整网络的权值和偏置值。
多层感知机(Multilayer Perceptron,MLP),也叫人工神经网络(ANN,ArtificialNeural Network),除了输入输出层,中间还可以有多个隐层。最简单的MLP只包含一个隐层,即三层的结构。
两个向量之间的向量运算包括向量加法、减法、数量积等等。以向量a(x,y)和向量b(x`,y`)为例,对以上向量运算方法进行说明:
向量的加法:a+b=(x+x`,y+y`);
向量的减法:a-b=(x-x`,y-y`);
向量的数量积:a·b=x·x`+y·y`。
Transformer是一种seq2seq模型。深度双向transformer编码器是一种预训练的语言模型,即Bidirectional Encoder Representations from Transformers,Bert,稳健优化的Bert(Robustly optimized BERT approach,RoBERTa)。
以下将结合实施例和附图对本申请提供的词语提取方法进行详细说明。如图3所示为本申请一实施例提供的词语提取方法的流程示意图。在该实施例中,以该方法应用于个人计算机为例。该方法包括S201-S205,其中:
S201.个人计算机获取多个第一文本数据。
其中,第一文本数据与目标对象关联。目标对象可以是事件或物体等等。示例性的,目标对象具体可以是一条新闻消息,一种产品(如电子产品、车辆、杯子),一部影视剧等等。第一文本数据可以是与该目标对象相关的一些文本数据。例如,目标对象是一种产品,第一文本数据具体可以是用户对该产品的观点、看法、使用体验、产品的优点、缺点等等。例如产品为某品牌的一款智能手机,第一文本数据可以包括:“外观好看”,“颜色与宣传一致,没有色差”,“信号不好”,“手机充电快”,“续航不错”,“声音小”等等。又如,目标对象是一部影视剧,第一文本数据具体可以是用户对该影视剧的评论看法。例如对于一部最新上映的影视剧,第一文本数据可以包括:“电影好看”,“特效做的好”,“演员演技好”,“配音不好听”,“逻辑有问题”,“故事情节老套”等等。
在一些实施例中,第一文本数据的数据来源可以包括互联网搜索引擎、社交媒体软件、销售平台、新闻软件、视频软件、期刊报纸、产品售后相关部门等等。进一步的,个人计算机获取第一文本数据,具体可以是个人计算机直接通过互联网从搜索引擎服务器、各第三方软件(包括社交媒体软件、新闻软件和视频软件等)对应服务器以及销售平台对应服务器的数据库等获取。或者,个人计算机可以定时从其它服务器的数据库获取第一文本数据,以及获取用户输入的第一文本数据(如来自调查问卷、期刊报纸等的第一文本数据),并将其存储至本地数据库。然后,个人计算机可以每隔预设时间段从本地数据库获取这些第一文本数据执行词语提取方法。
在不同时间段内,大众对同一个目标对象的评价、评论内容可能不相同。例如,对于一个产品,在该产品未发布的时间段内,用户对于产品的评论内容可能更多的是评价产品外观;而在产品发布一段时间之后,用户对于该产品的评论内容可能涉及到产品使用体验。又如,在影视剧上映前,用户对于影视剧的评价可能在于演员阵容、宣传片段展示的故事情节片段;而在影视剧上映之后,用户对于该影视剧的评价可能涉及到演员演技、故事情节以及制作效果等等。由此可知,在不同时间段内可以获取到与目标对象关联的不同的第一文本数据。因此,个人计算机可以每隔一段时间,对收集到的第一文本数据进行词语提取。在一些实施例中,上述S201具体可以是个人计算机获取预设历史时间段内的第一文本数据。其中,预设历史时间段可以预先设定,也可以由用户输入。这样,每隔一段时间对于与目标对象关联的第一文本数据进行分析,可以持续关注大众在不同时间段内对目标对象的评论内容。
在一些实施例中,个人计算机可以响应于第一事件获取第一文本数据。其中,第一事件用于指示触发进行词语提取。示例性的,个人计算机可以响应于用户的指令进行词语提取。在该实施例中,第一事件具体可以是指接收到词语提取指令。在另一些实施例中,个人计算机也可以是定时执行词语提取方法。在该实施例中,第一事件也可以是个人计算机检测到当前时间到达预设时间。该预设时间可以根据实际情况预先设定。
第一文本数据可以仅包括用于评价目标对象的文本数据,然而在从其他软件服务器、销售平台对应服务器等获取的文本数据,可能是包含其他文本数据的。以个人计算机从社交媒体软件的服务器获取与目标对象关联的第一文本数据为例,个人计算机可以先从社交媒体软件服务器筛选出的预目标对象关联的评论数据、弹幕数据、博文内容片段等,再从获取到的上述文本数据中进行过滤,筛选出文本数据中真正用于对于目标对象进行评价的文本数据,删除其中的无关词语。
在一些实施例中,上述S201具体包括:个人计算机获多个第二文本数据,并判断多个第二文本数据中每个第二文本数据的数据来源。然后个人计算机根据每个第二文本数据的数据来源,分别对每个第二文本数据进行文本数据过滤,得到第一文本数据。其中,不同数据来源对应的文本数据过滤方法可能是不同的。
在一些实施例中,对第二文本数据进行过滤,具体可以包括删除第二文本数据中的超文本标记语言(HyperText Mark-up Language,HTML)标签、异常字符以及电子邮件地址等等。
在一些实施例中,个人计算机对第二文本数据进行文本数据过滤,具体可以通过正则表达式实现。不同的数据来源对应设置的正则表达式不同。
例如,以数据来源是社交媒体软件为例,第二文本数据可以包括如:“@网友M评论:手机屏幕好看,续航不错”,“@网友N回复:信号不好”。该两个第二文本数据中“屏幕好看,续航不错”,以及“信号不好”才是其中真正用于评价目标对象的内容。而在该部分数据内容之前,还包括其他文本数据“@网友M评论:”,“@网友N回复:”等与目标对象没有关联的文本数据。通过分析可知,上述两种情况的其他文本数据均以“@”开头,以“:”结尾。在该示例中,正则表达式可以设置为以“@”开头,以“:”结尾,通过该正则表达式可以筛选出上述其他数据。进一步的,个人计算机在对第二文本数据进行文本数据过滤时,将符合正则表达式的文本数据删除,仅保留正则表达式以外的文本数据,作为第一文本数据,即“屏幕好看,续航不错”,以及“信号不好”。
又如,以数据来源是产品售后数据库为例,这类数据库中与目标对象关联的第二文本数据,具体可以包括如:“客户对产品的评价与建议:充电快”。在该示例中,正则表达式可以设置为“客户对产品的评价与建议:”。个人计算机在对第二文本数据进行文本数据过滤时,将符合对应正则表达式的文本数据删除,仅保留正则表达式以外的文本数据,作为第一文本数据。应理解,上述对不同数据来源设置的正则表达式的设置仅为示例,在其他实施例中,不同数据来源的正则表达式也可以设置为其他格式。
在本申请实施例提供的技术方案中,通过对获取的文本数据进行过滤,可以删除掉其中对于目标对象的评价、讨论内容无关的文本数据。这样,过滤掉不是候选词语的文本数据,可以提高从第一文本数据中提取词语的准确性,同时减少个人计算机对非候选词语进行处理导致的资源浪费。
进一步的,与目标对象关联的文本数据可以划分为不同的情绪类别。其中,情绪类别可以包括好评、中评和差评等等。因此,在一些实施例中,上述S201具体可以包括:个人计算机获取第四文本数据,对第四文本数据进行情绪分类,获得其中一种情绪分类的第一文本数据。可以理解的,如果个人计算机获取的第一文本数据对应的情绪类别为第一情绪类别(如好评),则针对该部分第一文本数据提取的候选词语,是与第一情绪类别对应的候选词语;如“屏幕好看”、“续航不错”以及“充电快”等等。如果个人计算机获取的第一文本数据的情绪类别是第二情绪类别(如差评),那么针对这部分第一文本数据提取出来的候选词语,均为该目标对象与第二情绪类别对应的候选词语;如“信号不好”、“通话断断续续”、“发热”等等。在本申请实施例提供的技术方案中,为第一文本数据设置对应的情绪类别,便于提取针对情绪类别对应的候选词语,在搜索候选词语的过程中可以针对不同情绪类别进行搜索,也可以更好的向相关人员展示不同情绪类别的候选词语。
S202.个人计算机基于第一预设神经网络模型提取多个第一文本数据中每两个字符之间的字符关系向量。
其中,字符关系向量用于表征两个字符之间的字符关系类型。字符关系类型表示的是两个字符之间的关系。在一些实施例中,字符关系类型包括:两个字符属于同一属性词语;两个字符属于同一观点词语;两个字符中的一个字符属于属性词语、另一个字符属于观点词语,且两个字符属于同一个候选词语;以及,两个字符之间不属于以上三种关系。
第一预设神经网络模型是基于第一初始神经网络模型训练确定的。具体的,个人计算机可以基于样本文本数据对第一初始神经网络模型进行训练,确定第一预设神经网络模型。第一预设神经网络模型用于从多个文本数据中提取每两个字符之间的字符关系向量。
其中,属性词语可以是指反映目标对象的特性的修饰词。示例性的,属性词语可以包括:“屏幕”、“续航”、“信号”、“充电”,以及“演技”、“特效”、“配音”和“故事情节”等等。观点词语可以是指对目标对象的看法。示例性的,观点词语可以包括:“好看”、“不错”、“不好”、“快”,以及“好”、“不好听”和“老套”等等。
候选词语是指该词语可能是高频词语。在一些实施例中,一个候选词语可以包括属性词语和观点词语。如果两个字符中的一个字符属于属性词语而另一个词语属于观点词语,并且该两个字符分别所属的两个词语属于同一个候选词语,则表示该两个字符之间的字符关系类型是上述四种字符关系类型中的一种。
示例性的,以“屏幕好看”和“续航不错”分别是两个候选词语为例,且其中的“屏幕”和“续航”是属性词语,“好看”和“不错”属于观点词语。其中的“屏”和“幕”这两个字符之间的字符关系类型为属于同一个属性词语。“好”和“看”这两个字符之间的字符关系类型为属于同一个观点词语。“屏”和“好”这两个字符之间的字符关系类型为一个字符属于属性词语,另一个字符属于观点词语,且两个字符属于同一个候选词语。而由于“续航好看”并不属于一个候选词语,因此,“续”和“好”这两个字符之间的字符关系类型为不属于以上三种关系。
在一些实施例中,在个人计算机提取得到多个第一文本数据中每两个字符之间的字符关系向量之后,个人计算机可以基于字符关系向量确定该字符关系向量所对应表征的两个字符之间的字符关系类型。其中,个人计算机基于字符关系向量确定两个字符之间的字符关系类型的具体过程,将在后实施例中详细描述。
在一些实施例中,上述四种字符关系类型,可以用四种不同的标签进行表示,如表1所示,其中wi,wj分别表示上述多个第一文本数据中的第i个字符以及第j个字符。
表1
在一些实施例中,上述S202具体可以是个人计算机基于第一预设神经网络模型提取所有第一文本数据中包含的所有字符之间的字符关系向量。
在另一些实施例中,上述S202也可以是个人计算机针对多个第一文本数据中的每个第一文本数据,分别提取其中包含的字符之间的字符关系向量。这样,可以确保提取出来的候选词语,是该多个第一文本数据中出现过的词语。
对多个第一文本数据提取其中各字符之间的关系,并以字符关系向量来表示,具体可以是通过对多个第一文本数据进行特征提取,然后基于提取得到的特征来计算得到各字符之间的字符关系向量。在一些实施例中,如图4所示,上述S202具体可以包括S301-S304,其中:
S301.个人计算机对多个第一文本数据进行特征提取,得到多个第一文本数据中各字符的语义特征向量。
文本数据的特征具体可以包括:词语的数量、词频、句子的数量、每个词的长度、标点符号的数量、词汇属性特征、词语语义特征等等。其中,文本的语义特征,可以看作是文本数据所对应的现实世界中的事物所代表的概念的含义,以及这些含义之间的关系,是该文本数据在某个领域上的解释和逻辑表示。进一步的,对文本数据进行特征提取,即对提取文本数据提取上述特征。在本申请实施例中,主要是对第一文本数据提取其中各字符的语义特征。
对文本数据进行特征提取,具体可以通过统计、词频逆文档频率(TermFrequency-Inverse Document Frequency,TF-IDF),以及通过神经网络模型如用于产生词向量的模型(word2vec)等方法实现。
在一些实施例中,如图5所示,上述S301具体可以包括S401-S404,其中:
S401.个人计算机对多个第一文本数据进行编码,得到第一矩阵。
其中,第一矩阵中包括多个第一文本数据对应的编码信息。在一些实施例中,第一矩阵的每一行分别表示多个第一文本数据中每一个字符对应的编码信息。
在一个句子里,各个词的前后关系对这个句子的意义是有影响的,这种影响不仅体现在语法方面,而且还体现在语义方面。因此,对于第一文本数据进行编码时,需考虑各字符在第一文本数据中的位置信息。在一些实施例中,上述S401具体包括对第一文本数据中各字符进行位置编码,得到的位置编码矩阵记为第三矩阵。
在一些实施例中,位置编码包括绝对位置编码和相对位置编码。其中,绝对位置编码具体可以是对第一文本数据中不同的位置的字符随机初始化一个位置向量,然后将初始化的位置向量作为参数进行训练。示例性的,绝对位置编码可以使用学习位置嵌入(Learned Positional Embedding)。在一些实施例中,相对位置编码的方法具体可以包括正弦位置编码(Sinusoidal Position Encoding),以及复杂嵌入(Complex embedding)。其中,Sinusoidal Position Encoding的具体方法包括使用正余弦函数表示绝对位置,通过两者乘积得到相对位置。而Complex embedding使用了复数域的连续函数来编码词在不同位置的表示。
在一些实施例中,对多个第一文本数据进行位置编码得到的第三矩阵,其中每一行分别表示多个第一文本数据中的一个字符对应的位置向量。示例性的,对多个第一文本数据进行位置编码具体可以包括:获取每个字符在所处的第一文本数据中的位置以及预设位置编码矩阵。以第a个字符在所处的第一文本数据中的位置作为行索引,在预设位置编码矩阵中索引到对应行的向量,将该向量作为该第a个字符对应的位置编码。
其中,预设位置编码矩阵是对初始位置编码矩阵进行训练确定的。其中,初始位置编码矩阵可以在训练之前随机初始化得到。
在另一些实施例中,对多个第一文本数据中的各字符用编码进行表示,还需要考虑每个字符在第一文本数据中的语义信息。进一步的,上述S401还包括:对多个第一文本数据中各字符进行语义编码,得到的语义编码记为第四矩阵。
进一步的,个人计算机对多个第一文本数据中的各字符进行语义编码,具体可以是基于预设语义编码矩阵实现的。其中,预设语义编码矩阵可以是对初始语义编码矩阵进行训练确定的。其中的初始语义编码矩阵可以在训练之前随机初始化得到。示例性的,上述对多个第一文本数据中各字符进行语义编码具体可以包括:基于预设映射关系,确定多个第一文本数据中每个字符对应的数字编码。以第b个字符对应的数字编码作为行索引,在预设语义编码矩阵中索引对应行的向量。将索引到的向量确定为该第b个字符对应的语义编码。其中,预设映射关系是预先设定的,其中包含多个字符对应的数字编码,相同字符对应同一个数字编码。
在一些实施例中,对第一文本数据的各字符进行语义编码得到的第四矩阵,其中每一行分别表示第一文本数据中的一个字符对应的语义编码向量。
进一步的,在一些实施例中,上述S401也可以包括对第一文本数据进行位置编码得到第三矩阵,以及对第一文本数据进行语义编码得到第四矩阵。然后,个人计算机对第三矩阵和第四矩阵进行矩阵运算,得到的矩阵记为第一矩阵。示例性的,对第三矩阵和第四矩阵进行矩阵运算,具体可以是对第三矩阵和第四矩阵求和,得到第一矩阵。在另一些实施例中,对第三矩阵和第四矩阵也可以是进行点积运算得到第一矩阵。在其他实施例中,对于第三矩阵和第四矩阵之间的矩阵运算,也可以是其它方式。
在本申请实施例提供的技术方案中,对文本数据进行特征提取时,结合了各字符在第一文本数据中的位置信息和语义编码信息,可以使提取的特征更符合字符在文本数据中的含义。在基于提取的特征查找并提取出第一文本数据中的候选词语时,可以提高词语提取的准确性。
S402.个人计算机将第一矩阵输入预设自注意力机制模块。
预设自注意力机制模块将会对输入的第一矩阵进行特征提取,得到用于表征多个第一文本数据的特征矩阵。
S403.个人计算机获取预设自注意力机制模块输出的第二矩阵。
在一些实施例中,预设自注意力机制模块对第一矩阵的处理具体可以包括:获取第一权重、第二权重和第三权重;其中,第一权重包括与查询(query)对应的权重;第二权重包括与键(key)对应的权重;第三权重包括与值(value)对应的权重。根据第一矩阵、第一权重生成与第一矩阵对应的query;根据第一矩阵、第二权重生成与第一矩阵对应的key;根据第一矩阵、第三权重生成与第一矩阵对应的value。然后,将第一矩阵对应的query与第一矩阵对应的key经过注意力评分函数,得到第一矩阵对那个的注意力得分。然后对注意力得分经过softmax函数,得到注意力权重。然后,利用注意力权重对第一矩阵对应的value进行加权求和,得到预设自注意力机制模块的输出结果。在本申请实施例中,将预设自注意力机制模块的输出结果记为第二矩阵。
在一些实施例中,第二矩阵中包含多个第一文本数据中各字符对应的字符向量。具体的,第二矩阵中的每一行分别表示多个第一文本数据中每一个字符对应的向量。
在一些实施例中,预设自注意力机制模块是基于初始自注意力机制模块进行训练之后确定的。具体的,上述实施例中的第一权重、第二权重以及第三权重,都可以在上述训练过程中确定。
由于自注意力机制的特点在于无视词之间的距离直接计算依赖关系,因此,通过自注意力机制能够学习一个句子的内部结构,可以捕获文本数据中字符之间的长距离依赖关系。
S404.个人计算机基于第二预设神经网络模型对第二矩阵进行特征提取,得到第一文本数据中各字符的语义特征向量。
在一些实施例中,基于第二预设神经网络模型具体可以是基于第二初始神经网络模型进行训练得到的。在一些实施例中,第二初始神经网络模型可以是线性神经网络或者多层感知机。进一步的,可以基于样本文本数据对第二初始神经网络模型进行训练。基于样本文本数据对第二初始神经网络模型进行训练确定预设神经网络的具体过程,可以参照相关技术中的描述,在本申请实施例中不予赘述。
如图7所示为一些实施例中,第二预设神经网络模型的结构示意图。第二预设神经网络模型对输入的m*n的第二矩阵,输出m*n的矩阵,该输出的矩阵中包含第一文本数据中各字符的语义特征向量。在一些实施例中,第二预设神经网络模型输出的矩阵中每一行表示多个第一文本数据中的一个字符所对应的语义特征向量,该语义特征向量为d维特征向量。
在本申请实施例中提供的技术方案中,使用自注意力机制模块和第二预设神经网络模块对第一文本数据进行特征提取,由于self-attention的特点在于无视词之间的距离直接计算依赖关系,能够学习一个句子的内部结构,可以捕获文本数据中字符之间的长距离依赖关系,且实现较为简单,可以并行计算。而神经网络模块可以提取文本数据中深层的语义信息。这样,可以提取到更丰富的文本数据的语义特征。
S302.个人计算机分别对多个第一文本数据中任意两个字符的语义特征向量进行向量运算,得到多个第一文本数据中的每两个字符对应的第一向量。
个人计算机对每两个字符的语义特征向量进行向量运算,具体可以是个人计算机对每两个字符的语义特征向量求和运算、点积运算或者拼接运算等等,得到对应两个字符对应的第一向量。以“屏幕”中包含的两个字符为例,在上述S301中,分别提取到“屏”对应的第一语义特征向量和“幕”对应的第二语义特征向量。对第一语义特征向量和第二语义特征向量进行向量运算,可以得到“屏”和“幕”对应的第一向量。其中,向量之间的向量运算可以参照上述对向量运算的说明,在此不予赘述。
在一些实施例中,以对两个字符的语义特征向量进行向量拼接为例,对“屏”对应的第一语义特征向量和“幕”对应的第二语义特征向量进行向量拼接运算,得到“屏”和“幕”这两个字符对应的第一向量。如“屏”对应的第一语义特征向量为[1,2,3], “幕”对应的第二语义特征向量为[4,5,6],则可以得到“屏”和“幕”对应的第一向量[1,2,3,4,5,6]。可以理解的,该第一向量中包括了“屏”对应的第一语义特征向量和“幕”对应的第二语义特征向量。
S303.个人计算机获取预设字符关系权重矩阵。
其中,预设字符关系权重矩阵是基于初始字符关系权重矩阵经过训练确定的。在一些实施例中,预设字符关系权重矩阵包括x行y列;其中,x表示第一向量的维度,y为4(字符关系类型包括4种)。示例性的,上述示例中“屏”和“幕”对应的第一向量[1,2,3,4,5,6]的维度为6,因此,预设关系权重矩阵可以设置为6行4列。其中,初始字符关系权重矩阵可以在训练前随机初始化得到。
S304.个人计算机分别基于各第一向量与预设字符关系权重矩阵,确定多个第一文本数据中每两个字符之间的字符关系向量。
在一些实施例中,上述S304具体可以包括:将第一向量与预设字符关系权重矩阵相乘,通过softmax函数将得到的乘积转换为对应的字符关系向量。其中,每一个字符关系向量分别用于表征对应的两个字符之间属于四种字符关系类型的概率。示例性的,上述示例种,“屏”和“幕”对应的第一向量[1,2,3,4,5,6],与预设字符关系权重相乘之后得到一个四维向量如[4,3,2,1],对该四维向量经过softmax函数转换为字符关系向量,可以得到如[0.4, 0.3, 0.2, 0.1]。其中,0.4表示“屏”和“幕”之间的字符关系类型为第一字符关系类型的概率;0.3表示“屏”和“幕”之间的字符关系类型为第二字符关系类型的概率;0.2表示“屏”和“幕”之间的字符关系类型为第三字符关系类型的概率;以及,0.1表示“屏”和“幕”之间的字符关系类型为第四字符关系类型的概率。其中,其中,第一字符关系类型用于指示两个字符属于同一属性词语。第二字符关系类型用于指示两个字符属于同一观点词语。第三字符关系类型用于指示两个字符中的一个字符属于属性词语、另一个字符属于观点词语、且两个字符属于同一个候选词语。第四字符关系类型用于指示两个字符之间的关系不属于以上三种关系类型。需要说明的是,上述字符关系向量均为举例,并不代表实际情况。
进一步的,根据上述字符关系向量可以确定对应的两个字符属于哪一种字符关系类型。在一些实施例中,可以将字符关系向量中最大概率对应的字符关系类型,确定为对应两个字符之间的字符关系类型。以上述示例中“屏”和“幕”对应的字符关系向量[0.4, 0.3,0.2, 0.1]为例,可以将其中“0.4”所对应的字符关系类型,确定为“屏”和“幕”之间的字符关系类型,即第一字符关系类型。
在本申请实施例提供的技术方案中,先对多个第一文本数据提取语义特征向量,并基于语义特征向量以及预设字符关系权重矩阵,计算得到多个第一文本数据中每两个字符之间的字符关系向量。由于预设字符关系权重矩阵是经过大量样本数据训练确定的,学习了大量样本数据中字符与字符之间的关系,对于多个第一文本数据中字符,可以更准确的预测每两个字符之间的字符关系类型。
S203.个人计算机根据得到的字符关系向量,查找多个第一文本数据中包含的属性词语和观点词语,并确定每个属性词语和每个观点词语之间的词语关系类型。
由上述实施例的说明可知,每两个字符之间的字符关系向量用于表征该两个字符之间的字符关系类型。因此,在通过S202确定多个第一文本数据中每两个字符之间的字符关系向量之后,根据每两个字符之间的字符关系向量,可以确定多个第一文本数据中包含的属性词语和观点词语。
如果相邻的多个字符中任意两个字符之间的字符关系向量表征的字符关系类型都为属于同一属性词语,那么可以确定该相邻的多个字符可以组成一个属性词语。以“屏幕好看”为例,如果“屏”和“幕”这两个字符中任意两个字符的字符关系向量均表征其对应的两个字符是属于同一属性词语,具体的,“屏”和“屏”,“屏”和“幕”,以及“幕”和“幕”两个字符之间的字符关系向量均表征上述三组字符里的两个字符均属于同一属性词语,那么可以确定相邻字符“屏”和“幕”属于同一属性词语。并且“幕”和“好”这两个字符之间的字符关系向量表征其不属于同一个属性词语,因此,个人计算机仅将“屏”和“幕”组合得到一个属性词语:“屏幕”。
在一些实施例中,上述基于字符关系向量查找多个第一文本数据中包含的属性词语和观点词语,可以通过一个字对网格的形式表示多个第一文本数据中每两个字符之间的字符关系向量。
如图8所示,上述S203具体可以包括S501-S503,其中:
S501.个人计算机生成目标字对网格。
其中,目标字对网格包括n行n列,n为多个第一文本数据中的字符的个数,每行对应多个第一文本数据中的一个字符,每列对应多个第一文本数据中的一个字符。
在一些实施例中,个人计算机可以针对多个第一文本数据中包含的所有字符创建目标字对网格。
在另一些实施例中,如图6中的a所示,个人计算机基于一个第一文本数据包含的字符个数n,创建n行n列的目标字对网格。如果存在k个第一文本数据,个人计算机可以创建k个目标字对网格。进一步的,在一些实施例中,个人计算机可以同时对该k个目标字对网格进行词语搜索和提取。这样,可以确保提取出的候选词语是多个第一文本数据中出现的词语。
S502.个人计算机将字符关系向量rij填充至目标字对网格的第i行第j列。
其中,字符关系向量rij是多个第一文本数据中第i个字符与第j个字符之间的字符关系向量;i和j在{1,2,……,n}中取值。
以第一文本数据为“屏幕好看,续航不错。”为例,S502中将每两个字符关系向量填充到创建的目标字对网格中。具体的,如图6中的b所示,将a11填充至目标字对网格中的第1行第1列对应位置,将a12填充至目标字对网格的第1行第2列对应位置;以此类推。需要说明的是,图6中的b所示的“1”、“2”、“3”和“4”分别表示四种不同的字符关系向量。
将多个第一文本数据中每两个字符之间的字符关系向量填充至字对网格之后,可以得到如图6中的b所示的10*10的目标字对网格。
结合图6中的b所示的目标字对网格可知,目标字对网格中以对角线a为中心,上下两个三角网格是对称的。因此,在一些实施例中,在上述S402之后,个人计算机还可以删除字对网格中对称的部分网格,仅保留上半三角网格或者下半三角网格,如图6中的c或d所示。
S503.个人计算机根据填充了字符关系向量rij的目标字对网格,确定每个属性词语和每个观点词语之间的词语关系类型。
词语与词语之间的关系类型可以包括:两个词语属于同一个词语类型;两个词语不属于同一种词语类型,且该两个词语属于同一个候选词语;以及,两个词语不属于同一种词语类型,且该两个词语不属于同一个候选词语。在本申请实施例中,个人计算机只需要确定属性词语和观点词语之间的词语关系类型,因此,属性词语和观点词语的词语类型包括:两个词语是否属于同一候选词语。
在本申请实施例提供的技术方案中,将多个第一文本数据中每两个字符的字符关系向量以目标字对网格的形式呈现,便于个人计算机查找多个第一文本数据中包含的属性词语和观点词语,以及获取每个属性词语和每个观点词语之间的词语关系类型。
在一些实施例中,在得到如图6中的b所示的目标字对网格之后,可知该目标字对网格中每一个网格中填充的是多个第一文本数据中的每两个字符之间的字符关系向量。结合上述实施例的说明可知,每两个字符之间的字符关系向量可以用于表征该两个字符之间的字符关系类型。字符关系类型包括4种。进一步的,为了便于根据字符关系向量表征的字符关系类型查找多个第一文本数据中的属性词语和观点词语,个人计算机还可以将上述S402得到的目标字对网格中填充的字符关系向量替换为字符关系类型。如图9所示,在本申请实施例中,以个人计算机仅保留目标字对网格的上半三角网格为例,且以上述表1所示的标签A、O、P和N分别表示字符之间的四种字符关系类型。
进一步的,在一些实施例中,如图10所示,上述S503具体可以包括S601-S603,其中:
S601.个人计算机将填充了字符关系向量rij的目标字对网格中、字符关系类型均为第一字符关系类型的相邻字符拼接,得到属性词语。
其中,第一字符关系类型用于指示两个字符属于同一属性词语。
由上述实施例的说明可知,两个字符之间的字符关系向量用于表征该两个字符之间的字符关系类型。如果相邻字符中两两字符之间的字符关系类型都是属于同一属性词语或者同一观点词语,那么可以表示该相邻字符是属于同一属性词语或者同一观点词语。
以图9所示的“屏幕好看”为例,如果“屏”和“幕”这两个字符中任意两个字符的字符关系类型属于同一属性词语,具体的,“屏”和“屏”,“屏”和“幕”,以及“幕”和“幕”两个字符之间的字符关系类型均表征上述三组字符里的两个字符均属于同一属性词语,那么可以确定相邻字符“屏”和“幕”属于同一属性词语。并且“幕”和“好”这两个相邻字符之间的字符关系向量表征其不属于同一个属性词语,因此,个人计算机仅将“屏”和“幕”组合得到一个属性词语:“屏幕”。同理,个人计算机查找图9所示的目标字对网格之后,还可以组合“续”和“航”,得到属性词语“续航”。
S602.个人计算机将填充了字符关系向量rij的目标字对网格中、字符关系类型均为第二字符关系类型的相邻字符拼接,得到观点词语。
第二字符关系类型用于指示两个字符属于同一观点词语。
仍以图9所示的“屏幕好看”为例,如果“好”和“看”这两个字符中任意两个字符的字符关系类型属于同一观点词语,具体的,“好”和“好”,“好”和“看”,以及“看”和“看”两个字符之间的字符关系类型均表征上述三组字符里的两个字符均属于同一属性词语,那么可以确定相邻字符“好”和“看”属于同一观点词语。并且“幕”和“好”这两个相邻字符之间的字符关系向量表征其不属于同一个观点词语,因此,个人计算机仅将“好”和“看”组合得到一个属性词语:“好看”。同理,个人计算机查找图9所示的目标字对网格之后,还可以组合“不”和“错”,得到观点词语“不错”。
S603.个人计算机根据目标字对网格中、第二属性词语包含的每个字符与第二观点词语包含的每个字符之间的字符关系类型,确定第二属性词语和第二观点词语之间的词语关系类型。
其中,第二属性词语为目标字对网格中的任一个属性词语,第二观点词语为目标字对网格中的任一个观点词语。
如果第二属性词语中的每一个字符,与第二观点词语中的每一个字符之间的字符关系,都属于第三字符关系类型,那么则表示该第二属性词语和该第二观点词语之间的词语关系为属于同一候选词语。其中,第三字符关系类型表示两个字符中的一个字符属于属性词语、另一个字符属于观点词语,且两个字符属于同一候选词语。
在一些实施例中,个人计算机在提取多个第一文本数据中每两个字符之间的字符关系向量时,将会结合预设字符关系权重进行提取。而该预设字符关系权重是经过训练确定的,由于不同的词语包含的字符在不同的文本数据中表示的语义可能不同,不同的样本文本数据、不同的训练方法等等都有可能影响个人计算机训练确定的预设字符关系权重的准确性。即,个人计算机基于预设字符关系权重提取的多个第一文本数据中每两个字符之间的字符关系向量,可能不是完全准确的。为了避免因字符关系向量不准确导致确定的词语关系不准确的问题,可以在确定词语关系时,个人计算机可以每两个字符之间的字符关系向量为第三字符关系类型的数量大于预设数量阈值的第二属性词语与第二观点词语,判定为属于同一候选词语。
以图9所示的“续航不错”为例,“续航”是属性词语,“不错”是观点词语。个人计算机查找目标字对网格中“续航”和“不错”这两个词语分别包含的字符之间的字符关系类型,是否满足第三字符类型的数量大于预设阈值。“续”和“不”、“续”和“错”、“航”和“不”,以及“航”和“错”这四组字符之间的字符关系类型中,若属于第三字符关系类型的数量超过预设阈值,则个人计算机确定属性词语“续航”和观点词语“不错”之间的词语关系为属于同一候选词语。
在另一些实施例中,如果第二属性词语和第二观点词语分别包含的字符之间的字符关系类型为第三字符关系类型的数量小于或者等于预设数量阈值,则个人计算机判定第二属性词语和第二观点词语的词语类型不属于同一候选词语。
在本申请实施例提供的技术方案中,先在字对网格中搜索字符关系向量,确定第一文本数据中包含的属性词语和观点词语。应理解,多个第一文本数据中确定出的属性词语和观点词语可能都包括多个。然后再基于属性词语中包含字符与观点词语包含字符之间的字符关系向量,推断属性词语和观点词语之间的词语关系。这样,可以提高从多个第一文本数据中查找出的属性词语和观点词语的准确性。
S204.个人计算机判断词语关系类型表征第一属性词语和第一观点词语是否属于同一个候选词语。
其中,第一属性词语为多个第一文本数据中的任一个属性词语;第一观点词语为多个第一文本数据中的任一个观点词语。若第一属性词语和第一观点词语不属于同一个候选词语,则个人计算机对第一属性词语和第一观点词语不执行任何操作。若第一属性词语和第一观点词语属于同一候选词语,则个人计算机可以执行S205。
S205.个人计算机组合第一属性词语和第一观点词语,得到与目标对象关联的第一候选词语。
由上述实施例的说明可知,在S203中根据字符关系向量查找出多个第一文本数据中包含的属性词语和观点词语,并确定了每个属性词语和观点词语之间的词语关系。如果词语关系表征第一属性词语和第一观点词语属于同一候选词语,那么组合第一属性词语和第一观点词语即可得到一个候选词语。
在本申请实施例提供的技术方案中,通过第一预设神经网络模型提取文本数据中包含的字符关系向量,确定字符之间的字符关系类型。由于第一预设神经网络模型是经过大量样本数据训练确定的,学习了大量样本文本数据中字符与字符之间的关系,对多个第一文本数据可以提取可以得到更为准确的字符关系类型。然后再结合词语与词语中所包含的字符之间的字符关系类型,推断词语类型,以及词语与词语之间的词语关系。最后基于词语关系组合属性词语和观点词语,可以准确且快速的从多个第一文本数据中提取出候选词语。由此,对于多个第一文本数据中以前出现过和未出现过的候选词语,都可以通过本申请实施例提供的技术方案中的方法提取出来。不仅可以保证提取的候选词语的准确性,还可以保证从新的文本数据中提取出新的候选词语。进而个人计算机可以自动完成根据最新的数据更新候选词语的数据库,无需人工维护候选词语数据库,减少人工成本。
如果从多个第一文本数据中提取出历史记录中未存储的候选词语,那么可以将该候选词语存储到数据库中,以便后续对于该候选词语的出现频率进行关注。在一些实施例中,在上述S205之后,上述方法还包括:若数据库中未保存第一候选词语,则将第一候选词语存储至数据库。其中,数据库中保存有多个候选词语。
其中,数据库用于存储目标对象关联的候选词语。
进一步的,结合数据库中存储的候选词语,可以对指定时间段内各方数据中对目标对象的评价、讨论内容等数据中,筛选出高频词语,也就是热门词语。便于对目标对象的相关信息进行追踪和监控等。在一些实施例中,上述方法还包括:获取与目标对象关联的多个第三文本数据。统计数据库中保存的多个候选词语中每个候选词语在第三文本数据中的出现频率。然后,个人计算机将出现频率满足预设频率条件的第二候选词语,作为高频词语输出。
在一些实施例中,第三文本数据具体可以包括预设历史时间段内与目标对象关联的文本数据。
在一些实施例中,个人计算机筛选出的第二候选词语作为高频词语之后,可以在个人计算机显示屏上显示高频词语。进一步的,在确定数据库中多个候选词语在第三文本数据中出现频率之后,上述方法还可以结合出现频率以对应显示格式显示高频词语。示例性的,不同出现频率以不同的字体或不同字体大小进行显示。这样,便于用户可以快速查看不同词语对应的出现频率。
在一些实施例中,预设频率条件具体可以设置为出现频率是否大于预设频率阈值。在另一些实施例中,预设频率条件也可以设置为出现频率是否排在第三文本数据中所有候选词语的出现频率的前50%。其中前50%的数值可以根据实际情况设置为其它数值,如30%等等。
在本申请实施例提供的技术方案中,使用数据库中的候选词语筛选来自各方数据来源的数据中出现的、与目标对象关联的高频词语。便于用户对大众对于目标对象的评价、讨论内容的监控,必要时可以便于用户快速的做出响应。
在一些实施例中,上述词语提取方法可以通过一个包含多个模块的神经网络模型(第三预设神经网络模型)实现。其中,第三预设神经网络模型可以对第三初始神经网络模型进行训练确定。如图11所示为本申请一实施例中第三预设神经网络模型的结构示意图。在该实施例中,第三预设神经网络模型包括:文本清洗模块、文本编码模块、自注意力机制模块、神经网络模块(上述第二预设神经网络模型),以及词语搜索模块。
在上述词语提取方法之前,需要对第三初始神经网络模型进行训练,确定第三预设神经网络模型。在一些实施例中,对第三初始神经网络模型进行训练的具体过程可以包括:
获取第三初始神经网络模型。第三初始神经网络模型中的文本清洗模块包括预先设定的正则表达式,用于对输入的文本数据进行文本过滤和清洗。第三初始神经网络模型中的文本编码模块包括初始位置编码矩阵、初始语义编码矩阵,用于对经过文本过滤和清洗之后的文本数据进行编码。第三初始神经网络模型中的自注意力机制模块包括初始化的第一权重、第二权重和第三权重,以及预先设定的注意力评分函数。第三初始神经网络模型中的自注意力机制模块和神经网络模块,用于对编码后的文本数据进行特征提取。第三初始神经网络模型中的词语搜索模块包括初始字符关系权重矩阵。
获取样本文本数据,基于样本文本数据对第三初始神经网络模型进行训练,确定第三预设神经网络模型。具体的,训练过程确定了上述预设位置编码矩阵、预设语义编码矩阵、第一权重、第二权重和第三权重,以及预设字符关系权重矩阵。
在确定第三预设神经网络模型之后,即可使用第三预设神经网络模型对多个文本数据提取其中的候选词语,即上述词语提取方法。在一些实施例中,上述对第三初始神经网络模型进行训练确定第三预设神经网络模型的过程可以在与服务器中执行,获得的第三预设神经网络模型可以存储在服务器数据库中。进一步的,在个人计算机需要使用该第三预设神经网络模型进行词语提取时,向服务器风获取第三预设神经网络模型进行词语提取。或者,上述训练过程也可以在个人计算机中执行,训练确定的第三预设神经网络模型可以存储在个人计算机中。进一步的,在个人计算机需要进行词语提取时,直接使用个人计算机中存储的第三预设神经网络模型执行词语提取方法。
本申请实施例提供的技术方案中,通过训练的自注意力机制模块和神经网络模块对文本数据进行特征提取,可以丰富从文本数据中提取出的语义特征。同时,基于词语搜索方法,可以保证候选词语产生的准确性,以及确保可以从新的文本数据中提取历史数据中未出现过的候选词语。不需要大量的人工成本来维护候选词语的数据库,可以保证数据库实时更新,减少人工成本。
其中,如图12所示为本申请一实施例中提供的词语搜索模块的结构示意图。图12中还示出了在上述词语提取方法中词语搜索模块的处理流程。其中,w1、w2、...wn分别表示输入的文本数据中字符的语义特征向量。经过RoBERTa模块之后进一步提取输入文本数据中各字符的特征,即h1、h2、...hn。对h1、h2、...hn进行复制,创建目标字对网格。基于字符特征计算第i行第j列的字符关系向量rij。进一步的,在推理和解码的过程中,基于该字符关系向量rij可以确定目标字对网格第i行第j列所对应的两个字符之间的字符关系类型。
进一步的,使用候选词语的数据库可以对目标对象相关的事件发展动态进行追踪、分析,以及舆情监控。
本申请另一些实施例提供了一种计算机设备,该计算机设备可以是上述个人计算机。该计算机设备可以包括:存储器和一个或多个处理器。该存储器与处理器耦合。该存储器还用于存储计算机程序代码,该计算机程序代码包括计算机指令。当处理器执行计算机指令时,计算机设备可执行上述方法实施例中个人计算机执行的各个功能或者步骤。该计算机设备是个人计算机时,其结构可以参考图2所示的个人计算机10的结构。
本申请实施例还提供一种芯片系统,如图13所示,该芯片系统130包括至少一个处理器1301和至少一个接口电路1302。处理器1301和接口电路1302可通过线路互联。例如,接口电路1302可用于从其它装置(例如计算机设备的存储器)接收信号。又例如,接口电路1302可用于向其它装置(例如处理器1301)发送信号。示例性的,接口电路1302可读取存储器中存储的指令,并将该指令发送给处理器1301。当指令被处理器1301执行时,可使得计算机设备执行上述实施例中的各个步骤。当然,该芯片系统还可以包含其他分立器件,本申请实施例对此不作具体限定。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质包括计算机指令,当计算机指令在上述个人计算机上运行时,使得该个人计算机执行上述方法实施例中个人计算机执行的各个功能或者步骤。
本申请实施例还提供一种计算机程序产品,当计算机程序产品在个人计算机上运行时,使得计算机执行上述方法实施例中个人计算机执行的各个功能或者步骤。
通过以上实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (12)

1.一种词语提取方法,其特征在于,所述方法应用计算机设备,所述方法包括:
获取多个第一文本数据;所述多个第一文本数据与目标对象关联;
基于第一预设神经网络模型提取所述多个第一文本数据中每两个字符之间的字符关系向量;其中,所述字符关系向量用于表征两个字符之间的字符关系类型,所述字符关系类型包括以下四种:所述两个字符属于同一属性词语,所述两个字符属于同一观点词语,所述两个字符中的一个字符属于属性词语、另一个字符属于观点词语、且所述两个字符属于同一个候选词语,所述两个字符之间的关系不属于以上三种关系类型;所述第一预设神经网络模型是基于第一初始神经网络模型训练确定的;
根据得到的字符关系向量,查找所述多个第一文本数据中包含的属性词语和观点词语,并确定每个属性词语和每个观点词语之间的词语关系类型;其中,所述词语关系类型用于表征对应属性词语和观点词语是否属于同一个候选词语;
在词语关系类型表征第一属性词语和第一观点词语属于同一个候选词语时,组合所述第一属性词语和所述第一观点词语,得到与所述目标对象关联的第一候选词语;
其中,所述第一属性词语为所述多个第一文本数据中的任一个属性词语,所述第一观点词语为所述多个第一文本数据中的任一个观点词语;
所述根据得到的字符关系向量,查找所述多个第一文本数据中包含的属性词语和观点词语,并确定每个属性词语和每个观点词语之间的词语关系类型,包括:
生成目标字对网格,所述目标字对网格包括n行n列,n为所述多个第一文本数据中的字符的个数,每行对应所述多个第一文本数据中的一个字符,每列对应所述多个第一文本数据中的一个字符;
将字符关系向量rij填充至所述目标字对网格的第i行第j列;其中,所述字符关系向量rij是所述多个第一文本数据中第i个字符与第j个字符之间的字符关系向量;i和j在{1,2,……,n}中取值;
根据填充了所述字符关系向量rij的目标字对网格,查找所述多个第一文本数据中包含的属性词语和观点词语,并确定每个属性词语和每个观点词语之间的词语关系类型。
2.根据权利要求1所述的方法,其特征在于,所述根据填充了所述字符关系向量rij的目标字对网格,查找所述多个第一文本数据中包含的属性词语和观点词语,并确定每个属性词语和每个观点词语之间的词语关系类型,包括:
将填充了所述字符关系向量rij的目标字对网格中、所述字符关系类型均为第一字符关系类型的相邻字符拼接,得到所述属性词语;所述第一字符关系类型用于指示两个字符属于同一属性词语;
将填充了所述字符关系向量rij的目标字对网格中、所述字符关系类型均为第二字符关系类型的连续相邻字符拼接,得到所述观点词语;所述第二字符关系类型用于指示两个字符属于同一观点词语;
根据所述目标字对网格中、第二属性词语包含的每个字符与第二观点词语包含的每个字符之间的字符关系类型,确定所述第二属性词语和所述第二观点词语之间的词语关系类型;
其中,所述第二属性词语为所述目标字对网格中的任一个属性词语,所述第二观点词语为所述目标字对网格中的任一个观点词语。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标字对网格中、第二属性词语包含的每个字符与第二观点词语包含的每个字符之间的字符关系类型,确定所述第二属性词语和所述第二观点词语之间的词语关系类型,包括:
在所述第二属性词语与所述第二观点词语分别所包含的字符之间的字符关系类型为第三字符关系类型的数量大于预设数量阈值时,确定所述第二属性词语和所述第二观点词语之间的词语关系类型属于同一候选词语;所述第三字符关系类型用于指示两个字符中的一个字符属于属性词语、另一个字符属于观点词语、且所述两个字符属于同一个候选词语;
在所述第二属性词语与所述第二观点词语分别所包含的字符之间的字符关系类型为第三字符关系类型的数量小于或者等于所述预设数量阈值时,确定所述第二属性词语和所述第一观点词语之间的词语关系类型不属于同一候选词语。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述基于第一预设神经网络模型提取所述多个第一文本数据中每两个字符之间的字符关系向量,包括:
对所述多个第一文本数据进行特征提取,得到所述多个第一文本数据中各字符的语义特征向量;其中,所述语义特征向量用于表征各字符在所述多个第一文本数据中的词语含义;
分别对所述多个第一文本数据中任意两个字符的语义特征向量进行向量运算,得到所述多个第一文本数据中的每两个字符对应的第一向量;
获取预设字符关系权重矩阵;所述预设字符关系权重矩阵是基于初始字符关系权重矩阵经过训练确定的;
分别基于各所述第一向量与所述预设字符关系权重矩阵,确定所述多个第一文本数据中每两个字符之间的字符关系向量。
5.根据权利要求4所述的方法,其特征在于,所述对所述多个第一文本数据进行特征提取,得到所述多个第一文本数据中各字符的语义特征向量,包括:
对所述多个第一文本数据进行编码,得到第一矩阵;
将所述第一矩阵输入预设自注意力机制模块;所述预设自注意力机制模块是基于初始自注意力机制模块训练确定的;
获取所述预设自注意力机制模块输出的第二矩阵;所述第二矩阵中包含所述多个第一文本数据中每个字符对应的字符向量;
基于第二预设神经网络模型对所述第二矩阵进行特征提取,得到所述多个第一文本数据中各字符的语义特征向量;所述第二预设神经网络模型是基于第二初始神经网络模型进行训练确定的;所述初始神经网络包括线性神经网络或多层感知机。
6.根据权利要求5所述的方法,其特征在于,所述对所述多个第一文本数据进行编码,得到第一矩阵,包括:
基于预设位置编码矩阵,对所述多个第一文本数据进行位置编码得到第三矩阵;所述预设位置编码矩阵是对初始位置编码矩阵训练确定的;
基于预设语义编码矩阵,对所述多个第一文本数据进行语义编码得到第四矩阵;所述预设语义编码矩阵是对初始语义编码矩阵训练确定的;
对所述第三矩阵和所述第四矩阵进行矩阵运算,得到所述第一矩阵。
7.根据权利要求1-3中任一项所述的方法,其特征在于,所述获取多个第一文本数据,包括:
获取与所述目标对象关联的多个第二文本数据;
判断所述多个第二文本数据中每个第二文本数据的数据来源;
根据所述每个第二文本数据的数据来源,分别对所述每个第二文本数据进行文本数据过滤,得到与所述目标对象关联的所述多个第一文本数据。
8.根据权利要求7所述的方法,其特征在于,所述获取与所述目标对象关联的多个第二文本数据,包括:
从搜索引擎对应服务器、销售平台对应服务器、第三方软件对应服务器或者本地数据库获取所述多个第二文本数据。
9.根据权利要求1-3中任一项所述的方法,其特征在于,在所述组合所述第一属性词语和所述第一观点词语,得到与所述目标对象关联的第一候选词语之后,所述方法还包括:
若数据库中未保存所述第一候选词语,则将所述第一候选词语存储至所述数据库;
其中,所述数据库中保存有多个候选词语。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
获取与所述目标对象关联的多个第三文本数据;
统计所述数据库中保存的多个候选词语中每个候选词语在所述第三文本数据中的出现频率;
将所述出现频率满足预设频率条件的第二候选词语,作为高频词语输出。
11.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器;所述存储器中存储有计算机程序代码,所述计算机程序代码包括计算机指令,当所述计算机指令被所述处理器执行时,使得所述计算机设备执行如权利要求1-10中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在计算机设备上运行时,使得所述计算机设备执行如权利要求1-10中任一项所述的方法。
CN202211439921.9A 2022-11-17 2022-11-17 一种词语提取方法及计算机设备 Active CN115496039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211439921.9A CN115496039B (zh) 2022-11-17 2022-11-17 一种词语提取方法及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211439921.9A CN115496039B (zh) 2022-11-17 2022-11-17 一种词语提取方法及计算机设备

Publications (2)

Publication Number Publication Date
CN115496039A CN115496039A (zh) 2022-12-20
CN115496039B true CN115496039B (zh) 2023-05-12

Family

ID=85116066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211439921.9A Active CN115496039B (zh) 2022-11-17 2022-11-17 一种词语提取方法及计算机设备

Country Status (1)

Country Link
CN (1) CN115496039B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022134575A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 业务关键词的提取方法、装置、设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000040124A (ja) * 1998-07-21 2000-02-08 Brother Ind Ltd 文字認識装置および記憶媒体
CN110162594B (zh) * 2019-01-04 2022-12-27 腾讯科技(深圳)有限公司 文本数据的观点生成方法、装置及电子设备
CN111259661B (zh) * 2020-02-11 2023-07-25 安徽理工大学 一种基于商品评论的新情感词提取方法
CN113535888A (zh) * 2020-04-20 2021-10-22 阿里巴巴集团控股有限公司 一种情感分析装置、方法、计算设备及可读存储介质
CN111428507B (zh) * 2020-06-09 2020-09-11 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
CN112434512A (zh) * 2020-09-17 2021-03-02 上海二三四五网络科技有限公司 一种结合上下文语境的新词确定方法及装置
CN112836052B (zh) * 2021-02-19 2023-04-07 中国第一汽车股份有限公司 一种汽车评论文本观点挖掘方法、设备及存储介质
CN114090885B (zh) * 2021-11-12 2022-09-16 北京百度网讯科技有限公司 产品标题核心词提取方法、相关装置及计算机程序产品
CN114139528A (zh) * 2021-11-22 2022-03-04 深圳深度赋智科技有限公司 一种结合依存句法分析和规则的中英文评论观点挖掘方法
CN114519356B (zh) * 2022-02-22 2023-07-18 平安科技(深圳)有限公司 目标词语的检测方法、装置、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022134575A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 业务关键词的提取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115496039A (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN110837579A (zh) 视频分类方法、装置、计算机以及可读存储介质
CN110234018A (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN111432347B (zh) 信息处理方法、装置、存储介质及电子设备
CN112257452B (zh) 情感识别模型的训练方法、装置、设备和存储介质
CN111539212A (zh) 文本信息处理方法、装置、存储介质及电子设备
CN111709398A (zh) 一种图像识别的方法、图像识别模型的训练方法及装置
CN111026840A (zh) 文本处理方法、装置、服务器和存储介质
CN115878841B (zh) 一种基于改进秃鹰搜索算法的短视频推荐方法及系统
CN113420556A (zh) 基于多模态信号的情感识别方法、装置、设备及存储介质
CN113761122A (zh) 一种事件抽取方法、相关装置、设备及存储介质
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
CN113378970A (zh) 语句相似性检测方法、装置、电子设备及存储介质
CN115269781A (zh) 模态关联度预测方法、装置、设备、存储介质及程序产品
CN113407738B (zh) 一种相似文本检索方法、装置、电子设备和存储介质
CN114722174A (zh) 提词方法和装置、电子设备及存储介质
CN114385817A (zh) 实体关系的识别方法、设备及可读存储介质
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN113821612A (zh) 信息查找方法以及装置
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN115496039B (zh) 一种词语提取方法及计算机设备
CN115168568B (zh) 一种数据内容的识别方法、装置以及存储介质
CN113505596B (zh) 话题切换标记方法、装置及计算机设备
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN113486260B (zh) 互动信息的生成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant