CN113886530A - 一种语义短语抽取方法及相关装置 - Google Patents
一种语义短语抽取方法及相关装置 Download PDFInfo
- Publication number
- CN113886530A CN113886530A CN202111236111.9A CN202111236111A CN113886530A CN 113886530 A CN113886530 A CN 113886530A CN 202111236111 A CN202111236111 A CN 202111236111A CN 113886530 A CN113886530 A CN 113886530A
- Authority
- CN
- China
- Prior art keywords
- target
- text information
- regular expression
- semantic
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种语义短语抽取方法,包括:对输入文本信息进行分词和去除无含义词处理,得到待处理文本信息,输入文本信息为用于训练的信息;将所述待处理文本信息进行转换得到文本向量矩阵;基于激活函数,根据所述文本向量矩阵计算文本向量;对所述文本向量进行聚类得到第一正则表达式;根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语,所述第一目标语义短语包括名词实体和动词加名词实体的短语。
Description
技术领域
本申请实施例涉及人工智能领域,尤其涉及一种语义短语抽取方法及相关装置。
背景技术
随着技术的不断发展,尤其是互联网技术的应用与普及,信息能够以更高的速度传递,这使得人们能够接收到越来越多的信息。基于这些接收信息,人们可以进行适当的处理,从而使得工作和生活的效率不断提高。
然而,大量信息会使用户应接不暇,分散注意力,信息的处理难度也较大,从而使得用户需花费不必要的时间和精力去识别出真正需要的信息,这导致用户的体验较差,效率受到限制。
发明内容
本申请实施例提供了一种语义短语抽取方法及语义短语抽取装置。
一种语义短语抽取方法,包括:
对输入文本信息进行分词和去除无含义词处理,得到待处理文本信息,所述输入文本信息为用于训练的信息;
将所述待处理文本信息进行转换得到文本向量矩阵;
基于激活函数,根据所述文本向量矩阵计算文本向量;
对所述文本向量进行聚类得到第一正则表达式;
根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语,所述第一目标语义短语包括名词实体和动词加名词实体的短语。
可选的,基于激活函数,根据所述文本向量矩阵计算文本向量包括:
根据以下公式计算所述文本向量:
yi=f(∑ωi·xi,i+m-1+β);
yi表示第i维的文本向量;
f表示所述激活函数;
ωi表示第i维的权重矩阵;
β表示偏置值;
m表示每层卷积核的步长;
xi,i+m-1表示根据卷积核从第i行向量到第i+m-1行向量形成的矩阵。
可选的,对所述文本向量进行聚类得到第一正则表达式之后,根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语之前,所述方法还包括:
识别所述输入文本信息中的输入语义短语之间的候选依存关系;
根据所述候选依存关系确定目标依存关系;
通过所述目标依存关系得到第二正则表达式;
根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语包括:
根据所述第一正则表达式和所述第二正则表达式对所述目标文本信息进行抽取,得到所述第一目标语义短语,所述第一目标语义短语包括所述第一正则表达式的抽取结果和所述第二正则表达式的抽取结果。
可选的,通过所述目标依存关系得到第二正则表达式之后,根据所述第一正则表达式和所述第二正则表达式对所述目标文本信息进行抽取,得到所述第一目标语义短语之前,所述方法还包括:
识别所述输入文本信息中的名词模块;
根据所述名词模块中名词之间的语义关系,构建词典;
根据所述第一正则表达式和所述第二正则表达式对所述目标文本信息进行抽取,得到所述第一目标语义短语包括:
根据所述第一正则表达式、所述第二正则表达式、所述词典和与所述词典匹配的模板,对所述目标文本信息进行抽取,得到所述第一目标语义短语,所述第一目标语义短语包括所述第一正则表达式的抽取结果、所述第二正则表达式的抽取结果和所述词典和所述模板结合的技术的抽取结果。
可选的,根据所述第一正则表达式、所述第二正则表达式、所述词典和与所述词典匹配的模板,对所述目标文本信息进行抽取,得到所述第一目标语义短语之后,所述方法还包括:
基于所述输入文本信息,通过本体语言生成知识框架,所述知识框架包括所述输入文本信息的概念、关系和属性;
基于所述知识框架,通过基于中文的来自变压器的双向编码器嵌入表示和循环神经网络建立模型;
通过所述模型对所述目标文本信息进行抽取,得到第二目标语义短语,所述第二目标语义短语包括名词实体和动词加名词实体的短语;
根据所述第一目标语义短语和所述第二目标语义短语,得到第三目标语义短语,所述第三目标语义短语包括所述第一目标语义短语和所述第二目标语义短语。
可选的,通过所述模型对所述目标文本信息进行抽取,得到第二目标语义短语之后,所述方法还包括:
对所述第二目标语义短语进行分类,确定所述第二目标语义短语的标签。
可选的,对所述第二目标语义短语进行分类,确定所述第二目标语义短语的标签包括:
通过对齐知识图谱中的三元组和大规模文本语料,对所述第二目标语义短语进行分类,确定所述第二目标语义短语的标签。
一种语义短语抽取装置,包括:
处理单元,用于对输入文本信息进行分词和去除无含义词处理,得到待处理文本信息,所述输入文本信息为用于训练的信息;
转换单元,用于将所述待处理文本信息进行转换得到文本向量矩阵;
计算单元,用于基于激活函数,根据所述文本向量矩阵计算文本向量;
聚类单元,用于对所述文本向量进行聚类得到第一正则表达式;
抽取单元,用于根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语,所述第一目标语义短语包括名词实体和动词加名词实体的短语。
一种语义短语抽取装置,包括:
中央处理器,存储器以及输入输出接口;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行前述方法。
一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行前述方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
对输入文本信息进行预处理后,得到预处理文本信息,接着将其转换为文本向量矩阵,再计算文本向量。对文本向量进行聚类得到第一正则表达式,最后根据第一正则表达式进行抽取,得到第一目标语义短语,这样使得用户可通过语义短语抽取装置进行抽取,无需花费不必要的时间和精力,提高了工作效率,带来较好的体验。
附图说明
图1为本申请实施例语义短语抽取方法一个实施例示意图;
图2为本申请实施例语义短语抽取方法另一实施例示意图;
图3为本申请实施例语义短语抽取方法案例示意图;
图4为本申请实施例语义短语抽取方法另一实施例示意图;
图5为本申请实施例语义短语抽取装置一个实施例示意图;
图6为本申请实施例语义短语抽取装置另一实施例示意图。
具体实施方式
本申请实施例提供了一种语义短语抽取方法及语义短语抽取装置。
随着互联网技术的应用与普及,用户能够接收更多的信息。以招聘领域为例,由于互联网技术的不断发展,传统的线下招聘表露出效率低、覆盖面小等缺点。一方面,越来越多的企业通过网站发布海量相关招聘信息,另一方面应聘者可通过网络投放简历。但是这种招聘方式显现出信息量较大、信息增长速度快和信息处理难度大、双方信息不对等等弊端。为解决上述问题,提供本申请实施例的一种语义短语抽取方法及语义短语抽取装置。
下面对本申请实施例语义短语抽取方法进行描述。请参阅图1,本申请实施例语义短语抽取方法一个实施例包括:
101、对输入文本信息进行分词和去除无含义词处理,得到待处理文本信息;
将输入文本信息进行预处理,即分词和去除无含义词处理,得到待处理文本信息,其中,输入文本信息为用于训练的信息。例如,输入文本信息为“软件应用产品的设计经验啊”,对该句文本进行分词,可得到“软件应用产品”、“的”、“设计经验”和“啊”。再进行去除无含义词处理,去除“的”和“啊”,得到“软件应用产品”和“设计经验”,即待处理文本信息。
输入文本信息可以是从网上爬取得到的训练信息,也可以是从预先准备好的数据库得到的训练信息,具体此处不做限定。
102、将所述待处理文本信息进行转换得到文本向量矩阵;
得到待处理文本信息后,将待处理文本信息转换为计算机可以处理的形式,即文本向量矩阵。将待处理文本信息中的每一句文本转换为一条句向量,再将这些句向量组成文本向量矩阵。
103、基于激活函数,根据所述文本向量矩阵计算文本向量;
根据获取的文本向量矩阵和激活函数,计算得到文本向量。将文本向量矩阵通过输入层输入至卷积神经网络,然后在卷积神经网络的卷积层进行计算。卷积层中的卷积核的大小可依照需求选取多个不同尺寸。为了使卷积核每次滑动过的长度刚好是一个句向量,将句向量的维数看作是卷积核的宽度,其高度可根据需求预设成对应的值。
具体的,可根据文本向量矩阵,卷积核的权重矩阵和偏置值,基于激活函数计算得到多个文本向量。其中,权重矩阵和偏置值是通过常用的梯度下降法得到。
104、对所述文本向量进行聚类得到第一正则表达式;
将得到的文本向量进行聚类,得到第一正则表达式。通过判断多个文本向量之间的相似度,来进行聚类。可用余弦相似度、欧拉相似度、曼哈顿相似度等作为衡量指标,衡量两文本向量间的相似度。若两者的相似度值达到预设的条件,则将这两文本向量归为一类别,以此类推。由于向量与文本有映射关系,故可通过每一类别中的向量来确定对应的文本,再提取文本的共同点得到第一正则表达式。
105、根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语。
得到第一正则表达式后,对目标文本信息进行抽取,得到第一目标语义短语。其中,目标文本信息为用户想进行语义短语抽取的信息,第一目标语义短语包括名词实体和动词加名词实体的短语。
例如,聚类前的文本信息为“熟练掌握图片处理软件;熟练掌握办公软件;熟练掌握常用办公软件;熟练掌握相关软件;熟练掌握office办公软件;熟练掌握一款后期制作软件”,通过聚类得出正则表达式“熟练掌握.{5}软件”。接着通过正则表达式“熟练掌握.{5}软件”对目标文本信息抽取,可得第一目标语义短语,如“visio”、“cad”等。
本申请实施例中,对输入文本信息进行预处理后,得到预处理文本信息,接着将其转换为文本向量矩阵,再计算文本向量。对文本向量进行聚类得到第一正则表达式,最后根据第一正则表达式进行抽取,得到第一目标语义短语,这样使得用户可通过语义短语抽取装置进行抽取,无需花费不必要的时间和精力,提高了工作效率,带来较好的体验。
请参阅图2,本申请实施例语义短语抽取方法另一实施例包括:
201、对输入文本信息进行分词和去除无含义词处理,得到待处理文本信息;
将输入文本信息进行预处理,即分词和去除无含义词处理,得到待处理文本信息,其中,输入文本信息为用于训练的信息。例如,输入文本信息为“软件应用产品的设计经验啊”,对该句文本进行分词,可得到“软件应用产品”、“的”、“设计经验”和“啊”。再进行去除无含义词处理,去除“的”和“啊”,得到“软件应用产品”和“设计经验”,即待处理文本信息。
输入文本信息可以是从网上爬取得到的训练信息,也可以是从预先准备好的数据库得到的训练信息,具体此处不做限定。
202、将所述待处理文本信息进行转换得到文本向量矩阵;
得到待处理文本信息后,将待处理文本信息转换为计算机可以处理的形式,即文本向量矩阵。将待处理文本信息中的每一句文本转换为一条句向量,再将这些句向量组成文本向量矩阵。
203、基于激活函数,根据所述文本向量矩阵计算文本向量;
根据获取的文本向量矩阵和激活函数,计算得到文本向量。将文本向量矩阵通过输入层输入至卷积神经网络,然后在卷积神经网络的卷积层进行计算。卷积层中的卷积核的大小可依照需求选取多个不同尺寸。为了使卷积核每次滑动过的长度刚好是一个句向量,将句向量的维数看作是卷积核的宽度,其高度可根据需求预设成对应的值。
具体的,可根据文本向量矩阵,卷积核的权重矩阵和偏置值,基于激活函数计算得到多个文本向量。例如,可通过以下公式计算得到文本向量:
yi=f(∑ωi·xi,i+m-1+β);
yi表示第i维的文本向量;
f表示所述激活函数;
ωi表示第i维的权重矩阵;
β表示偏置值;
m表示每层卷积核的步长,可预先设定;
xi,i+m-1表示根据卷积核从第i行向量到第i+m-1行向量形成的矩阵。
其中,权重矩阵和偏置值是通过常用的梯度下降法得到。可以理解的是,上述公式的变形或其他公式也可得到文本向量,具体此处不做限定。
204、对所述文本向量进行聚类得到第一正则表达式;
将得到的文本向量进行聚类,得到第一正则表达式。通过判断多个文本向量之间的相似度,来进行聚类。可用余弦相似度、欧拉相似度、曼哈顿相似度等作为衡量指标,衡量两文本向量间的相似度。例如,以余弦相似度为衡量指标,则可根据以下公式计算相似度:
若两者的相似度值达到预设的条件,则将这两文本向量归为一类别,以此类推。由于向量与文本有映射关系,故可通过每一类别中的向量来确定对应的文本,再提取文本的共同点得到第一正则表达式。例如,聚类前的文本信息为“熟练掌握图片处理软件;熟练掌握办公软件;熟练掌握常用办公软件;熟练掌握相关软件;熟练掌握office办公软件;熟练掌握一款后期制作软件”,通过聚类得出正则表达式“熟练掌握.{5}软件”。
205、识别所述输入文本信息中的输入语义短语之间的候选依存关系;
对输入文本信息中的输入语义短语之间进行识别,得到输入语义短语间的候选依存关系,以进行后续操作。其中,输入语义短语之间的候选依存关系包括定中关系、并列关系、核心关系和动宾关系等关系。
206、根据所述候选依存关系确定目标依存关系;
得到候选依存关系后,根据候选依存关系确定目标依存关系。目标依存关系为候选依存关系中的一个或多个,可以是预先设定好的,也可以是用户操作选择确定,具体此处不做限定。
207、通过所述目标依存关系得到第二正则表达式;
得到目标依存关系后,利用目标依存关系,可以得到第二正则表达式。
为了便于理解,通过一个例子进行说明。请参阅图3,输入文本信息为“岗位职责:维护公司媒介资源,发布稿件;”,对该句子的输入语义短语进行识别,得到输入语义短语间的候选依存关系。其中,Root是根节点,ATT是定中关系,COO是并列关系,HED是核心关系,VOB是动宾关系,WP是标点。从候选依存关系中确定一个或多个目标依存关系,如确定动宾关系为目标依存关系。根据动宾关系:维护资源、发布稿件,可以得到第二正则表达式为“维护资源”和“发布稿件”。
208、识别所述输入文本信息中的名词模块;
对输入文本信息进行识别,得到输入文本信息的名词模块,以为后续操作进行条件准备。
209、根据所述名词模块中名词之间的语义关系,构建词典;
得到输入文本信息的名词模块后,根据名词模块中名词之间的语义关系,可以构建词典。例如,词典可以是“Axure;Visio;xmind;Mindmanager;Office;PPT…”。
210、根据所述第一正则表达式、所述第二正则表达式、所述词典和与所述词典匹配的模板,对所述目标文本信息进行抽取,得到所述第一目标语义短语。
利用第一正则表达式、第二正则表达式、词典和与所述词典匹配的模板,对目标文本信息进行抽取得到第一目标语义短语。其中,目标文本信息为用户想进行语义短语抽取的信息,第一目标语义短语包括名词和动词加名词的短语。第一目标语义短语包括第一正则表达式的抽取结果、第二正则表达式的抽取结果和词典和与词典匹配的模板结合的技术的抽取结果,即第一目标语义短语为三个抽取结果的并集。
为便于理解,下面通过一个例子对词典和与词典匹配的模板结合的技术进行简述。构建一个词典为“Axure;Visio;xmind;Mindmanager;Office;PPT…”,与词典匹配的模板为:((?:熟悉|熟练掌握|熟练|掌握|精通|擅长|会|了解)(?:使用|运用|操作|应用)?)[(?:熟悉|熟练|掌握|精通|擅长|会|了解|使用|运用|操作|应用)\s]{,20}+词典中的软件。当目标文本信息中出现类似“熟练使用办公软件、PS、H5等”的语句时,利用词典和与词典匹配的模板可以抽取出对应的语句。
本实施例中,通过输入文本信息训练得到第一正则表达式、第二正则表达式、词典和与所述词典匹配的模板。再利用前述结果对目标文本信息进行语义短语抽取,得到第一目标语义短语,即三个抽取结果的并集。这样可以减少人为分析岗位招聘信息中短语与语句的工作量,还可以提升模版匹配技术对语义短语抽取的召回率。
请参阅图4,本申请实施例语义短语抽取方法另一实施例包括:
401、对输入文本信息进行分词和去除无含义词处理,得到待处理文本信息;
402、将所述待处理文本信息进行转换得到文本向量矩阵;
403、基于激活函数,根据所述文本向量矩阵计算文本向量;
404、对所述文本向量进行聚类得到第一正则表达式;
405、识别所述输入文本信息中的输入语义短语之间的候选依存关系;
406、根据所述候选依存关系确定目标依存关系;
407、通过所述目标依存关系得到第二正则表达式;
408、识别所述输入文本信息中的名词模块;
409、根据所述名词模块中名词之间的语义关系,构建词典;
410、根据所述第一正则表达式、所述第二正则表达式、所述词典和与所述词典匹配的模板,对所述目标文本信息进行抽取,得到所述第一目标语义短语;
本实施例中的步骤401至410与前述图2所示实施例中步骤201至210类似,此处不再赘述。
411、基于所述输入文本信息,通过本体语言生成知识框架;
通过本体语言来确定输入文本信息中的各类语义,生成知识框架,例如,可通过本体语言对职业信息学历、培训与证书、经验、软件技能、工作关联关系(如:内部关联和外部关联)等进行刻化。知识框架包括所述输入文本信息的概念、关系和属性。
412、基于所述知识框架,通过基于中文的来自变压器的双向编码器嵌入表示和循环神经网络建立模型;
生成知识框架后,通过基于中文的来自变压器的双向编码器嵌入表示(BERTEmbeddi ng,bidirectional encoder representations from transformers embedding)和循环神经网络(RNN,recurrent neural network)建立模型。具体的,利用BERTEmbedding的预训练向量和RNN层数来进行分类标签建模。
413、通过所述模型对所述目标文本信息进行抽取,得到第二目标语义短语;
利用模型对目标文本信息进行抽取,得到第二目标语义短语。其中,目标文本信息为用户想进行语义短语抽取的信息,第二目标语义短语包括名词实体和动词加名词实体的短语。同时,可结合互信息与文本排序算法对语义短语的数量进行扩充。
414、通过对齐知识图谱中的三元组和大规模文本语料,对所述第二目标语义短语进行分类,确定所述第二目标语义短语的标签;
利用三元组和文本语料对第二目标语义短语进行分类,确定第二目标语义短语的标签。为便于理解,下面举例进行说明。例如,目标文本信息为:“职位信息:全盘负责亚马逊/ebay产品开发”。那么可以通过上述模型,提取出语义短语“职位”、“亚马逊”和“ebay”,再进行分类并判断出“职位”与“亚马逊”和“ebay”的关系是“开发关系”,或者说,“亚马逊”和“ebay”的标签为“开发”。
415、根据所述第一目标语义短语和所述第二目标语义短语,得到第三目标语义短语。
得到第一目标语义短语和第二目标语义短语后,可得到第三目标语义短语。其中,第三目标语义短语包括第一目标语义短语和第二目标语义短语,即第三目标语义短语为第一目标语义短语和第二目标语义短语的并集。
为便于理解本实施例,下面举例进行说明:
岗位职责:
1.官微、软文推广、新闻稿等内容撰写和运营;
2.结合行业热点和公司产品优势、客户案例,产出优质内容;
3.协助部门其他伙伴执行线下活动;
4.完成上级安排的其他工作。
职位要求:
1.有2年以上工作经验,本科及以上学历,新闻系或中文系专业优先,文笔优秀,有记者/编辑/文案或金融类媒体相关工作经验优先;
2.有教育,金融类行业工作背景优先;
3.对新媒体运营有浓厚兴趣,有一定见解;
4.思路清晰,良好的创意能力;
5.具备一定的抗压能力,工作效率高,有上进心,沟通能力和团队合作精神佳。
职能类别:产品/品牌经理微信分享
对于“基础能力”,第一目标语义短语为[“思路清晰”,“创意能力”,“抗压能力”,“工作效率高”,“上进心”,“沟通能力”,“团队合作精神”]。
第二目标语义短语为[“上进心”,“沟通能力”,“团队合作精神”,“思路清晰”,“工作效率高”,“抗压能力”,“文笔优秀”]。
第三目标语义短语为[“上进心”,“沟通能力”,“团队合作精神”,“思路清晰”,“工作效率高”,“抗压能力”,“文笔优秀”,“创意能力”]。
本实施例中,可通过输入文本信息生成知识框架,接着通过BERT Embedding的预训练向量和RNN层数来进行建模。利用模型进行抽取可得到第二目标语义短语,对第二目标语义短语进行分类以确定其标签。最后结合第一目标语义短语,可得到第一目标语义短语和第二目标语义短语的并集,即第三目标语义短语。这样能够保证语义短语抽取的泛化性,有较好的迁移性,提升语义短语抽取的精准率和召回率,还能够对语义短语贴标签,大大方便了用户的操作,显著提高用户的体验。
下面对本申请实施例的语义短语抽取装置进行描述。请参阅图5,本申请实施例语义短语抽取装置一个实施例包括:
处理单元501,用于对输入文本信息进行分词和去除无含义词处理,得到待处理文本信息,所述输入文本信息为用于训练的信息;
转换单元502,用于将所述待处理文本信息进行转换得到文本向量矩阵;
计算单元503,用于基于激活函数,根据所述文本向量矩阵计算文本向量;
聚类单元504,用于对所述文本向量进行聚类得到第一正则表达式;
抽取单元505,用于根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语,所述第一目标语义短语包括名词实体和动词加名词实体的短语。
本实施例中,处理单元501对输入文本信息进行预处理后,得到预处理文本信息,接着通过转换单元502将其转换为文本向量矩阵,再通过计算单元503计算文本向量。通过聚类单元504对文本向量进行聚类得到第一正则表达式,最后通过抽取单元505根据第一正则表达式进行抽取,得到第一目标语义短语,这样使得用户无需花费不必要的时间和精力,提高了工作效率,带来较好的体验。
本实施例语义短语抽取装置中各单元所执行的功能以及流程与前述图1至图4中实体抽取装置所执行的功能和流程类似,此处不再赘述。
图6是本申请实施例提供的一种语义短语抽取装置结构示意图,该语义短语抽取装置600可以包括一个或一个以上中央处理器(central processing units,CPU)601和存储器605,该存储器605中存储有一个或一个以上的应用程序或数据。
其中,存储器605可以是易失性存储或持久存储。存储在存储器605的程序可以包括一个或一个以上模块,每个模块可以包括对语义短语抽取装置600中的一系列指令操作。更进一步地,中央处理器601可以设置为与存储器605通信,在语义短语抽取装置600上执行存储器605中的一系列指令操作。
语义短语抽取装置600还可以包括一个或一个以上电源602,一个或一个以上有线或无线网络接口603,一个或一个以上输入输出接口604,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
该中央处理器601可以执行前述图1至图4所示实施例中语义短语抽取装置所执行的操作,具体此处不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种语义短语抽取方法,其特征在于,包括:
对输入文本信息进行分词和去除无含义词处理,得到待处理文本信息,所述输入文本信息为用于训练的信息;
将所述待处理文本信息进行转换得到文本向量矩阵;
基于激活函数,根据所述文本向量矩阵计算文本向量;
对所述文本向量进行聚类得到第一正则表达式;
根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语,所述第一目标语义短语包括名词实体和动词加名词实体的短语。
2.根据权利要求1所述的语义短语抽取方法,其特征在于,基于激活函数,根据所述文本向量矩阵计算文本向量包括:
根据以下公式计算所述文本向量:
yi=f(∑ωi·xi,i+m-1+β);
yi表示第i维的文本向量;
f表示所述激活函数;
ωi表示第i维的权重矩阵;
β表示偏置值;
m表示每层卷积核的步长;
xi,i+m-1表示根据卷积核从第i行向量到第i+m-1行向量形成的矩阵。
3.根据权利要求1至2任一项所述的语义短语抽取方法,其特征在于,对所述文本向量进行聚类得到第一正则表达式之后,根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语之前,所述方法还包括:
识别所述输入文本信息中的输入语义短语之间的候选依存关系;
根据所述候选依存关系确定目标依存关系;
通过所述目标依存关系得到第二正则表达式;
根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语包括:
根据所述第一正则表达式和所述第二正则表达式对所述目标文本信息进行抽取,得到所述第一目标语义短语,所述第一目标语义短语包括所述第一正则表达式的抽取结果和所述第二正则表达式的抽取结果。
4.根据权利要求3所述的语义短语抽取方法,其特征在于,通过所述目标依存关系得到第二正则表达式之后,根据所述第一正则表达式和所述第二正则表达式对所述目标文本信息进行抽取,得到所述第一目标语义短语之前,所述方法还包括:
识别所述输入文本信息中的名词模块;
根据所述名词模块中名词之间的语义关系,构建词典;
根据所述第一正则表达式和所述第二正则表达式对所述目标文本信息进行抽取,得到所述第一目标语义短语包括:
根据所述第一正则表达式、所述第二正则表达式、所述词典和与所述词典匹配的模板,对所述目标文本信息进行抽取,得到所述第一目标语义短语,所述第一目标语义短语包括所述第一正则表达式的抽取结果、所述第二正则表达式的抽取结果和所述词典和所述模板结合的技术的抽取结果。
5.根据权利要求4所述的语义短语抽取方法,其特征在于,根据所述第一正则表达式、所述第二正则表达式、所述词典和与所述词典匹配的模板,对所述目标文本信息进行抽取,得到所述第一目标语义短语之后,所述方法还包括:
基于所述输入文本信息,通过本体语言生成知识框架,所述知识框架包括所述输入文本信息的概念、关系和属性;
基于所述知识框架,通过基于中文的来自变压器的双向编码器嵌入表示和循环神经网络建立模型;
通过所述模型对所述目标文本信息进行抽取,得到第二目标语义短语,所述第二目标语义短语包括名词实体和动词加名词实体的短语;
根据所述第一目标语义短语和所述第二目标语义短语,得到第三目标语义短语,所述第三目标语义短语包括所述第一目标语义短语和所述第二目标语义短语。
6.根据权利要求5所述的语义短语抽取方法,其特征在于,通过所述模型对所述目标文本信息进行抽取,得到第二目标语义短语之后,所述方法还包括:
对所述第二目标语义短语进行分类,确定所述第二目标语义短语的标签。
7.根据权利要求6所述的语义短语抽取方法,其特征在于,对所述第二目标语义短语进行分类,确定所述第二目标语义短语的标签包括:
通过对齐知识图谱中的三元组和大规模文本语料,对所述第二目标语义短语进行分类,确定所述第二目标语义短语的标签。
8.一种语义短语抽取装置,其特征在于,包括:
处理单元,用于对输入文本信息进行分词和去除无含义词处理,得到待处理文本信息,所述输入文本信息为用于训练的信息;
转换单元,用于将所述待处理文本信息进行转换得到文本向量矩阵;
计算单元,用于基于激活函数,根据所述文本向量矩阵计算文本向量;
聚类单元,用于对所述文本向量进行聚类得到第一正则表达式;
抽取单元,用于根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语,所述第一目标语义短语包括名词实体和动词加名词实体的短语。
9.一种语义短语抽取装置,其特征在于,包括:
中央处理器,存储器以及输入输出接口;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行权利要求1至7中任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111236111.9A CN113886530A (zh) | 2021-10-22 | 2021-10-22 | 一种语义短语抽取方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111236111.9A CN113886530A (zh) | 2021-10-22 | 2021-10-22 | 一种语义短语抽取方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113886530A true CN113886530A (zh) | 2022-01-04 |
Family
ID=79013405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111236111.9A Pending CN113886530A (zh) | 2021-10-22 | 2021-10-22 | 一种语义短语抽取方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113886530A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115062118A (zh) * | 2022-07-26 | 2022-09-16 | 神州医疗科技股份有限公司 | 双通道信息抽取方法、装置、电子设备和介质 |
-
2021
- 2021-10-22 CN CN202111236111.9A patent/CN113886530A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115062118A (zh) * | 2022-07-26 | 2022-09-16 | 神州医疗科技股份有限公司 | 双通道信息抽取方法、装置、电子设备和介质 |
CN115062118B (zh) * | 2022-07-26 | 2023-01-31 | 神州医疗科技股份有限公司 | 双通道信息抽取方法、装置、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11625573B2 (en) | Relation extraction from text using machine learning | |
CN111160037B (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
Arulmurugan et al. | RETRACTED ARTICLE: Classification of sentence level sentiment analysis using cloud machine learning techniques | |
CN108614875B (zh) | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 | |
CN110472003B (zh) | 基于图卷积网络的社交网络文本情感细粒度分类方法 | |
WO2019214145A1 (zh) | 文本情绪分析方法、装置及存储介质 | |
CN111274829B (zh) | 一种利用跨语言信息的序列标注方法 | |
JP2004110161A (ja) | テキスト文比較装置 | |
CN106778878B (zh) | 一种人物关系分类方法及装置 | |
CN111144120A (zh) | 一种训练语句的获取方法、装置、存储介质及电子设备 | |
CN113627797B (zh) | 入职员工画像生成方法、装置、计算机设备及存储介质 | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN112347241A (zh) | 一种摘要提取方法、装置、设备及存储介质 | |
CN114064901B (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
Yirtici et al. | Regional-CNN-based enhanced Turkish sign language recognition | |
CN111597807B (zh) | 分词数据集生成方法、装置、设备及其存储介质 | |
Aye et al. | Senti-lexicon and analysis for restaurant reviews of myanmar text | |
CN112417868A (zh) | 一种基于情绪分数和主题模型的区块链新闻可视化方法 | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
Shen et al. | EDUCATIONAL INNOVATION IN THE DIGITAL AGE: THE ROLE AND IMPACT OF NLP TECHNOLOGY | |
CN114398943B (zh) | 样本增强方法及其装置 | |
CN115600605A (zh) | 一种中文实体关系联合抽取方法、系统、设备及存储介质 | |
CN114722833A (zh) | 一种语义分类方法及装置 | |
NEAMAH et al. | QUESTION ANSWERING SYSTEM SUPPORTING VECTOR MACHINE METHOD FOR HADITH DOMAIN. | |
CN113886530A (zh) | 一种语义短语抽取方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |