CN106502988B - 一种目标属性抽取的方法和设备 - Google Patents

一种目标属性抽取的方法和设备 Download PDF

Info

Publication number
CN106502988B
CN106502988B CN201610950729.4A CN201610950729A CN106502988B CN 106502988 B CN106502988 B CN 106502988B CN 201610950729 A CN201610950729 A CN 201610950729A CN 106502988 B CN106502988 B CN 106502988B
Authority
CN
China
Prior art keywords
phonetic
word
model
target
recalled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610950729.4A
Other languages
English (en)
Other versions
CN106502988A (zh
Inventor
姚佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Hui He science and Technology Development Co., Ltd.
Original Assignee
Guangdong Hui He Science And Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Hui He Science And Technology Development Co Ltd filed Critical Guangdong Hui He Science And Technology Development Co Ltd
Priority to CN201610950729.4A priority Critical patent/CN106502988B/zh
Publication of CN106502988A publication Critical patent/CN106502988A/zh
Application granted granted Critical
Publication of CN106502988B publication Critical patent/CN106502988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种目标属性抽取的方法和设备,其中该方法,包括:根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型;其中,所述目标包括已知目标和未知目标;基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型;基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性。以此,实现了对目标属性更好地抽取,且具有很好的可移植性以及召回的多样性。

Description

一种目标属性抽取的方法和设备
技术领域
本发明涉及计算机以及信息处理领域,特别涉及一种目标属性抽取的方法和设备。
背景技术
在现有技术中,已有的目标属性抽取的方法,是基于人工确定的抽取规则来进行抽取的,其中,具体的基于人工确定的抽取规则进行抽取的基本思路为:人工制定一些抽取规则,然后符合抽取规则的句子直接抽取得到目标属性。
由此,基于人工确定的抽取规则方法中,所有的抽取知识都需要人工进行指定,十分依赖人工,如此这种方法的可移植性以及召回性是极其不够的。
发明内容
针对现有技术中的缺陷,本发明提出了一种目标属性抽取的方法和设备,用以克服现有技术中的缺陷,以实现更好地对目标属性的抽取。
具体的,本发明提出了以下具体的实施例:
本发明实施例提出了一种目标属性抽取的方法,包括:
根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型;其中,所述目标包括已知目标和未知目标;
基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型;
基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性。
在一个具体的实施例中,所述文本信息是基于搜索引擎对所述目标进行搜索得到的。
在一个具体的实施例中,所述根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型,包括:
根据与目标相关的文本信息进行word2vec的词向量表达训练,生成语义扩展模型;
先对所述文本信息进行文字转拼音处理,生成拼音文本;针对所述拼音文本进行HMM训练,以生成拼音语义扩展模型。
在一个具体的实施例中,所述基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型,包括:
获取与已知目标及已知目标的目标属性相关的文本信息;
对所获取的文本信息进行切词处理;
对进行了切词处理后的文本信息进行词性标注处理,获取对应的名词以及形容词;
利用语义扩展模型对所获取的名词以及形容词进行语义召回,获取语义召回的词;
利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回,获取拼音召回的词;其中,语义召回的词和拼音召回的词都对应有分值;
对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理,生成训练语料;
基于所述训练语料进行目标属性的标注以及CRF参数训练,生成标注模型。
在一个具体的实施例中,所述基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性,包括:
获取与未知目标及未知目标的目标属性相关的文本信息;
对所获取的文本信息进行切词处理;
对进行了切词处理后的文本信息进行词性标注处理,获取对应的名词以及形容词;
利用语义扩展模型对所获取的名词以及形容词进行语义召回,获取语义召回的词;
利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回,获取拼音召回的词;其中,语义召回的词和拼音召回的词都对应有分值;
对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理,生成待标注语料;
利用所述标注模型对所述待标注语料进行处理,生成已标注语料;
从所述已标注语料中抽取所述未知目标的目标属性信息。
本发明还提出了一种目标属性抽取的设备,包括:
第一生成模块,用以根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型;其中,所述目标包括已知目标和未知目标;
第二生成模块,用以基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型;
抽取模块,用以基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性。
在一个具体的实施例中,所述文本信息是基于搜索引擎对所述目标进行搜索得到的。
在一个具体的实施例中,所述第一生成模块,用于:
根据与目标相关的文本信息进行word2vec的词向量表达训练,生成语义扩展模型;
先对所述文本信息进行文字转拼音处理,生成拼音文本;针对所述拼音文本进行HMM训练,以生成拼音语义扩展模型。
在一个具体的实施例中,所述第二生成模块,用于:
获取与已知目标及已知目标的目标属性相关的文本信息;
对所获取的文本信息进行切词处理;
对进行了切词处理后的文本信息进行词性标注处理,获取对应的名词以及形容词;
利用语义扩展模型对所获取的名词以及形容词进行语义召回,获取语义召回的词;
利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回,获取拼音召回的词;其中,语义召回的词和拼音召回的词都对应有分值;
对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理,生成训练语料;
基于所述训练语料进行目标属性的标注以及CRF参数训练,生成标注模型。
在一个具体的实施例中,所述抽取模块,用于:
获取与未知目标及未知目标的目标属性相关的文本信息;
对所获取的文本信息进行切词处理;
对进行了切词处理后的文本信息进行词性标注处理,获取对应的名词以及形容词;
利用语义扩展模型对所获取的名词以及形容词进行语义召回,获取语义召回的词;
利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回,获取拼音召回的词;其中,语义召回的词和拼音召回的词都对应有分值;
对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理,生成待标注语料;
利用所述标注模型对所述待标注语料进行处理,生成已标注语料;
从所述已标注语料中抽取所述未知目标的目标属性信息。
与现有技术相比,本发明提出了一种目标属性抽取的方法和设备,其中该方法,包括:根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型;其中,所述目标包括已知目标和未知目标;基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型;基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性。以此,实现了对目标属性更好地抽取,且具有很好的可移植性以及召回的多样性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提出的一种标属性抽取的方法的流程示意图;
图2为本发明实施例提出的一种生成标注模型的方法的流程示意图;
图3为本发明实施例提出的一种目标属性抽取的方法的流程示意图;
图4为本发明实施例提出的一种目标属性抽取的设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和出示的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
具体的,本发明提出了以下具体的实施例:
实施例1
本发明实施例1提出了一种目标属性抽取的方法,如图1所示,包括:
步骤101、根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型;其中,所述目标包括已知目标和未知目标;
步骤102、基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型;
步骤103、基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性。
在一个具体的实施例中,步骤101中的所述文本信息是基于搜索引擎对所述目标进行搜索得到的。
具体的,例如可以有百度,bing,谷歌等等搜索引擎。
此外,具体的步骤101,也即所述根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型,包括:
根据与目标相关的文本信息进行word2vec的词向量表达训练,生成语义扩展模型;
先对所述文本信息进行文字转拼音处理,生成拼音文本;针对所述拼音文本进行HMM训练,以生成拼音语义扩展模型。
具体的,word2vec的模型可以参考论文:Distributed Representations ofWords and Phrases and their Compositionality;具体的,Word2vec为用来产生词嵌入的模型。这些模型为浅层和双层神经网络,用来训练以重新建构语言学之词文本,网络以词表现,并且需猜测相邻位置的输入词,在word2vec中bag-of-words假设下,词的顺序是不重要的;训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。
而HMM为隐马尔可夫模型,人工智能中一种决策模型。用于语音识别,行为识别,文字识别以及故障诊断等领域。
具体通过生成的语义扩展模型,目的在于充分利用待标注文本的语义信息,这样能够更加充分的理解待标注文本的意图,而不是仅仅依赖文本本身所有的词信息。另外,在面对有文本拼写错误的情况下,基于拼音语义扩展模型,可以对拼音进行语义召回,保证文本拼写错误的识别准确性。
在一个具体的实施例中,步骤102,也即所述基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型,如图2所示,包括:
步骤1021、获取与已知目标及已知目标的目标属性相关的文本信息;
步骤1022、对所获取的文本信息进行切词处理;
步骤1023、对进行了切词处理后的文本信息进行词性标注处理,获取对应的名词以及形容词;
步骤1024、利用语义扩展模型对所获取的名词以及形容词进行语义召回,获取语义召回的词;
步骤1025、利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回,获取拼音召回的词;其中,语义召回的词和拼音召回的词都对应有分值;具体的,例如召回的词1的分值可以为0.35,召回的词2的分值为0.34等等。
步骤1026、对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理,生成训练语料;
具体的,比如召回来的词的分值是0.34,需要进行离散化处理,以均衡的按照10份离散化为例来进行说明,则在离散化后是4。同理,若召回分值为0.5,离散化后则为5。
步骤1027、基于所述训练语料进行目标属性的标注以及CRF参数训练,生成标注模型。
在一个具体的实施例中,步骤103,也即所述基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性,包括:
获取与未知目标及未知目标的目标属性相关的文本信息;
对所获取的文本信息进行切词处理;
对进行了切词处理后的文本信息进行词性标注处理,获取对应的名词以及形容词;
利用语义扩展模型对所获取的名词以及形容词进行语义召回,获取语义召回的词;
利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回,获取拼音召回的词;其中,语义召回的词和拼音召回的词都对应有分值;
对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理,生成待标注语料;
利用所述标注模型对所述待标注语料进行处理,生成已标注语料;
从所述已标注语料中抽取所述未知目标的目标属性信息。
具体的,在对未知目标的上述操作中,执行了与已知目标相似的步骤1021-步骤1026,后利用
本方案利用了统计模型,保证在目标属性抽取中能够得到扩展性以及高召回率,且本方案不仅对句子本身进行了强分析,还对句子中的关键词(名词、形容词)进行了语义召回,这样就能够保证了对句子的本身语义信息进行更全面的采集。而且还对句子进行了拼音的语义召回,保证了在句子存在一定错误的情况下,依然能够对句子进行正确的解析以及分析。最后,还利用CRF(conditional random field,条件随机场)进行了所有特征信息的汇总,并进行了模型的学习,充分利用所有特征信息。其中,整个过程可以如图3所示。
实施例2
本发明实施例还提出了一种目标属性抽取的设备,如图4所示,包括:
第一生成模块201,用以根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型;其中,所述目标包括已知目标和未知目标;
第二生成模块202,用以基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型;
抽取模块203,用以基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性。
具体的,所述文本信息是基于搜索引擎对所述目标进行搜索得到的。
具体的,所述第一生成模块201,用于:
根据与目标相关的文本信息进行word2vec的词向量表达训练,生成语义扩展模型;
先对所述文本信息进行文字转拼音处理,生成拼音文本;针对所述拼音文本进行HMM训练,以生成拼音语义扩展模型。
具体的,所述第二生成模块202,用于:
获取与已知目标及已知目标的目标属性相关的文本信息;
对所获取的文本信息进行切词处理;
对进行了切词处理后的文本信息进行词性标注处理,获取对应的名词以及形容词;
利用语义扩展模型对所获取的名词以及形容词进行语义召回,获取语义召回的词;
利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回,获取拼音召回的词;其中,语义召回的词和拼音召回的词都对应有分值;
对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理,生成训练语料;
基于所述训练语料进行目标属性的标注以及CRF参数训练,生成标注模型。
具体的,所述抽取模块203,用于:
获取与未知目标及未知目标的目标属性相关的文本信息;
对所获取的文本信息进行切词处理;
对进行了切词处理后的文本信息进行词性标注处理,获取对应的名词以及形容词;
利用语义扩展模型对所获取的名词以及形容词进行语义召回,获取语义召回的词;
利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回,获取拼音召回的词;其中,语义召回的词和拼音召回的词都对应有分值;
对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理,生成待标注语料;
利用所述标注模型对所述待标注语料进行处理,生成已标注语料;
从所述已标注语料中抽取所述未知目标的目标属性信息。
与现有技术相比,本发明提出了一种目标属性抽取的方法和设备,其中该方法,包括:根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型;其中,所述目标包括已知目标和未知目标;基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型;基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性。以此,实现了对目标属性更好地抽取,且具有很好的可移植性以及高召回性。此外,对句子语义有深度理解,对句子有误的高容忍性。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,该模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、系统或装置,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (6)

1.一种目标属性抽取的方法,其特征在于,包括:
根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型;其中,所述目标包括已知目标和未知目标;
基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型;
基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性;
所述基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型,包括:
获取与已知目标及已知目标的目标属性相关的文本信息;
对所获取的文本信息进行切词处理;
对进行了切词处理后的文本信息进行词性标注处理,获取对应的名词以及形容词;
利用语义扩展模型对所获取的名词以及形容词进行语义召回,获取语义召回的词;
利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回,获取拼音召回的词;其中,语义召回的词和拼音召回的词都对应有分值;
对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理,生成训练语料;
基于所述训练语料进行目标属性的标注以及CRF参数训练,生成标注模型;
所述基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性,包括:
获取与未知目标及未知目标的目标属性相关的文本信息;
对所获取的文本信息进行切词处理;
对进行了切词处理后的文本信息进行词性标注处理,获取对应的名词以及形容词;
利用语义扩展模型对所获取的名词以及形容词进行语义召回,获取语义召回的词;
利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回,获取拼音召回的词;其中,语义召回的词和拼音召回的词都对应有分值;
对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理,生成待标注语料;
利用所述标注模型对所述待标注语料进行处理,生成已标注语料;
从所述已标注语料中抽取所述未知目标的目标属性信息。
2.如权利要求1所述的方法,其特征在于,所述文本信息是基于搜索引擎对所述目标进行搜索得到的。
3.如权利要求1所述的方法,其特征在于,所述根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型,包括:
根据与目标相关的文本信息进行word2vec的词向量表达训练,生成语义扩展模型;
先对所述文本信息进行文字转拼音处理,生成拼音文本;针对所述拼音文本进行HMM训练,以生成拼音语义扩展模型。
4.一种目标属性抽取的设备,其特征在于,包括:
第一生成模块,用以根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型;其中,所述目标包括已知目标和未知目标;
第二生成模块,用以基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型;
抽取模块,用以基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性;
所述第二生成模块,用于:
获取与已知目标及已知目标的目标属性相关的文本信息;
对所获取的文本信息进行切词处理;
对进行了切词处理后的文本信息进行词性标注处理,获取对应的名词以及形容词;
利用语义扩展模型对所获取的名词以及形容词进行语义召回,获取语义召回的词;
利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回,获取拼音召回的词;其中,语义召回的词和拼音召回的词都对应有分值;
对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理,生成训练语料;
基于所述训练语料进行目标属性的标注以及CRF参数训练,生成标注模型;
所述抽取模块,用于:
获取与未知目标及未知目标的目标属性相关的文本信息;
对所获取的文本信息进行切词处理;
对进行了切词处理后的文本信息进行词性标注处理,获取对应的名词以及形容词;
利用语义扩展模型对所获取的名词以及形容词进行语义召回,获取语义召回的词;
利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回,获取拼音召回的词;其中,语义召回的词和拼音召回的词都对应有分值;
对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理,生成待标注语料;
利用所述标注模型对所述待标注语料进行处理,生成已标注语料;
从所述已标注语料中抽取所述未知目标的目标属性信息。
5.如权利要求4所述的设备,其特征在于,所述文本信息是基于搜索引擎对所述目标进行搜索得到的。
6.如权利要求4所述的设备,其特征在于,所述第一生成模块,用于:
根据与目标相关的文本信息进行word2vec的词向量表达训练,生成语义扩展模型;
先对所述文本信息进行文字转拼音处理,生成拼音文本;针对所述拼音文本进行HMM训练,以生成拼音语义扩展模型。
CN201610950729.4A 2016-11-02 2016-11-02 一种目标属性抽取的方法和设备 Active CN106502988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610950729.4A CN106502988B (zh) 2016-11-02 2016-11-02 一种目标属性抽取的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610950729.4A CN106502988B (zh) 2016-11-02 2016-11-02 一种目标属性抽取的方法和设备

Publications (2)

Publication Number Publication Date
CN106502988A CN106502988A (zh) 2017-03-15
CN106502988B true CN106502988B (zh) 2019-06-07

Family

ID=58322205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610950729.4A Active CN106502988B (zh) 2016-11-02 2016-11-02 一种目标属性抽取的方法和设备

Country Status (1)

Country Link
CN (1) CN106502988B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472274B (zh) * 2017-09-07 2022-06-28 富士通株式会社 深度学习分类模型的训练装置和方法
CN109992763A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 语言标注处理方法、系统、电子设备及计算机可读介质
CN108920656A (zh) * 2018-07-03 2018-11-30 龙马智芯(珠海横琴)科技有限公司 文档属性描述内容提取方法和装置
CN111814463B (zh) * 2020-08-24 2020-12-15 望海康信(北京)科技股份公司 国际疾病分类编码推荐方法、系统及相应设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814066A (zh) * 2009-02-23 2010-08-25 富士通株式会社 文本阅读难度判断设备及其方法
CN103150405A (zh) * 2013-03-29 2013-06-12 苏州大学 一种分类模型建模方法、中文跨文本指代消解方法和系统
CN104317846A (zh) * 2014-10-13 2015-01-28 安徽华贞信息科技有限公司 一种语义分析与标注方法及系统
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814066A (zh) * 2009-02-23 2010-08-25 富士通株式会社 文本阅读难度判断设备及其方法
CN103150405A (zh) * 2013-03-29 2013-06-12 苏州大学 一种分类模型建模方法、中文跨文本指代消解方法和系统
CN104317846A (zh) * 2014-10-13 2015-01-28 安徽华贞信息科技有限公司 一种语义分析与标注方法及系统
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法

Also Published As

Publication number Publication date
CN106502988A (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN104915340B (zh) 自然语言问答方法及装置
Orosz et al. PurePos 2.0: a hybrid tool for morphological disambiguation
KR101799681B1 (ko) 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법
CN110210029A (zh) 基于垂直领域的语音文本纠错方法、系统、设备及介质
CN106502988B (zh) 一种目标属性抽取的方法和设备
CN104573099B (zh) 题目的搜索方法及装置
CN109726385A (zh) 词义消歧方法和设备、词义扩展方法和装置
CN105869640A (zh) 识别针对当前页面中的实体的语音控制指令的方法和装置
McCurdy et al. Rhymedesign: A tool for analyzing sonic devices in poetry
JP2015225657A (ja) 対話型検索方法および装置
CN108073565A (zh) 词语规范化的方法和设备及机器翻译方法和设备
CN110222328B (zh) 基于神经网络的分词和词类标注方法、装置、设备及存储介质
Adel et al. Features for factored language models for code-Switching speech.
CN111078893A (zh) 一种大规模高效获取识别对话意图用语料的方法
CN116227466B (zh) 一种语义不同措辞相似的句子生成方法、装置及设备
Virkar et al. Humanizing the chatbot with semantics based natural language generation
CN111191463A (zh) 情感分析方法、装置、电子设备及存储介质
CN110032736A (zh) 一种文本分析方法、装置及存储介质
KR101333485B1 (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
CN106502987B (zh) 一种基于种子句子的句子模板召回的方法和设备
CN106156013A (zh) 一种固定搭配型短语优先的两段式机器翻译方法
Nishihara et al. Word complexity estimation for Japanese lexical simplification
Naptali et al. Class-based n-gram language model for new words using out-of-vocabulary to in-vocabulary similarity
Sarkar Part-of-speech tagging for code-mixed indian social media text at icon 2015
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180503

Address after: 518054 01-02, 14 / F, Yihua financial science and technology building, 2388 Xuefu Road, Nanshan District, Shenzhen, Guangdong.

Applicant after: Guangdong Hui He science and Technology Development Co., Ltd.

Address before: 518000 601 mango net building, Guangdong Hai street, Nanshan District, Shenzhen, Guangdong

Applicant before: Shenzhen city artificial intelligence technology Co., secluded orchid in a deserted Valley

GR01 Patent grant
GR01 Patent grant