CN106528540A - 一种种子问句的分词方法和分词系统 - Google Patents

一种种子问句的分词方法和分词系统 Download PDF

Info

Publication number
CN106528540A
CN106528540A CN201611167634.1A CN201611167634A CN106528540A CN 106528540 A CN106528540 A CN 106528540A CN 201611167634 A CN201611167634 A CN 201611167634A CN 106528540 A CN106528540 A CN 106528540A
Authority
CN
China
Prior art keywords
participle
question sentence
seed question
seed
general
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611167634.1A
Other languages
English (en)
Inventor
石忠民
徐叶强
杜锐
吴云标
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Original Assignee
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD filed Critical GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority to CN201611167634.1A priority Critical patent/CN106528540A/zh
Publication of CN106528540A publication Critical patent/CN106528540A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Abstract

本发明提供一种种子问句的分词方法和分词系统,所述分词方法包括:对待分词种子问句进行通用分词;对经过所述通用分词的种子问句进行向量化处理;对经过所述向量化处理的种子问句进行意图分类;根据所述意图分类的结果选择对应的领域分词器;根据所述领域分词器对种子问句进行分词。实施本发明实施例,不仅保证了分词的完整性,而且提高了领域问题的切分精度,减少了语义信息的丢失。

Description

一种种子问句的分词方法和分词系统
技术领域
本发明涉及电数据处理领域,尤其涉及一种种子问句的分词方法和分词系统。
背景技术
分词是计算机信息处理中经常会遇到的问题,现有技术通常仅使用通用分词器对问句进行分词,这样会造成分词的结果比较零碎,不具有语义。
发明内容
有鉴于此,本发明提供一种种子问句的分词方法和分词系统,以解决现有技术分词结果不具有语义的问题。
具体地,本发明是通过如下技术方案实现的:
本发明提供一种种子问句的分词方法,所述分词方法包括:
对待分词种子问句进行通用分词;
对经过所述通用分词的种子问句进行向量化处理;
对经过所述向量化处理的种子问句进行意图分类;
根据所述意图分类的结果选择对应的领域分词器;
根据所述领域分词器对种子问句进行分词。
本发明还提供一种种子问句的分词系统,所述分词系统包括:
通用分词单元,用于对待分词种子问句进行通用分词;
向量化处理单元,用于对经过所述通用分词的种子问句进行向量化处理;
意图分类单元,用于对经过所述向量化处理的种子问句进行意图分类;
领域分词器选择单元,用于根据所述意图分类的结果选择对应的领域分词器;
分词单元,用于根据所述领域分词器对种子问句进行分词。
本发明实施例,对待分词种子问句进行通用分词,对经过通用分词的种子问句进行向量化处理,对经过向量化处理的种子问句进行意图分类,根据意图分类的结果选择对应的领域分词器,根据领域分词器对种子问句进行分词,不仅保证了分词的完整性,而且提高了领域问题的切分精度,减少了语义信息的丢失。
附图说明
图1是本发明一示例性实施例提供的一种种子问句的分词方法的流程图;
图2是本发明一示例性实施例提供的一种种子问句的分词系统的结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
如图1所示为本发明一示例性实施例提供的一种种子问句的分词方法的流程图,所述方法包括:
步骤S101,对待分词种子问句进行通用分词。
在本发明实施例中,种子问句是指含有明确语义且语法正确的问句,如:“北京今天天气怎么样?”,即为一还有明确的语义信息且语法正确的问句,可以作为种子问句。而“今天怎么样北京天气”虽然有部分语义信息表明在询问天气,但不合乎正常的语法表达,因此不能作为种子问句。而“样么怎天气京北今天”不仅语义信息缺失,而且语法信息错误,也不能作为种子问句。
具体的,待分词的种子问句通常通过通用分词器进行通用分词。
步骤S102,对经过所述通用分词的种子问句进行向量化处理。
在本方发明实施例中,经过通用分词的种子问句,分词系统对其进行向量化处理,使其便于后续的分词流程。具体的,种子问句通过one-hot方式进行向量化处理。
步骤S103,对经过所述向量化处理的种子问句进行意图分类。
在本发明实施例中,经过向量化处理的种子问句,分词系统对其进行意图分类,具体的,种子问句通过SVM(Support Vector Machine,支持向量机)进行意图分类。
步骤S104,根据所述意图分类的结果选择对应的领域分词器。
在本发明实施例中,种子问句进行意图分类之后,即可获得意图分类的结果,分词系统选择该结果对应的领域分词器。
步骤S105,根据所述领域分词器对种子问句进行分词。
在本发明实施例中,在确定了领域分词器之后,分词系统通过该领域分词器对种子问句进行分词,并输出分词结果。
本发明实施例,对待分词种子问句进行通用分词,对经过通用分词的种子问句进行向量化处理,对经过向量化处理的种子问句进行意图分类,根据意图分类的结果选择对应的领域分词器,根据领域分词器对种子问句进行分词,不仅保证了分词的完整性,而且提高了领域问题的切分精度,减少了语义信息的丢失。
举例说明:
假设待分词种子问句为:“红烧鱼有哪些做法”,进行意图判断后分为菜谱类意图,经过菜谱领域分词后的结果为“油焖大虾/n,有/v,哪些/r,做法/n,?/w”而采用通用分词器结果为“油/n,焖/v,大虾/n,有/v,哪些/r,做法/n,?/w”,所以该切分方法能有效的保留问句中的菜名信息,从而保证了语义信息的完整性。
如图2所示为本发明一示例性实施例提供的一种种子问句的分词系统的结构图,所述系统包括:
通用分词单元201,用于对待分词种子问句进行通用分词。
在本发明实施例中,种子问句是指含有明确语义且语法正确的问句,如:“北京今天天气怎么样?”,即为一还有明确的语义信息且语法正确的问句,可以作为种子问句。而“今天怎么样北京天气”虽然有部分语义信息表明在询问天气,但不合乎正常的语法表达,因此不能作为种子问句。而“样么怎天气京北今天”不仅语义信息缺失,而且语法信息错误,也不能作为种子问句。
具体的,待分词的种子问句通常通过通用分词器进行通用分词。
向量化处理单元202,用于对经过所述通用分词的种子问句进行向量化处理。
在本方发明实施例中,经过通用分词的种子问句,分词系统对其进行向量化处理,使其便于后续的分词流程。具体的,种子问句通过one-hot方式进行向量化处理。
意图分类单元203,用于对经过所述向量化处理的种子问句进行意图分类。
在本发明实施例中,经过向量化处理的种子问句,分词系统对其进行意图分类,具体的,种子问句通过SVM(Support Vector Machine,支持向量机)进行意图分类。
领域分词器选择单元204,用于根据所述意图分类的结果选择对应的领域分词器。
在本发明实施例中,种子问句进行意图分类之后,即可获得意图分类的结果,分词系统选择该结果对应的领域分词器。
分词单元205,用于根据所述领域分词器对种子问句进行分词。
在本发明实施例中,在确定了领域分词器之后,分词系统通过该领域分词器对种子问句进行分词,并输出分词结果。
本发明实施例,对待分词种子问句进行通用分词,对经过通用分词的种子问句进行向量化处理,对经过向量化处理的种子问句进行意图分类,根据意图分类的结果选择对应的领域分词器,根据领域分词器对种子问句进行分词,不仅保证了分词的完整性,而且提高了领域问题的切分精度,减少了语义信息的丢失。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (8)

1.一种种子问句的分词方法,其特征在于,所述分词方法包括:
对待分词种子问句进行通用分词;
对经过所述通用分词的种子问句进行向量化处理;
对经过所述向量化处理的种子问句进行意图分类;
根据所述意图分类的结果选择对应的领域分词器;
根据所述领域分词器对种子问句进行分词。
2.如权利要求1所述的分词方法,其特征在于,所述待分词种子问句通过通用分词器进行通用分词。
3.如权利要求1所述的分词方法,其特征在于,所述待分词种子问句通过one-hot方式进行向量化处理。
4.如权利要求1所述的分词方法,其特征在于,所述待分词种子问句通过支持向量机SVM进行意图分类。
5.一种种子问句的分词系统,其特征在于,所述分词系统包括:
通用分词单元,用于对待分词种子问句进行通用分词;
向量化处理单元,用于对经过所述通用分词的种子问句进行向量化处理;
意图分类单元,用于对经过所述向量化处理的种子问句进行意图分类;
领域分词器选择单元,用于根据所述意图分类的结果选择对应的领域分词器;
分词单元,用于根据所述领域分词器对种子问句进行分词。
6.如权利要求5所述的分词系统,其特征在于,所述待分词种子问句通过通用分词器进行通用分词。
7.如权利要求5所述的分词系统,其特征在于,所述待分词种子问句通过one-hot方式进行向量化处理。
8.如权利要求5所述的分词系统,其特征在于,所述待分词种子问句通过支持向量机SVM进行意图分类。
CN201611167634.1A 2016-12-16 2016-12-16 一种种子问句的分词方法和分词系统 Pending CN106528540A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611167634.1A CN106528540A (zh) 2016-12-16 2016-12-16 一种种子问句的分词方法和分词系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611167634.1A CN106528540A (zh) 2016-12-16 2016-12-16 一种种子问句的分词方法和分词系统

Publications (1)

Publication Number Publication Date
CN106528540A true CN106528540A (zh) 2017-03-22

Family

ID=58340872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611167634.1A Pending CN106528540A (zh) 2016-12-16 2016-12-16 一种种子问句的分词方法和分词系统

Country Status (1)

Country Link
CN (1) CN106528540A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402916A (zh) * 2017-07-17 2017-11-28 广州特道信息科技有限公司 中文文本的分词方法及装置
CN107451117A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 英文文本的分词方法及装置
CN107463550A (zh) * 2017-07-17 2017-12-12 广州特道信息科技有限公司 英文文本的分词方法及装置
WO2020007027A1 (zh) * 2018-07-04 2020-01-09 平安科技(深圳)有限公司 线上问答方法、装置、计算机设备和存储介质
CN111444316A (zh) * 2020-03-11 2020-07-24 浙江大学 一种面向知识图谱问答的复合问句解析方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020167A (zh) * 2012-11-26 2013-04-03 南京大学 一种计算机中文文本分类方法
CN103412878A (zh) * 2013-07-16 2013-11-27 西安交通大学 基于领域知识地图社区结构的文档主题划分方法
CN104050256A (zh) * 2014-06-13 2014-09-17 西安蒜泥电子科技有限责任公司 基于主动学习的问答方法及采用该方法的问答系统
CN105516499A (zh) * 2015-12-14 2016-04-20 北京奇虎科技有限公司 一种对短信进行分类的方法、装置、通信终端及服务器
CN105912528A (zh) * 2016-04-18 2016-08-31 深圳大学 一种问句分类方法及系统
CN106021626A (zh) * 2016-07-27 2016-10-12 成都四象联创科技有限公司 基于数据挖掘的数据搜索方法
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020167A (zh) * 2012-11-26 2013-04-03 南京大学 一种计算机中文文本分类方法
CN103412878A (zh) * 2013-07-16 2013-11-27 西安交通大学 基于领域知识地图社区结构的文档主题划分方法
CN104050256A (zh) * 2014-06-13 2014-09-17 西安蒜泥电子科技有限责任公司 基于主动学习的问答方法及采用该方法的问答系统
CN105516499A (zh) * 2015-12-14 2016-04-20 北京奇虎科技有限公司 一种对短信进行分类的方法、装置、通信终端及服务器
CN105912528A (zh) * 2016-04-18 2016-08-31 深圳大学 一种问句分类方法及系统
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN106021626A (zh) * 2016-07-27 2016-10-12 成都四象联创科技有限公司 基于数据挖掘的数据搜索方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402916A (zh) * 2017-07-17 2017-11-28 广州特道信息科技有限公司 中文文本的分词方法及装置
CN107451117A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 英文文本的分词方法及装置
CN107463550A (zh) * 2017-07-17 2017-12-12 广州特道信息科技有限公司 英文文本的分词方法及装置
WO2020007027A1 (zh) * 2018-07-04 2020-01-09 平安科技(深圳)有限公司 线上问答方法、装置、计算机设备和存储介质
CN111444316A (zh) * 2020-03-11 2020-07-24 浙江大学 一种面向知识图谱问答的复合问句解析方法
CN111444316B (zh) * 2020-03-11 2023-08-29 浙江大学 一种面向知识图谱问答的复合问句解析方法

Similar Documents

Publication Publication Date Title
CN106528540A (zh) 一种种子问句的分词方法和分词系统
CN104020991B (zh) 应用程序的多语言切换方法及装置
Fenger Histology of the anal canal
US20130066889A1 (en) Obscuring Search Results to Increase Traffic to Network Sites
CN108416212A (zh) 应用程序识别方法和装置
WO2011092182A1 (en) Systems and methods for finding star structures as communities in networks
CN103793462A (zh) 网址净化方法及装置
US20180121422A1 (en) Techniques for providing visual translation cards including contextually relevant definitions and examples
CN108897869A (zh) 语料标注方法、装置、设备和存储介质
US8353035B1 (en) Systems and methods for creating text signatures for identifying spam messages
US20150161113A1 (en) Document translation including pre-defined term translator and translation model
CN108376146A (zh) 基于域的影响评分
CN110188327A (zh) 文本去口语化方法及装置
CN113988915A (zh) 用于定位产品客群的方法及装置、电子设备、存储介质
CN108052666A (zh) 一种内容推荐方法和装置
CN109948033A (zh) 一种垂直领域源数据过滤方法及装置
Althawab Modality in English and Arabic: Description and analysis
WO2016018743A1 (en) Password configuration and login
CN110069233B (zh) 控制显示与车载系统适配的应用通知的方法、设备及车辆
Rösner et al. Expression of a paired helical filament tau epitope in embryonic chicken central nervous system
Rorbach et al. C7orf30 is necessary for biogenesis of the large subunit of the mitochondrial ribosome
US20170277728A1 (en) Hiding nodes in a tree containing shared subtrees
KR20150101635A (ko) 키워드에 대응하는 컨텐츠를 제공하는 컨텐츠 제공 방법 및 상기 방법을 수행하는 사용자 단말
Röder Energy landscaping: on the relationship between functionality and sequence mutations for multifunctional biomolecules
Sarhane et al. A Critical Analysis of the Differential Impact of Muscle and Schwann Cell Denervation on Functional Recovery in a Novel Animal Model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170322