CN107315739A - 一种语义分析方法 - Google Patents

一种语义分析方法 Download PDF

Info

Publication number
CN107315739A
CN107315739A CN201710568057.5A CN201710568057A CN107315739A CN 107315739 A CN107315739 A CN 107315739A CN 201710568057 A CN201710568057 A CN 201710568057A CN 107315739 A CN107315739 A CN 107315739A
Authority
CN
China
Prior art keywords
data
semantic
semantic analysis
analysis mode
storehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710568057.5A
Other languages
English (en)
Inventor
胡淦
周银行
杨东
董振江
陶苗苗
陈焕
郑中华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Boyue Information Polytron Technologies Inc
Original Assignee
Anhui Boyue Information Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Boyue Information Polytron Technologies Inc filed Critical Anhui Boyue Information Polytron Technologies Inc
Priority to CN201710568057.5A priority Critical patent/CN107315739A/zh
Publication of CN107315739A publication Critical patent/CN107315739A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种语义分析方法。该方法包括接收用户输入的数据、确定数据的任务类型、确定数据的语义解析方式和解析数据,确定语义分析结果等4个步骤。本发明在语义模板库的基础模板库中进行异步并发的语义分析,取得快速高效的数据分析结果,当基础模板库中不存在当前数据的语义分析方式时,自动将该条数据转到网络模板库中进行解析,若解析不到相关信息,转而自动、智能的从搜索引擎中抽取相应解析方式进行解析,从而可以达到提高搜索的智能和准确性。

Description

一种语义分析方法
技术领域
本发明涉及网络技术领域,尤其涉及一种语义分析方法。
背景技术
随着网络的兴起,网络活动已经深入人们日常的生活,用户常常会通过关键字词来搜索自己想要的信息,如用户在搜索引擎上输入关键字词,然后搜索引擎通过关键字的匹配算法等来检索诸如链接、视频和图片之类的信息。然而,由于自然语言在各个层次上广泛存在了各种各样的歧义性或多义性,除了词的本意之外,很可能包含了某些其他隐含的语义,仅仅通过关键字匹配的方法,很难为用户提供精准的搜索信息,甚至会得出毫无相关的结果。
为了加强匹配的相关性,提高搜索的准确性,近年来出现了很多种语义分析方法,其检索的结果更加接近于自然语言的本意。现有的这些方式基本都是在进行大样本数量的统计分析中找出各种词之间的相关性,也有部分采用基于语义知识库的分析方法。
但是现有的这些语义分析方法普遍存在着以下问题:
1、当要分析的隐含语义很多时,对单进程的内存要求较高,训练效率低。
2、语义知识库需要人工编写,耗时耗力,并且对文本中含有的冗余和噪音容错性不强,重用性差。
3、当在语义知识库中查询不到某个数据集的相关信息时,需要手动的去录入该数据集的相关信息,智能性不足,为使用中带来了很多不便。
发明内容
本发明要解决的技术问题是提供一种语义分析方法。
为了解决上述技术问题,本发明采用的技术方案是,一种语义分析方法,包括以下步骤:
(1)接收用户输入的数据;
(2)确定数据的任务类型;
(3)确定数据的语义解析方式;
(4)解析数据,确定语义分析结果。
作为优选,设置语义模板库,所述语义模板库包括基础模板库和网络模板库。
所述基础模板库存储有以前积累并经固定的语义模板,该模板库包括数据的任务类型和其配置的解析方式。
作为进一步优选,所述网络模板库,是在基础模板库中不存在相应信息的时候,自动的从搜索引擎中抽取得到最优语义解析方式的模板库。
作为优选,步骤(2)确定数据的任务类型是对用户输入的数据在语义模板库中的基础模板库中进行分解、匹配,从而寻找到相同或相近的任务类型进行定型。
作为优选,步骤(3)确定数据的语义解析方式,是先根据当前确定的数据任务类型确定语义分析的初步解析方式集;然后采用异步并发机制对初步解析方式集中的每个解析方式进行解析,若其中有一条解析成功,则终止此次解析;若解析不到相关信息,则表明基础模板库中不存在与当前数据相关的信息,则自动将该条数据转到网络模板库中进行解析,若解析不到相关信息,则自动更新网络模板库。
若从基础模板库或网络模板库中解析成功所获取的解析方式,该解析方式即为用户输入数据的语义解析方式。
作为优选,步骤(4)解析数据,确定语义分析结果,是根据获得的解析方式解析当前用户输入的数据,确定该数据的语义分析结果。
作为进一步优选,分解是按照语义模板库中的规则自动分解成模板识别的符号;匹配是对分解后的数据集进行任务类型符号匹配;定型是经过匹配后确定的匹配任务类型,且匹配任务类型有一个或多个,具体通过预设的配置进行设定。
作为进一步优选,初步解析方式集是指由多个语义解析方式组成的集合;异步并发机制是对每个解析方式同时解析。
本发明的有益效果是:
在语义模板库的基础模板库中进行异步并发的语义分析,取得快速高效的数据分析结果,当基础模板库中不存在当前数据的语义分析方式时,自动将该条数据转到网络模板库中进行解析,若解析不到相关信息,转而自动、智能地从搜索引擎中抽取相应解析方式进行解析,从而可以达到提高搜索的智能和准确性。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明语义分析方法实施例的总流程图。
图2是本发明语义分析方法实施例的确认数据类型流程图。
图3是本发明语义分析方法实施例的确定数据解析方式流程图。
图4是本发明语义分析方法实施例的网络模板库的自动更新流程图。
具体实施方式
图1是本发明提出的一种语义分析方法总流程图,包括以下步骤:
步骤S101,接收用户输入的数据;
其中,用户输入的数据为自然语言信息中的文本信息,是用户通过电子设备上安装的输入法软件输入的文本信息。
步骤S102,确定数据的任务类型;
对用户输入数据的任务类型进行分析并确定数据的任务类型,其中一个数据信息确定的任务类型可以是一个或多个,具体通过预设的配置来设定。
步骤S103,确定数据的语义解析方式;
根据确定的任务类型先匹配出各个任务类型的解析方式,形成初步解析方式集,再采用异步并发机制对初步解析方式集中的每个解析方式解析用户输入的数据,当解析成功时,则该解析方式即为确定的用户输入数据的语义解析方式。
步骤S104,解析数据,确定语义分析结果。
根据确定的语义解析方式,解析用户输入的数据,得到最终的语义分析结果。
如图2所示,在上述步骤S102中,确定数据任务类型过程具体包括以下步骤:
步骤S201,将数据导入基础模板库中;
在基础模板库中预存有多种任务类型,进行数据任务类型确定时,先要将用户输入的关键词等数据信息导入到语义模板库中的基础模板库中。
步骤S202,在基础模板库中进行分解、匹配;
将导入的数据自动分解成模板识别的符号,接着采用机器学习方法分别对用户输入的数据信息与基础模板库中预存的各个任务类型进行匹配度分析。
其中机器学习的方法是根据分词方法识别出用户输入数据的所有分解词,然后确定每个任务类型配置的识别词是否包含在所述分解词中,进而依据在分解词中出现的任务类型的识别词个数以及该任务类型的所有识别词的个数计算出用户输入的数据与该任务类型的匹配度。
步骤S203,确定数据任务类型;
将与用户输入的数据信息匹配度最高的一个或多个任务类型,确定为用户输入数据的任务类型。
确定的任务类型个数可以通过预置的匹配度最高的个数进行确定,具体根据用户的需要来配置。
如图3所示,在上述步骤S103中,确定数据的解析方式具体包括以下步骤:
步骤S301,待解析的任务类型;
用户输入数据的任务类型确定后,就需要确定数据的解析方式,将步骤S102中确定的一个或者多个任务类型作为待解析的任务类型。
步骤S302,匹配各任务类型的解析方式;
由于在基础模板库中,每个任务类型都配置有相应的解析方式,将待解析的任务类型与解析方式关系表进行匹配,就可得到各个任务类型的解析方式。
步骤S303,得到初步解析方式集;
将获得的各个解析方式进行集合,确定为初步解析方式集;
步骤S304,采用异步并发机制解析;
采用异步并发机制对所述初步解析方式集中的每个解析方式解析用户输入的数据,判断当前解析是否成功,其中若有一个解析方式解析成功,终止此次解析,若没有解析成功,首先查看初步解析方式集中的所有解析方式是否都被解析完成,若没有解析完成,继续用异步并发机制进行解析,直到解析完成;若解析完成又解析不到相关信息,则表明基础模板库中不存在与用户输入数据相关的信息,则进入步骤S305。
步骤S305,进入网络模板库中解析。
在基础模板库中解析不到相关信息时,会自动将用户输入的数据转到网络模板库中进行解析,若网络模板库中同样解析不到相关信息,则进入步骤S306。
在网络模板库中的解析过程与在基础模板库中解析过程相同。
步骤S306,自动更新网络模板库。
其网络模板库自动更新过程参照图4,在网络模板库中解析不到相关信息时,会将用户输入的数据链接到搜索引擎接口,自动获取解析信息,得到各搜索引擎相关度最高的结果,然后对搜索引擎的结果进行整合分析,经过加权算法得到最优解析方式,最后将该解析方式存入到网络模板库中。
本实施例在接收到用户输入的数据后,会对该数据进行任务类型确定,根据确定的任务类型在基础模板库中匹配出初步解析方式集,进而采用异步并发机制解析出所述用户输入数据的解析方式,当基础模板库中不存在当前数据的语义解析方式时,自动将该条数据转到网络模板库中进行解析,若解析不到相关信息,转而自动、智能地从搜索引擎中抽取相应解析方式,最后根据确定的解析方式解析用户输入的数据。该方法使得语义分析可以快速高效地进行。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。

Claims (7)

1.一种语义分析方法,包括以下步骤:
(1)接收用户输入的数据;
(2)确定数据的任务类型;
(3)确定数据的语义解析方式;
(4)解析数据,确定语义分析结果。
2.如权利要求1所述的语义分析方法,其特征在于,设置语义模板库;所述语义模板库包括基础模板库和网络模板库;
所述基础模板库存储有以前积累并经固定的语义模板,该模板库包括数据的任务类型和其配置的解析方式;
所述网络模板库,是在基础模板库中不存在相应信息的时候,自动的从搜索引擎中抽取得到最优语义解析方式的模板库。
3.如权利要求1所述的语义分析方法,其特征在于,步骤(2)确定数据的任务类型是对用户输入的数据在基础模板库中进行分解、匹配,从而寻找到相同或相近的任务类型进行定型。
4.如权利要求1所述的语义分析方法,其特征在于,步骤(3)确定数据的语义解析方式,是先确定语义分析的初步解析方式集,然后对初步解析方式集中的每个解析方式采用异步并发机制在基础模板库中进行解析,若基础模板库中解析不到相关信息,则表明基础模板库中不存在与当前数据相关的信息,再自动将该条数据转到网络模板库中进行解析,若解析不到相关信息,则自动更新网络模板库;
若从基础模板库或网络模板库中解析成功所获取的解析方式,该解析方式即为用户输入数据的语义解析方式。
5.如权利要求1所述的语义分析方法,其特征在于,步骤(4)解析数据,确定语义分析结果,是根据获得的解析方式解析当前用户输入的数据,确定该数据的语义分析结果。
6.如权利要求3所述的语义分析方法,其特征在于,所述分解是按照语义模板库中的规则自动分解成模板识别的符号;所述匹配是对分解后的数据集进行任务类型符号匹配;所述定型是经过匹配后确定的匹配任务类型,且匹配任务类型有一个或多个,具体通过预设的配置进行设定。
7.如权利要求4所述的语义分析方法,其特征在于,所述初步解析方式集是指由多个语义解析方式组成的集合;所述异步并发机制是对每个解析方式同时解析。
CN201710568057.5A 2017-07-12 2017-07-12 一种语义分析方法 Pending CN107315739A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710568057.5A CN107315739A (zh) 2017-07-12 2017-07-12 一种语义分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710568057.5A CN107315739A (zh) 2017-07-12 2017-07-12 一种语义分析方法

Publications (1)

Publication Number Publication Date
CN107315739A true CN107315739A (zh) 2017-11-03

Family

ID=60178811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710568057.5A Pending CN107315739A (zh) 2017-07-12 2017-07-12 一种语义分析方法

Country Status (1)

Country Link
CN (1) CN107315739A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109040061A (zh) * 2018-08-01 2018-12-18 吉林大学珠海学院 一种数据自动匹配解析方法、系统、装置和存储介质
CN109325166A (zh) * 2018-09-21 2019-02-12 真相网络科技(北京)有限公司 爬虫系统中解析规则配置方法及装置
CN111353292A (zh) * 2020-02-26 2020-06-30 支付宝(杭州)信息技术有限公司 针对用户操作指令的解析方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102291375A (zh) * 2010-06-18 2011-12-21 上海博泰悦臻电子设备制造有限公司 音乐文件及音乐信息的提供系统及提供方法
CN103209245A (zh) * 2012-01-13 2013-07-17 陈九 一种手机上查询汉字偏僻字的方法
CN103268313A (zh) * 2013-05-21 2013-08-28 北京云知声信息技术有限公司 一种自然语言的语义解析方法及装置
CN103309846A (zh) * 2013-06-26 2013-09-18 北京云知声信息技术有限公司 一种自然语言信息的处理方法及装置
CN103838833A (zh) * 2014-02-24 2014-06-04 华中师范大学 基于相关词语语义分析的全文检索系统
CN104090968A (zh) * 2014-07-16 2014-10-08 广东小天才科技有限公司 一种智能信息推送的方法和装置
US20140324908A1 (en) * 2013-04-29 2014-10-30 General Electric Company Method and system for increasing accuracy and completeness of acquired data
US9304648B2 (en) * 2013-06-26 2016-04-05 Google Inc. Video segments for a video related to a task
CN105488025A (zh) * 2015-11-24 2016-04-13 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置
CN106557461A (zh) * 2016-10-31 2017-04-05 百度在线网络技术(北京)有限公司 基于人工智能的语义解析处理方法和装置
CN106649253A (zh) * 2015-11-02 2017-05-10 涂悦 基于后验证的辅助控制方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102291375A (zh) * 2010-06-18 2011-12-21 上海博泰悦臻电子设备制造有限公司 音乐文件及音乐信息的提供系统及提供方法
CN103209245A (zh) * 2012-01-13 2013-07-17 陈九 一种手机上查询汉字偏僻字的方法
US20140324908A1 (en) * 2013-04-29 2014-10-30 General Electric Company Method and system for increasing accuracy and completeness of acquired data
CN103268313A (zh) * 2013-05-21 2013-08-28 北京云知声信息技术有限公司 一种自然语言的语义解析方法及装置
CN103309846A (zh) * 2013-06-26 2013-09-18 北京云知声信息技术有限公司 一种自然语言信息的处理方法及装置
US9304648B2 (en) * 2013-06-26 2016-04-05 Google Inc. Video segments for a video related to a task
CN103838833A (zh) * 2014-02-24 2014-06-04 华中师范大学 基于相关词语语义分析的全文检索系统
CN104090968A (zh) * 2014-07-16 2014-10-08 广东小天才科技有限公司 一种智能信息推送的方法和装置
CN106649253A (zh) * 2015-11-02 2017-05-10 涂悦 基于后验证的辅助控制方法及系统
CN105488025A (zh) * 2015-11-24 2016-04-13 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置
CN106557461A (zh) * 2016-10-31 2017-04-05 百度在线网络技术(北京)有限公司 基于人工智能的语义解析处理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CALZOLARI NICOLETTA 等: "Acquiring and representing semantic information in a lexical knowledge base", 《WORKSHOP OF SIGLEX》 *
蒋兵: "语种识别深度学习方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109040061A (zh) * 2018-08-01 2018-12-18 吉林大学珠海学院 一种数据自动匹配解析方法、系统、装置和存储介质
CN109325166A (zh) * 2018-09-21 2019-02-12 真相网络科技(北京)有限公司 爬虫系统中解析规则配置方法及装置
CN109325166B (zh) * 2018-09-21 2020-11-10 真相网络科技(北京)有限公司 爬虫系统中解析规则配置方法及装置
CN111353292A (zh) * 2020-02-26 2020-06-30 支付宝(杭州)信息技术有限公司 针对用户操作指令的解析方法及装置
CN111353292B (zh) * 2020-02-26 2023-06-16 支付宝(杭州)信息技术有限公司 针对用户操作指令的解析方法及装置

Similar Documents

Publication Publication Date Title
CN107783973B (zh) 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN107797984B (zh) 智能交互方法、设备及存储介质
CN107515877B (zh) 敏感主题词集的生成方法和装置
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
WO2020108063A1 (zh) 特征词的确定方法、装置和服务器
CN106776544A (zh) 人物关系识别方法及装置和分词方法
US10019492B2 (en) Stop word identification method and apparatus
CN106649742A (zh) 数据库维护方法和装置
CN106934068A (zh) 机器人基于环境上下文的语义理解的方法
CN110019729B (zh) 智能问答方法及存储介质、终端
CN110414005B (zh) 意图识别方法、电子设备及存储介质
CN108829682A (zh) 计算机可读存储介质、智能问答方法及智能问答装置
CN104331523B (zh) 一种基于概念对象模型的问句检索方法
CN105630767A (zh) 一种文本相似性的比较方法以及装置
CN109766556B (zh) 一种语料修复的方法和装置
CN107315739A (zh) 一种语义分析方法
CN103336788A (zh) 一种仿人机器人辅助的互联网信息获取方法及系统
CN111651559B (zh) 一种基于事件抽取的社交网络用户关系抽取方法
CN111190873B (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
CN112395391A (zh) 概念图谱构建方法、装置、计算机设备及存储介质
CN112148852A (zh) 一种智能客服方法、装置、存储介质及计算机设备
CN111062211A (zh) 信息提取方法、装置、电子设备及存储介质
CN111950237A (zh) 一种句子改写方法、句子改写装置及电子设备
CN110781673A (zh) 文档验收方法、装置、计算机设备及存储介质
CN107688594B (zh) 基于社交信息的风险事件的识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171103