CN110377694A - 标注文本对逻辑关系的方法、装置、设备和计算机存储介质 - Google Patents
标注文本对逻辑关系的方法、装置、设备和计算机存储介质 Download PDFInfo
- Publication number
- CN110377694A CN110377694A CN201910493067.6A CN201910493067A CN110377694A CN 110377694 A CN110377694 A CN 110377694A CN 201910493067 A CN201910493067 A CN 201910493067A CN 110377694 A CN110377694 A CN 110377694A
- Authority
- CN
- China
- Prior art keywords
- text
- marked
- texts
- information
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种标注文本对逻辑关系的方法、装置、设备和计算机存储介质,所述方法包括:获取待标注文本对;从每个待标注文本对所包含的两个文本中分别提取预设类型的文本内容,根据所提取的文本内容构建各文本对应的文本信息,所述文本信息中包含各文本的主语、谓语、宾语以及各文本的语句类型;分别确定同一个待标注文本对所包含的两个文本对应的文本信息中的主语以及宾语是否相同,若相同,则通过预设的判定条件,根据所述两个文本对应的文本信息中的谓语以及文本的语句类型,将所述待标注文本对标注为语义一致或语义冲突。本发明能够降低文本对逻辑关系的标注成本,提升文本对逻辑关系的标注准确性。
Description
【技术领域】
本发明涉及自然语言处理技术领域,尤其涉及一种标注文本对逻辑关系的方法、装置、设备和计算机存储介质。
【背景技术】
现有技术在标注文本对逻辑关系时,即标注文本对中两个文本之间是语义一致还是语义冲突,通常由人工采用以下方式进行:根据预先定义的集合,由人工从文本中选取文本中的关系以及实体;再通过预先定义的冲突关系对或者冲突实体对,根据所选取的文本中的关系或者实体来标注两个文本是否为语义冲突。由于预先定义的集合、冲突关系对或者冲突实体对均是基于规则由人工所构建的,因此现有技术中标注文本对逻辑关系的成本较高;而且预先定义的冲突关系对或者冲突实体对中所包含的冲突关系或者冲突实体的数量较少,因此现有技术标注文本对逻辑关系的准确性较低。
【发明内容】
有鉴于此,本发明提供了一种标注文本对逻辑关系的方法、装置、设备和计算机存储介质,用于降低文本对逻辑关系的标注成本,并提升文本对逻辑关系的标注准确性。
本发明为解决技术问题所采用的技术方案为提供一种标注文本对逻辑关系的方法,所述方法包括:获取待标注文本对;从每个待标注文本对所包含的两个文本中分别提取预设类型的文本内容,根据所提取的文本内容构建各文本对应的文本信息,所述文本信息中包含各文本的主语、谓语、宾语以及各文本的语句类型;分别确定同一个待标注文本对所包含的两个文本对应的文本信息中的主语以及宾语是否相同,若相同,则通过预设的判定条件,根据所述两个文本对应的文本信息中的谓语以及文本的语句类型,将所述待标注文本对标注为语义一致或语义冲突。
根据本发明一优选实施例,在获取待标注文本对之后,还包括:确定每个待标注文本对所包含的两个文本的语言是否相同;若否,则将待标注文本对所包含的两个文本转化为相同语言。
根据本发明一优选实施例,所述从每个待标注文本对所包含的两个文本中分别提取预设类型的文本内容包括:对每个待标注文本对所包含的两个文本分别进行语义解析;根据各文本的语义解析结果,分别从各文本中提取预设类型的文本内容。
根据本发明一优选实施例,所述根据所提取的文本内容构建各文本对应的文本信息包括:按照预设的排列顺序,对从各文本中所提取的文本内容进行排序;将各文本的文本内容的排序结果作为各文本对应的文本信息。
根据本发明一优选实施例,在根据所提取的文本内容构建各文本对应的文本信息之后,还包括:根据预设的词语之间的对应关系,获取与各文本对应的文本信息中相应类型的词语所对应的词语;使用所获取的词语替换所述文本信息中与其对应的原词语。
根据本发明一优选实施例,所述预设的判定条件为判定待标注文本对为语义一致的条件,包括:两个文本对应的文本信息中的谓语是近义词且文本的语句类型一致;或者两个文本对应的文本信息中的谓语是反义词且文本的语句类型不一致。
根据本发明一优选实施例,所述预设的判定条件为判定待标注文本对为语义冲突的条件,包括:两个文本对应的文本信息中的谓语是反义词且文本的语句类型一致;或者两个文本对应的文本信息中的谓语是近义词且文本的语句类型不一致。
根据本发明一优选实施例,在将所述待标注文本对标注为语义一致或语义冲突之后,还包括:获取已标注的各文本对及其对应的标注结果作为训练数据;将已标注的各文本对所包含的两个文本作为输入,将已标注的各文本对的标注结果作为输出,训练分类模型,得到文本对语义识别模型。
本发明为解决技术问题所采用的技术方案为提供一种标注文本对逻辑关系的装置,所述装置包括:获取单元,用于获取待标注文本对;构建单元,用于从每个待标注文本对所包含的两个文本中分别提取预设类型的文本内容,根据所提取的文本内容构建各文本对应的文本信息,所述文本信息中包含各文本的主语、谓语、宾语以及各文本的语句类型;标注单元,用于分别确定同一个待标注文本对所包含的两个文本对应的文本信息中的主语以及宾语是否相同,若相同,则通过预设的判定条件,根据所述两个文本对应的文本信息中的谓语以及文本的语句类型,将所述待标注文本对标注为语义一致或语义冲突。
根据本发明一优选实施例,所述获取单元在获取待标注文本对之后,还执行:确定每个待标注文本对所包含的两个文本的语言是否相同;若否,则将待标注文本对所包含的两个文本转化为相同语言。
根据本发明一优选实施例,所述构建单元在从每个待标注文本对所包含的两个文本中分别提取预设类型的文本内容时,具体执行:对每个待标注文本对所包含的两个文本分别进行语义解析;根据各文本的语义解析结果,分别从各文本中提取预设类型的文本内容。
根据本发明一优选实施例,所述构建单元在根据所提取的文本内容构建各文本对应的文本信息时,具体执行:按照预设的排列顺序,对从各文本中所提取的文本内容进行排序;将各文本的文本内容的排序结果作为各文本对应的文本信息。
根据本发明一优选实施例,所述构建单元在根据所提取的文本内容构建各文本对应的文本信息之后,还执行:根据预设的词语之间的对应关系,获取与各文本对应的文本信息中相应类型的词语所对应的词语;使用所获取的词语替换所述文本信息中与其对应的原词语。
根据本发明一优选实施例,所述预设的判定条件为判定待标注文本对为语义一致的条件,包括:两个文本对应的文本信息中的谓语是近义词且文本的语句类型一致;或者两个文本对应的文本信息中的谓语是反义词且文本的语句类型不一致。
根据本发明一优选实施例,所述预设的判定条件为判定待标注文本对为语义冲突的条件,包括:两个文本对应的文本信息中的谓语是反义词且文本的语句类型一致;或者两个文本对应的文本信息中的谓语是近义词且文本的语句类型不一致。
根据本发明一优选实施例,所述装置还包括训练单元,具体执行:获取已标注的各文本对及其对应的标注结果作为训练数据;将已标注的各文本对所包含的两个文本作为输入,将已标注的各文本对的标注结果作为输出,训练分类模型,得到文本对语义识别模型。
由以上技术方案可以看出,本发明在从待标注文本对所包含的两个文本中提取预设类型的文本内容之后,构建各文本对应的文本信息,进而根据同一个待标注文本对包含的两个文本所对应的文本信息以及预设的判定条件,来标注待标注文本对中两个文本之间的逻辑关系是语义一致还是语义冲突,摆脱了对由人工基于规则构建冲突关系对或冲突实体对的依赖,降低了文本对逻辑关系的标注成本,并提升了文本对逻辑关系的标注准确性。
【附图说明】
图1为本发明一实施例提供的一种标注文本对逻辑关系的方法流程图;
图2为本发明一实施例提供的一种标注文本对逻辑关系的装置结构图;
图3为本发明一实施例提供的计算机系统/服务器的框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1为本发明一实施例提供的一种标注文本对逻辑关系的方法流程图,如图1中所示,所述方法包括:
在101中,获取待标注文本对。
在本步骤中,获取待标注文本对。其中,本步骤所获取的每个待标注文本对中分别包含有两个文本。
具体地,本步骤可以通过网络爬虫的方式,将从互联网中爬取到的文本对作为待标注文本对,例如从互联网中爬取聊天机器人与用户进行对话时所生成的上下文;也可以通过人工输入的方式,将人工输入的文本对作为待标注文本对。本发明对获取待标注文本对的方式不进行限定。
可以理解的是,本步骤获取的待标注文本对中的两个文本,可以为相同语言的两个文本,也可以为不同语言的两个文本。举例来说,本步骤获取的某个待标注文本对所包含的两个文本可以为两个汉语文本,也可以为两个英语文本,还可以为一个是汉语文本、一个是英语文本。本发明对待标注文本对所包含文本的语言类型不进行限定。
但是当一个待标注文本对所包含的两个文本属于不同语言时,则可能会降低文本对标注的准确性。因此为了进一步提升文本对标注的准确性,本步骤在获取待标注文本对之后,还可以包含以下内容:确定各待标注文本对所包含的两个文本的语言是否相同;若否,则将待标注文本对所包含的两个文本转化为相同语言。
其中,本步骤在将两个文本转化为相同语言时,可以将两个文本的语言均转化为预设语言,也可以将两个文本的语言转化为其中一个文本的语言。举例来说,若某个待标注文本对中包含有一个汉语文本和一个法语文本,则本步骤可以将这两个文本均转化为英语文本,也可以将汉语文本转化为法语文本或者将法语文本转化为汉语文本。可以理解的是,本发明可以使用文本翻译的方式进行文本语言的转化。
在102中,从每个待标注文本对所包含的两个文本中分别提取预设类型的文本内容,根据所提取的文本内容构建各文本对应的文本信息,所述文本信息中包含各文本的主语、谓语、宾语以及各文本的语句类型。
在本步骤中,从步骤101所获取的每个待标注文本对所包含的两个文本中分别提取预设类型的文本内容,并根据所提取的文本内容构建各文本对应的文本信息,所构建的文本信息中包含各文本的主语、谓语、宾语以及各文本的语句类型。其中,文本信息中文本的语句类型表示文本是肯定语句或者是否定语句,可以使用“POS”表示文本是肯定语句,使用“NEG”表示文本是否定语句。
具体地,本步骤在从每个待标注文本对所包含的两个文本中分别提取预设类型的文本内容时,可以采用以下方式:对每个待标注文本对所包含的两个文本分别进行语义解析;根据各文本的语义解析结果,分别从各文本中提取预设类型的文本内容,进而根据从各文本中所提取的文本内容来构建各文本对应的文本信息。
可以理解的是,本步骤对文本进行语义解析所获取的语义解析结果中,会包含文本所对应的否定词信息,文本对应的否定词信息为文本中是否包含否定词以及文本中包含否定词个数中的至少一种,因此本步骤可以根据文本对应的否定词信息,来获取文本是肯定语句还是否定语句的语句类型。而文本中的谓语、宾语以及主语,则能够根据各文本的语义解析结果直接从文本中进行提取。
其中,本步骤可以使用语义解析器对文本进行语义解析,例如使用自然语言框架语义解析器SLING对文本进行语义解析;也可以使用语义角色标注(Semantic RoleLabelling,SRL)的方法对文本进行语义解析。本发明对文本进行语义解析的方法不进行限定。
举例来说,若文本为“he never goes hiking”,若使用SLING对该文本进行语义解析所得到的语义解析结果为“predicate:goes、ARGM-NEG:never、ARG0:he、ARG1:hiking”。其中,“predicate”为谓语;“ARG0”表示施事者或主体,为主语;“ARG0”表示受事者或动作对象,为宾语;“ARGM-NEG”表示反义词或否定词。因此根据该文本的语义解析结果,从该文本中直接提取“he”、“goes”、“hiking”,并根据该文本中所含有的否定词“never”,确定该文本的语句类型为“NEG”,从而将所提取的(he,goes,hiking,NEG)构建为对应该文本的文本信息。
另外,为了确保所构建的文本信息中所包含内容的一致性性,本步骤在根据所提取的文本内容构建各文本对应的文本信息时,还可以包含以下内容:按照预设的排列顺序,对从各文本中所提取的文本内容进行排序;将各文本的文本内容的排序结果作为各文本对应的文本信息。
举例来说,本步骤可以按照“谓语”、“主语”、“宾语”以及“文本的语句类型”的排列顺序对所提取的文本内容排序,则文本“he never goes hiking”对应的文本信息为(goes,he,hiking,NEG)。
可以理解的是,在一些语言中含义相同的词语会存在不同的时态,而相同含义的词语在不同时态下通常具有不同的形式,例如英语中的“go”的过去时为“went”、现在时为“going”、过去分词为“gone”。而由于含义相同的词语在不同时态下可能存在不同的形式,则容易导致将相同含义的词语识别为多个词语的问题。
因此为了避免上述问题,本步骤在根据所提取的文本内容构建各文本对应的文本信息之后,还可以包含以下内容:根据预设的词语之间的对应关系,获取与文本信息中相应类型的词语所对应的词语,例如获取与文本信息中的谓语或者宾语相对应的词语;使用所获取的词语替换文本信息中与其对应的原词语,从而得到与文本对应的最终文本信息。
举例来说,若文本“he never goes hiking”所对应的文本信息为(goes,he,hiking,NEG),若预设的词语之间的对应关系为“goes-go”以及“hiking-hike”,则本步骤获取与谓语“goes”对应的“go”、获取与宾语“hiking”对应的“hike”,并使用所获取的“go”来替换“goes”、使用“hike”来替换“hiking”,从而得到该文本对应的最终文本信息为(go,he,hike,NEG)。
在103中,分别确定同一个待标注文本对所包含的两个文本对应的文本信息中的主语以及宾语是否相同,若相同,则通过预设的判定条件,根据所述两个文本对应的文本信息中的谓语以及文本的语句类型,将所述待标注文本对标注为语义一致或语义冲突。
在本步骤中,根据步骤102所获取的同一个待标注文本对所包含的两个文本对应的文本信息,首先确定两个文本对应的文本信息中的主语以及宾语是否分别相同,若相同,则进一步根据预设的判定条件,根据两个文本对应的文本信息中的谓语以及文本的语句类型,来将待标注文本对标注为语义一致或语义冲突。
可以理解的是,若本步骤确定待标注文本对所包含的两个文本对应的文本信息中的主语以及宾语并不是分别相同,则将该待标注文本对进行滤除。
具体地,本步骤中的预设判定条件分别包含有判定待标注文本对为语义一致的条件以及判定待标注文本对为语义冲突的条件。
其中,判定待标注文本对为语义一致的条件为:两个文本对应的文本信息中的谓语是近义词且文本的语句类型一致;或者两个文本对应的文本信息中的谓语是反义词且文本的语句类型不一致。
举例来说,若某个待标注文本对的两个文本分别为“i hate red meat”以及“i donot like meat”,根据上述获取文本信息的步骤,获取第一个文本对应的文本信息为(hate,i,meat,POS),获取第二个文本对应的文本信息为(like,i,meat,NEG),其中“like”与“hate”为反义词且“POS”与“NEG”不一致,则将包含以上两个文本的该待标注文本对标注为语义一致。
另外,判定待标注文本对为语义冲突的条件为:两个文本对应的文本信息中的谓语是近义词且文本的语句类型不一致;或者两个文本对应的文本信息中的谓语是反义词且文本的语句类型一致。
举例来说,若某个待标注文本对的两个文本分别为“i dropped out of collegea month ago”以及“i went to college in Chicago”,根据上述获取文本信息的步骤,获取第一个文本对应的文本信息为(drop,i,college,POS),获取第二个文本对应的文本信息为(go,i,college,POS),其中“drop”与“go”为反义词且“POS”与“POS”一致,则将包含以上两个文本的该待标注文本对标注为语义冲突。
其中,本步骤在将待标注文本对标注为语义一致或语义冲突时,可以将语义一致的待标注文本对标注为“1”,将语义冲突的待标注文本对标注为“0”。
具体地,本步骤在确定两个文本对应的文本信息中的谓语是近义词还是反义词时,可以根据预先建立的词典来确定,该预先建立的词典中包含有各词语及其对应的近义词以及反义词;也可以计算文本信息中两个谓语的语义相似度,进而根据计算得到的语义相似度,来确定两个文本对应的两个谓语是近义词还是反义词。
可以理解的是,本步骤在完成了对所获取的待标注文本对的标注之后,还可以包含以下内容:获取已标注的各文本对及其对应的标注结果作为训练数据;将已标注的各文本对所包含的两个文本作为输入,将已标注的各文本对的标注结果作为输出,训练分类模型,得到文本对语义识别模型。
利用训练得到的文本对语义识别模型,能够输出所输入的两个文本所对应的得分,通过输出的得分能够有效地区分语义一致的文本对和语义冲突的文本对。若文本对语义识别模型所输出的分值越高,则表明输入的两个文本之间的语义一致性越高,语义冲突性越低;相反,分值越低则表明输入的两个文本之间的语义一致性越低,语义冲突性越高。
图2为本发明一实施例提供的一种标注文本对逻辑关系的装置结构图,如图2中所示,所述装置包括:获取单元21、构建单元22、标注单元23以及训练单元24。
获取单元21,用于获取待标注文本对。
获取单元21获取待标注文本对。其中,获取单元21所获取的每个待标注文本对中分别包含有两个文本。
具体地,获取单元21可以通过网络爬虫的方式,将从互联网中爬取到的文本对作为待标注文本对;获取单元21也可以通过人工输入的方式,将人工输入的文本对作为待标注文本对。
可以理解的是,获取单元21获取的待标注文本对中的两个文本,可以为相同语言的两个文本,也可以为不同语言的两个文本。
但是当一个待标注文本对所包含的两个文本属于不同语言时,则可能会降低文本对标注的准确性。因此为了进一步提升文本对标注的准确性,获取单元21在获取待标注文本对之后,还可以采用以下方式:确定各待标注文本对所包含的两个文本的语言是否相同;若否,则将待标注文本对所包含的两个文本转化为相同语言。
其中,获取单元21在将两个文本转化为相同语言时,可以将两个文本的语言均转化为预设语言,也可以将两个文本的语言转化为其中一个文本的语言。其中,获取单元21可以使用文本翻译的方式进行文本语言的转化。
构建单元22,用于从每个待标注文本对所包含的两个文本中分别提取预设类型的文本内容,根据所提取的文本内容构建各文本对应的文本信息,所述文本信息中包含各文本的主语、谓语、宾语以及各文本的语句类型。
构建单元22从获取单元21所获取的每个待标注文本对所包含的两个文本中分别提取预设类型的文本内容,并根据所提取的文本内容构建各文本对应的文本信息,所构建的文本信息中包含各文本的主语、谓语、宾语以及各文本的语句类型。其中,文本信息中文本的语句类型表示文本是肯定语句或者是否定语句,可以使用“POS”表示文本是肯定语句,使用“NEG”表示文本是否定语句。
具体地,构建单元22在从每个待标注文本对所包含的两个文本中分别提取预设类型的文本内容时,可以采用以下方式:对每个待标注文本对所包含的两个文本分别进行语义解析;根据各文本的语义解析结果,分别从各文本中提取预设类型的文本内容,进而根据从各文本中所提取的文本内容来构建各文本对应的文本信息。
可以理解的是,构建单元22对文本进行语义解析所获取的语义解析结果中,会包含文本所对应的否定词信息,文本对应的否定词信息为文本中是否包含否定词以及文本中包含否定词个数中的至少一种,因此构建单元22可以根据文本对应的否定词信息,来获取文本是肯定语句还是否定语句的语句类型。而文本中的谓语、宾语以及主语,构建单元22则能够根据各文本的语义解析结果直接从文本中进行提取。
其中,构建单元22可以使用语义解析器对文本进行语义解析,例如使用自然语言框架语义解析器SLING对文本进行语义解析;也可以使用语义角色标注(Semantic RoleLabelling,SRL)的方法对文本进行语义解析。本发明对文本进行语义解析的方法不进行限定。
另外,为了确保所构建的文本信息中所包含内容的一致性性,构建单元22在根据所提取的文本内容构建各文本对应的文本信息时,还可以采用以下方式:按照预设的排列顺序,对从各文本中所提取的文本内容进行排序;将各文本的文本内容的排序结果作为各文本对应的文本信息。
可以理解的是,在一些语言中含义相同的词语会存在不同的时态,而相同含义的词语在不同时态下通常具有不同的形式,例如英语中的“go”的过去时为“went”、现在时为“going”、过去分词为“gone”。而由于含义相同的词语在不同时态下可能存在不同的形式,则容易导致将相同含义的词语识别为多个词语的问题。
因此为了避免上述问题,构建单元22在根据所提取的文本内容构建各文本对应的文本信息之后,还可以包含以下内容:根据预设的词语之间的对应关系,获取与文本信息中相应类型的词语所对应的词语;使用所获取的词语替换文本信息中与其对应的原词语,从而得到与文本对应的最终文本信息。
标注单元23,用于分别确定同一个待标注文本对所包含的两个文本对应的文本信息中的主语以及宾语是否相同,若相同,则通过预设的判定条件,根据所述两个文本对应的文本信息中的谓语以及文本的语句类型,将所述待标注文本对标注为语义一致或语义冲突。
标注单元23根据构建单元22所获取的同一个待标注文本对所包含的两个文本对应的文本信息,首先确定两个文本对应的文本信息中的主语以及宾语是否分别相同,若相同,则进一步根据预设的判定条件,根据两个文本对应的文本信息中的谓语以及文本的语句类型,来将待标注文本对标注为语义一致或语义冲突。
可以理解的是,若标注单元23确定待标注文本对所包含的两个文本对应的文本信息中的主语以及宾语并不是分别相同,则将该待标注文本对进行滤除。
具体地,标注单元23中的预设判定条件分别包含有判定待标注文本对为语义一致的条件以及判定待标注文本对为语义冲突的条件。
其中,判定待标注文本对为语义一致的条件为:两个文本对应的文本信息中的谓语是近义词且文本的语句类型一致;或者两个文本对应的文本信息中的谓语是反义词且文本的语句类型不一致。
另外,判定待标注文本对为语义冲突的条件为:两个文本对应的文本信息中的谓语是近义词且文本的语句类型不一致;或者两个文本对应的文本信息中的谓语是反义词且文本的语句类型一致。
其中,标注单元23在将待标注文本对标注为语义一致或语义冲突时,可以将语义一致的待标注文本对标注为“1”,将语义冲突的待标注文本对标注为“0”。
具体地,标注单元23在确定两个文本对应的文本信息中的谓语是近义词还是反义词时,可以根据预先建立的词典来确定,该预先建立的词典中包含有各词语及其对应的近义词以及反义词;也可以计算文本信息中两个谓语的语义相似度,进而根据计算得到的语义相似度,来确定两个文本对应的两个谓语是近义词还是反义词。
训练单元24,用于训练得到文本对语义识别模型。
标注单元23在完成了对所获取的待标注文本对的标注之后,训练单元24便能够根据标注完成的文本对进行文本对语义识别模型的训练。
具体地,训练单元24在训练得到文本对语义识别模型时,具体执行:获取已标注的各文本对及其对应的标注结果作为训练数据;将已标注的各文本对所包含的两个文本作为输入,将已标注的各文本对的标注结果作为输出,训练分类模型,得到文本对语义识别模型。
利用训练得到的文本对语义识别模型,能够输出所输入的两个文本所对应的得分,通过输出的得分能够有效地区分语义一致的文本对和语义冲突的文本对。若文本对语义识别模型所输出的分值越高,则表明输入的两个文本之间的语义一致性越高,语义冲突性越低;相反,分值越低则表明输入的两个文本之间的语义一致性越低,语义冲突性越高。
如图3所示,计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理单元016,系统存储器028,连接不同系统组件(包括系统存储器028和处理单元016)的总线018。
总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统/服务器012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信,和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元016通过运行存储在系统存储器028中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的方法流程。
随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
利用本发明所提供的技术方案,在从待标注文本对所包含的两个文本中提取预设类型的文本内容之后,构建各文本对应的文本信息,进而根据同一个待标注文本对包含的两个文本所对应的文本信息以及预设的判定条件,来标注待标注文本对中两个文本之间的逻辑关系是语义一致还是语义冲突,摆脱了对由人工基于规则构建冲突关系对或冲突实体对的依赖,降低了文本对逻辑关系的标注成本,并提升了文本对逻辑关系的标注准确性。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (18)
1.一种标注文本对逻辑关系的方法,其特征在于,所述方法包括:
获取待标注文本对;
从每个待标注文本对所包含的两个文本中分别提取预设类型的文本内容,根据所提取的文本内容构建各文本对应的文本信息,所述文本信息中包含各文本的主语、谓语、宾语以及各文本的语句类型;
分别确定同一个待标注文本对所包含的两个文本对应的文本信息中的主语以及宾语是否相同,若相同,则通过预设的判定条件,根据所述两个文本对应的文本信息中的谓语以及文本的语句类型,将所述待标注文本对标注为语义一致或语义冲突。
2.根据权利要求1所述的方法,其特征在于,在获取待标注文本对之后,还包括:
确定每个待标注文本对所包含的两个文本的语言是否相同;
若否,则将待标注文本对所包含的两个文本转化为相同语言。
3.根据权利要求1所述的方法,其特征在于,所述从每个待标注文本对所包含的两个文本中分别提取预设类型的文本内容包括:
对每个待标注文本对所包含的两个文本分别进行语义解析;
根据各文本的语义解析结果,分别从各文本中提取预设类型的文本内容。
4.根据权利要求1所述的方法,其特征在于,所述根据所提取的文本内容构建各文本对应的文本信息包括:
按照预设的排列顺序,对从各文本中所提取的文本内容进行排序;
将各文本的文本内容的排序结果作为各文本对应的文本信息。
5.根据权利要求1所述的方法,其特征在于,在根据所提取的文本内容构建各文本对应的文本信息之后,还包括:
根据预设的词语之间的对应关系,获取与各文本对应的文本信息中相应类型的词语所对应的词语;
使用所获取的词语替换所述文本信息中与其对应的原词语。
6.根据权利要求1所述的方法,其特征在于,所述预设的判定条件为判定待标注文本对为语义一致的条件,包括:
两个文本对应的文本信息中的谓语是近义词且文本的语句类型一致;或者
两个文本对应的文本信息中的谓语是反义词且文本的语句类型不一致。
7.根据权利要求1所述的方法,其特征在于,所述预设的判定条件为判定待标注文本对为语义冲突的条件,包括:
两个文本对应的文本信息中的谓语是反义词且文本的语句类型一致;或者
两个文本对应的文本信息中的谓语是近义词且文本的语句类型不一致。
8.根据权利要求1所述的方法,其特征在于,在将所述待标注文本对标注为语义一致或语义冲突之后,还包括:
获取已标注的各文本对及其对应的标注结果作为训练数据;
将已标注的各文本对所包含的两个文本作为输入,将已标注的各文本对的标注结果作为输出,训练分类模型,得到文本对语义识别模型。
9.一种标注文本对逻辑关系的装置,其特征在于,所述装置包括:
获取单元,用于获取待标注文本对;
构建单元,用于从每个待标注文本对所包含的两个文本中分别提取预设类型的文本内容,根据所提取的文本内容构建各文本对应的文本信息,所述文本信息中包含各文本的主语、谓语、宾语以及各文本的语句类型;
标注单元,用于分别确定同一个待标注文本对所包含的两个文本对应的文本信息中的主语以及宾语是否相同,若相同,则通过预设的判定条件,根据所述两个文本对应的文本信息中的谓语以及文本的语句类型,将所述待标注文本对标注为语义一致或语义冲突。
10.根据权利要求9所述的装置,其特征在于,所述获取单元在获取待标注文本对之后,还执行:
确定每个待标注文本对所包含的两个文本的语言是否相同;
若否,则将待标注文本对所包含的两个文本转化为相同语言。
11.根据权利要求9所述的装置,其特征在于,所述构建单元在从每个待标注文本对所包含的两个文本中分别提取预设类型的文本内容时,具体执行:
对每个待标注文本对所包含的两个文本分别进行语义解析;
根据各文本的语义解析结果,分别从各文本中提取预设类型的文本内容。
12.根据权利要求9所述的装置,其特征在于,所述构建单元在根据所提取的文本内容构建各文本对应的文本信息时,具体执行:
按照预设的排列顺序,对从各文本中所提取的文本内容进行排序;
将各文本的文本内容的排序结果作为各文本对应的文本信息。
13.根据权利要求9所述的装置,其特征在于,所述构建单元在根据所提取的文本内容构建各文本对应的文本信息之后,还执行:
根据预设的词语之间的对应关系,获取与各文本对应的文本信息中相应类型的词语所对应的词语;
使用所获取的词语替换所述文本信息中与其对应的原词语。
14.根据权利要求9所述的装置,其特征在于,所述预设的判定条件为判定待标注文本对为语义一致的条件,包括:
两个文本对应的文本信息中的谓语是近义词且文本的语句类型一致;或者
两个文本对应的文本信息中的谓语是反义词且文本的语句类型不一致。
15.根据权利要求9所述的装置,其特征在于,所述预设的判定条件为判定待标注文本对为语义冲突的条件,包括:
两个文本对应的文本信息中的谓语是反义词且文本的语句类型一致;或者
两个文本对应的文本信息中的谓语是近义词且文本的语句类型不一致。
16.根据权利要求9所述的装置,其特征在于,所述装置还包括训练单元,具体执行:
获取已标注的各文本对及其对应的标注结果作为训练数据;
将已标注的各文本对所包含的两个文本作为输入,将已标注的各文本对的标注结果作为输出,训练分类模型,得到文本对语义识别模型。
17.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~8中任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910493067.6A CN110377694A (zh) | 2019-06-06 | 2019-06-06 | 标注文本对逻辑关系的方法、装置、设备和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910493067.6A CN110377694A (zh) | 2019-06-06 | 2019-06-06 | 标注文本对逻辑关系的方法、装置、设备和计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110377694A true CN110377694A (zh) | 2019-10-25 |
Family
ID=68249942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910493067.6A Pending CN110377694A (zh) | 2019-06-06 | 2019-06-06 | 标注文本对逻辑关系的方法、装置、设备和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377694A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859858A (zh) * | 2020-07-22 | 2020-10-30 | 智者四海(北京)技术有限公司 | 从文本中提取关系的方法及装置 |
CN112269862A (zh) * | 2020-10-14 | 2021-01-26 | 北京百度网讯科技有限公司 | 文本角色标注方法、装置、电子设备和存储介质 |
CN112528641A (zh) * | 2020-12-10 | 2021-03-19 | 北京百度网讯科技有限公司 | 建立信息抽取模型的方法、装置、电子设备和可读存储介质 |
CN113435182A (zh) * | 2021-07-21 | 2021-09-24 | 唯品会(广州)软件有限公司 | 自然语言处理中分类标注的冲突检测方法、装置和设备 |
CN113821601A (zh) * | 2021-09-26 | 2021-12-21 | 北京中经惠众科技有限公司 | 文本对比方法、装置、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160148096A1 (en) * | 2014-11-21 | 2016-05-26 | International Business Machines Corporation | Extraction of semantic relations using distributional relation detection |
CN105989189A (zh) * | 2015-03-16 | 2016-10-05 | 富士通株式会社 | 关系推定方法、关系推定程序以及信息处理装置 |
CN107832290A (zh) * | 2017-10-19 | 2018-03-23 | 中国科学院自动化研究所 | 中文语义关系的识别方法及装置 |
CN109117479A (zh) * | 2018-08-13 | 2019-01-01 | 数据地平线(广州)科技有限公司 | 一种金融文档智能核查方法、装置及存储介质 |
CN109670039A (zh) * | 2018-11-20 | 2019-04-23 | 华南师范大学 | 基于三部图和聚类分析的半监督电商评论情感分析方法 |
-
2019
- 2019-06-06 CN CN201910493067.6A patent/CN110377694A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160148096A1 (en) * | 2014-11-21 | 2016-05-26 | International Business Machines Corporation | Extraction of semantic relations using distributional relation detection |
CN105989189A (zh) * | 2015-03-16 | 2016-10-05 | 富士通株式会社 | 关系推定方法、关系推定程序以及信息处理装置 |
CN107832290A (zh) * | 2017-10-19 | 2018-03-23 | 中国科学院自动化研究所 | 中文语义关系的识别方法及装置 |
CN109117479A (zh) * | 2018-08-13 | 2019-01-01 | 数据地平线(广州)科技有限公司 | 一种金融文档智能核查方法、装置及存储介质 |
CN109670039A (zh) * | 2018-11-20 | 2019-04-23 | 华南师范大学 | 基于三部图和聚类分析的半监督电商评论情感分析方法 |
Non-Patent Citations (1)
Title |
---|
王月: "《基于语言现象的中文文本矛盾关系识别》", 《基于语言现象的中文文本矛盾关系识别》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859858A (zh) * | 2020-07-22 | 2020-10-30 | 智者四海(北京)技术有限公司 | 从文本中提取关系的方法及装置 |
CN111859858B (zh) * | 2020-07-22 | 2024-03-01 | 智者四海(北京)技术有限公司 | 从文本中提取关系的方法及装置 |
CN112269862A (zh) * | 2020-10-14 | 2021-01-26 | 北京百度网讯科技有限公司 | 文本角色标注方法、装置、电子设备和存储介质 |
CN112269862B (zh) * | 2020-10-14 | 2024-04-26 | 北京百度网讯科技有限公司 | 文本角色标注方法、装置、电子设备和存储介质 |
CN112528641A (zh) * | 2020-12-10 | 2021-03-19 | 北京百度网讯科技有限公司 | 建立信息抽取模型的方法、装置、电子设备和可读存储介质 |
CN113435182A (zh) * | 2021-07-21 | 2021-09-24 | 唯品会(广州)软件有限公司 | 自然语言处理中分类标注的冲突检测方法、装置和设备 |
CN113821601A (zh) * | 2021-09-26 | 2021-12-21 | 北京中经惠众科技有限公司 | 文本对比方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108717406B (zh) | 文本情绪分析方法、装置及存储介质 | |
CN110377694A (zh) | 标注文本对逻辑关系的方法、装置、设备和计算机存储介质 | |
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
CN107644011B (zh) | 用于细粒度医疗实体提取的系统和方法 | |
CN110276023B (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
CN109684634B (zh) | 情感分析方法、装置、设备及存储介质 | |
CN109599095A (zh) | 一种语音数据的标注方法、装置、设备和计算机存储介质 | |
CN110046350A (zh) | 文法错误识别方法、装置、计算机设备及存储介质 | |
JP6756079B2 (ja) | 人工知能に基づく三元組チェック方法、装置及びコンピュータプログラム | |
CN109408829B (zh) | 文章可读性确定方法、装置、设备和介质 | |
CN108563655A (zh) | 基于文本的事件识别方法和装置 | |
CN113806550A (zh) | 个性化知识图谱的生成方法、装置及计算机设备 | |
CN110162786A (zh) | 构建配置文件以及抽取结构化信息的方法、装置 | |
CN110232340A (zh) | 建立视频分类模型以及视频分类的方法、装置 | |
CN112860852A (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
CN109543560A (zh) | 一种视频中人物的分割方法、装置、设备和计算机存储介质 | |
CN108121697A (zh) | 一种文本改写的方法、装置、设备和计算机存储介质 | |
CN109446907A (zh) | 一种视频聊天的方法、装置、设备和计算机存储介质 | |
CN109815500A (zh) | 非结构化公文的管理方法、装置、计算机设备及存储介质 | |
CN109815481A (zh) | 对文本进行事件抽取的方法、装置、设备和计算机存储介质 | |
CN113158656A (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
US11176311B1 (en) | Enhanced section detection using a combination of object detection with heuristics | |
CN109933254A (zh) | 展示阅读内容的方法、设备和计算机存储介质 | |
CN111627566A (zh) | 适应症信息处理方法与装置、存储介质、电子设备 | |
CN109670183A (zh) | 一种文本重要性的计算方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |