CN113609837A - 一种笔录信息的提取方法及装置 - Google Patents
一种笔录信息的提取方法及装置 Download PDFInfo
- Publication number
- CN113609837A CN113609837A CN202110418432.4A CN202110418432A CN113609837A CN 113609837 A CN113609837 A CN 113609837A CN 202110418432 A CN202110418432 A CN 202110418432A CN 113609837 A CN113609837 A CN 113609837A
- Authority
- CN
- China
- Prior art keywords
- text
- information
- extracting
- relationship
- semantic block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种笔录信息的提取方法及装置,当需要从笔录文本中提取人物的相关信息时,首先从对从笔录文本中提取第一文本,其中,第一文本包含人物相关信息。然后,从该第一文本中提取第一要素、第二要素和第三要素,其中,第一要素,即主体,可以反映笔录文本中的人称等信息,第二要素,即主体之间的关系,可以反映笔录文本中各个主体之间的人物关系,第三要素,即各个主体的属性,可以反映笔录文本中各个主体的属性信息。根据预设关系识别规则,分别建立第一要素与第二要素、第一要素与第三要素之间的对应关系,这样,可以准确且完整地提取笔录文本中各个主体、与主体相关的人物关系以及属性信息。
Description
技术领域
本申请涉及文本处理领域,尤其涉及一种笔录信息的提取方法及装置。
背景技术
询问笔录(record of question)和讯问笔录(interrogation record)都是刑事诉讼活动重要的文本资料,询问笔录和讯问笔录因其真实性所以具有高度的可参考性。
只有准确、完整地提取询问笔录和讯问笔录中的信息,才能够继续利用这些信息来准确分析案情,可见,笔录信息提取的准确性和完整性尤为重要。但是,通常询问笔录和讯问笔录的信息都是通过人工进行梳理,这样就需要人工通读整份笔录,以从中提取有效的信息,工作量非常大,而且,容易出现错漏。
发明内容
本申请提供了一种笔录信息的提取方法及装置,以提高笔录信息提取的准确性和完整性。
第一方面,本申请提供了一种笔录信息的提取方法,所述方法包括:
从笔录文本中提取第一文本,所述第一文本是指包含人物相关信息的文本;
从所述第一文本中提取第一要素、第二要素和第三要素,所述第一要素是指所述第一文本中的各个主体,所述第二要素是指所述各个主体之间的关系,所述第三要素是指所述各个主体的属性;
根据预设关系识别规则,分别建立所述第一要素与所述第二要素、所述第一要素与所述第三要素之间的对应关系。
第二方面,本申请提供了一种笔录信息的提取装置,所述装置包括:
第一提取单元,用于从笔录文本中提取第一文本,所述第一文本是指包含人物相关信息的文本;
第二提取单元,用于从所述第一文本中提取第一要素、第二要素和第三要素,所述第一要素是指所述第一文本中的各个主体,所述第二要素是指所述各个主体之间的关系,所述第三要素是指所述各个主体的属性;
关系构建单元,用于根据预设关系识别规则,分别建立所述第一要素与所述第二要素、所述第一要素与所述第三要素之间的对应关系。
由以上技术可知,当需要从笔录文本中提取人物的相关信息时,首先从对从笔录文本中提取第一文本,其中,第一文本包含人物相关信息。然后,从该第一文本中提取第一要素、第二要素和第三要素,其中,第一要素,即主体,可以反映笔录文本中的人称等信息,第二要素,即主体之间的关系,可以反映笔录文本中各个主体之间的人物关系,第三要素,即各个主体的属性,可以反映笔录文本中各个主体的属性信息。根据预设关系识别规则,分别建立第一要素与第二要素、第一要素与第三要素之间的对应关系,这样,可以准确且完整地提取笔录文本中各个主体、与主体相关的人物关系以及属性信息。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种笔录信息的提取方法的流程示意图;
图2为本申请实施例提供的一种填补笔录文本中的零代词的流程示意图;
图3为本申请提供的一种提取第一文本的流程示意图;
图4为本申请实施例提供的一种提取第一要素的流程示意图;
图5为本申请实施例提供的一种提取第二要素的流程示意图;
图6为本申请实施例提供的一种建立第一要素与第二要素之间的对应关系的流程示意图;
图7为本申请实施例提供的一种建立第一要素与第三要素之间的对应关系的流程示意图;
图8为本申请实施例提供的一种实现笔录信息的提取方式的第一种装置的结构示意图;
图9为本申请实施例提供的一种实现笔录信息的提取方式的第二种装置的结构示意图;
图10为本申请实施例提供的一种实现笔录信息的提取方式的第三种装置的结构示意图;
图11为本申请实施例提供的一种实现笔录信息的提取方式的第四种装置的结构示意图;
图12为本申请实施例提供的一种实现笔录信息的提取方式的第五种装置的结构示意图;
图13为本申请实施例提供的一种实现笔录信息的提取方式的第六种装置的结构示意图;
图14为本申请实施例提供的一种实现笔录信息的提取方式的第七种装置的结构示意图;
图15为本申请实施例提供的一种实现笔录信息的提取方式的第八种装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
询问笔录(record of question)和讯问笔录(interrogation record)都是刑事诉讼活动重要的文本资料,询问笔录和讯问笔录因其真实性所以具有高度的可参考性。
只有准确、完整地提取询问笔录和讯问笔录中的信息,才能够继续利用这些信息来准确分析案情,可见,笔录信息提取的准确性和完整性尤为重要。但是,通常询问笔录和讯问笔录的信息都是通过人工进行梳理,这样就需要人工通读整份笔录,以从中提取有效的信息,工作量非常大,而且,容易出现错漏。
为了解决上述问题,本申请提供了一种笔录信息的提取方法,可以准确地提取笔录文本中的人物相关信息,可见参见图1,图1为本申请实施例提供的一种笔录信息的提取方法的流程示意图,所述方法包括:
S101、从笔录文本中提取第一文本,所述第一文本是指包含人物相关信息的文本。
笔录文本是指询问笔录和讯问笔录,例如“问:你介绍一下自己。答:我叫黎××,男,19××年×月×日出生,汉族,高中文化,户籍所在地贵州省福泉市,现住福泉市××镇××路,现在在家务农,居民身份证号为××××××××××××××××××,联系电话为×××××××××××。”在笔录文本中,具有较高参考价值的信息,就是人物相关信息,例如姓名、性别、出生日期、民族、教育程度、籍贯、住址、联系电话等,由上例可见,这些信息包含在证人、被害人、犯罪嫌疑人等与回答相关的文本中,在一些实施例中,与人物的相关信息还包括与其它人物之间的关系,例如亲属、朋友、同学等。因此,为了能够快速提取笔录文本中的高价值信息,需要首先从笔录文本中提取包含准确、完整的人物相关信息的文本,在本实施例中也就是与回答相关的文本,可以将其定义为第一文本。
基于中文的语言环境,笔录文本中通常会存在一种代词缺失(pro-dropped)的现象,即读者能够根据上下文的语义推断出来的部分会被省略,而被省略的部分在句子中又承担相应的句法成分,并且回指前文中的某个语言单位,通常该句法成分为代词,因此,被省略的部分可以称为零代词,或者零指代项,被指向的语言单位可以称为先行语。示例地,“问:你的家庭主要成员?答:家里有母亲姜××。今年85岁。”在上述示例中,根据上文语义可知,回答“家里有母亲姜××”中的“家里”是“我”的,“母亲姜××”也是“我”的,可见,省略了主语代词“我”。显然,在确定笔录文本中零代词的过程中,需要依据相关人员的提问,因此,为了能够准确确定笔录文本中的零代词,需要在提取第一文本之前,针对笔录文本来确定零代词,并填补笔录文本中的零代词,以得到更加完整、准确的笔录文本(主要指与回答相关的部分,即后续需要提取的第一文本)。
图2为本申请实施例提供的一种填补笔录文本中的零代词的流程示意图,如图2所示,所述方法包括:
S201、将所述笔录文本划分为单个句子。
首先将笔录文本划分为单个句子,以单个句子为基本单元,进行零代词的确定以及填补。以“问:你的家庭主要成员?答:家里有母亲姜××,今年85岁。”为例,划分后的单个句子分别是“问:你的家庭主要成员?”、“答:家里有母亲姜××。”以及“今年85岁。”。
S202、分析所述单个句子的句子成分,确定所述单个句子中的零代词,以及所述零代词在所述单个句子中的位置。
通过分析每个单个句子的句子成分,可以确定单个句子中所缺少的句子成分(也就是上文提到的句法成分),上例中,“家里有母亲姜××”缺乏主语代词,由前文分析可知,回答“家里有母亲姜××”中的“家里有”和“母亲姜××”之前都缺少主语代词。因此,可以确定该单个句子中的零代词是主语代词,且在单个句子中的位置是“家里有”和“母亲姜××”之前。
S203、根据上下文语义,确定与所述零代词对应的目标代词。
可以单个句子在笔录文本中的上下文的语义来确定所确定出的零代词的具体内容,即目标代词。在上例中,主要是根据上文(也就是“你的家庭主要成员?”)的语义来确定零代词(主语代词)对应的目标代词,通过“你的家庭主要成员?”的语义可知,回答中的“家里有”以及“母亲姜××”均是针对“你的”的回答,而提问中的“你的”在回答中就是“我的”,由此,目标代词就是“我的”。
S204、根据所述零代词在所述单个句子中的位置,将所述目标代词插入所述单个句子,得到填补后的笔录文本。
将目标代词插入单个句子中的相应位置,对单个句子进行填补,接上例,可以得到填补后的笔录文本“我的家里有我的母亲姜××。”。具体的,可以通过规则替换的方式进行填补,即将A字符串替换为B字符串,仍接上例,A字符串是指“答:家里有”,用$1表示“答:”,用$2表示“家里有”,替换后的B字符串即为“$1我的$2”,这样就可以得到填补后的笔录文本“我的家里有我的母亲姜××。”。
可见,填补后的笔录文本中的人物信息更加准确和清晰,可以有效提高后续从笔录文本中提取的第一文本的准确度和完整性。
图3为本申请提供的一种提取第一文本的流程示意图,如图3所示,所述方法包括:
S301、按照换行符将所述笔录文本划分为段落。
基于S201-S204得到填补后的笔录文本之后,可以从该笔录文本中提取第一文本。首先,将笔录文本划分为段落,以每一个段落为基本单元,进行第一文本的提取。以下述笔录文本为例:
“问:怎么通知你?
答:你们通知我母亲姜××,电话是1××××××××××。(相关人员于2021年5月16日9时10分已经通过电话:3××××××××××和何××的母亲姜××取得联系,并将何××被传唤的原因告诉了姜××。)
问:你的儿女信息是什么?
答:我大女儿:何一 13岁 小学六年级;
我二儿子:何二 12岁 读小学四年级;
我三儿子:何三 10岁 读小学二年级;
我四女儿:何四 7岁 读小学一年级。”
按照文本中的换行符对笔录文本进行划分,得到多个段落,分别为“问:怎么通知你?”、“答:你们通知我母亲姜××,电话是1××××××××××。(相关人员于2021年5月16日9时10分已经通过电话:3××××××××××和何××的母亲姜××取得联系,并将何××被传唤的原因告诉了姜××。)”、“问:你的儿女信息是什么?”、“答:我大女儿:何一 13岁 小学六年级;”、“我二儿子:何二 12岁 读小学四年级;”、“我三儿子:何三10岁 读小学二年级;”以及“我四女儿:何四 7 岁 读小学一年级。”。
由S101中的阐述可知,第一文本是包含人物相关信息的文本,是指与回答相关的部分,因此,为了便于后续对第一文本提取的高效性和准确性,可以剔除笔录文本中的无效信息,在本实施例中,无效信息是指与提问相关的部分。通常,与提问相关的部分在段落的起始位置都会有明确的标识,例如“问:”,此时,可以通过识别这些标识,确定与提问相关的部分,在本实施例中即为“问:怎么通知你?”和“问:你的儿女信息是什么?”。在确定了这些无效信息之后,就可以从已经划分的段落中将其剔除,得到有效信息,即“答:你们通知我母亲姜××,电话是1××××××××××。(相关人员于 2021年5月16日9时10分已经通过电话:3××××××××××和何××的母亲姜××取得联系,并将何××被传唤的原因告诉了姜××。)”、“答:我大女儿:何一 13 岁 小学六年级;”、“我二儿子:何二 12岁 读小学四年级;”、“我三儿子:何三 10 岁 读小学二年级;”以及“我四女儿:何四 7岁 读小学一年级。”。
S302、识别每一个所述段落中的主体语义块,所述主体语义块是指包含所述主体的短语。
所要提取的第一文本是有关于人物的相关信息,因此,需要首先确定文本中的人物,通常,笔录文本中的人物就是指笔录文本中的主体,一般是句子的主语部分,在本实施例中可以将其定义为主体语义块,该主体语义块可以为分词、短语等形式。
以S301中提取的有效的段落为主体语义块的识别单元,可以通过抽取表达式对每个段落中的主体语义块进行识别和抽取。在本实施例中,可以采用如下抽取表达式对各个段落的语料进行抽取,例如“@(c_指示代词)[^,。:\n]{0,8}的?(c_其他指代词)@”、“@(c_指代概念*)@”、“@(c_指代概念*)的?(c_关系概念*)@”、“@(PD_nr)的? (c_关系概念)@”等。其中,“@”与“@”之间的部分为需要识别和提取的文本;“(c_ 指示代词)”引用指示代词的概念,指示代词的概念值可以设置为“[这那]一?个”,用于抽取笔录文本中的指示代词;“[^,。:\n]{0,8}”是正则表达式,表示“(c_指示代词)”这个概念与“(c_其他指代词)”这个概念的概念值所匹配字符串之间的距离为0-9个字符(包含0个字符和8个字符);“的?”是指所抽取的文本中可以包含“的”,也可以不包含;“(c_指代概念*)”是指通配“(c_指代概念)”下所有概念的概念值,包括“(c_ 指代概念)”本身的概念值,“指代概念”可以包括“指示代词”、“次序表指代”、“表人名词”、“其他指代词”等;“(c_关系概念*)”是指人物之间的关系,例如“母亲”、“父亲”、“弟弟”、“姐姐”等;“(PD_nr)”是指匹配利用算法识别出的人名。在一些实施例中,可以根据所要提取的人物相关信息,设定抽取表达式,此处不一一列举。
以S301中提取获得的有效的段落为例,利用各个抽取表达式抽取主体语义块,可以得到“你们”、“我母亲姜××”、“何××的母亲姜××”、“何××”、“姜××”、“我大女儿:何一”、“我二儿子:何二”、“我三儿子:何三”以及“我四女儿:何四”。
其中,需要注意的是,如果通过抽取表达式识别到的主体语义块中存在一个较长字符串,且该较长字符串由多个较短字符串组成,每个较短字符串也符合抽取表达式的抽取规则时,只提取该较长字符串。例如,主体语义块的抽取结果包括“何××的母亲姜××”、“何××”、“姜××”,则只抽取“何××的母亲姜××”,这样,可以有效保证所抽取的文本的完整性和准确性,利于后续对所抽取的第一文本的分析。
通过S301提取到的有效段落,并非全部都包含人物相关信息,此时,需要再次对这些有效段落进行进一步的筛选,具体如下。
S303、确定所述主体语义块所在的短句。
首先,仍然需要先确定包含主体语义块的短句,只有存在主体语义块的短句,才会对应存在人物相关信息。根据S302中确定的主体语义块,可以确定各个主体语义块所在的短句,例如主体语义块“你们”和“我母亲姜××”所在的短句为“你们通知我母亲姜××,电话是1××××××××××。”
S304、以每一个所述短句的开始位置为切割点,将所述段落划分为多个信息段。
以S303确定的每一个短句的开始位置为切割点,可以继续将S301得到的段落进行细分,得到多个信息段,这样,每个信息段都包含至少一个主体语义块。在本实施例中,信息段分别为“你们通知我母亲姜××,电话是1××××××××××。”、“(相关人员于2021年5月16日9时10分已经通过电话:3××××××××××和何××的母亲姜××取得联系,”、“并将何××被传唤的原因告诉了姜××。)”、“答:我大女儿:何一 13 岁 小学六年级;”、“我二儿子:何二 12岁 读小学四年级;”、“我三儿子:何三 10 岁 读小学二年级;”以及“我四女儿:何四 7岁 读小学一年级。”。
S305、识别所述多个信息段中的所述第三要素。
在本实施例中,可以将用于描述主体属性的短语定义为第三要素,这些第三要素是主体(人物)的主要描述信息,第三要素可以包括:人物的年龄、出生年月、性别、学历、民族、身份证号码、籍贯、居住地、职业、联系电话、语言、身高、体型等。
可以利用抽取表达式对第三要素进行识别和抽取,也可以预先为第三要素建立语料库,通过计算信息段中每个分词或者短语与语料库中的分词或者短语的距离,来识别和提取第三要素,也可以采用其它方式来识别和抽取第三要素,此处不一一列举。需要注意的是,如果所识别到的第三要素包含一个较长字符串,该较长字符串由多个较短字符串组成,且每个较短字符串也符合识别规则时,则只提取该较长字符串,以保证提取到的第三要素的完整性和准确性。以S304得到的多个信息段为例,可以提取到第三要素分别为“电话是1××××××××××”、“电话:3××××××××××”、“13岁”、“小学六年级”、“12岁”、“小学四年级”、“10岁”、“小学二年级”、“7岁”以及“小学一年级”。
S306、如果所述多个信息段中的所述第三要素与所述主体语义块符合预设判断规则,则确定所述多个信息段为所述第一文本。
设定预设判断规则,用于筛选可以作为第一文本的文本内容,例如,可以设定预设判断规则为所述多个信息段包含至少三个所述第三要素,以保证对所提取的第一文本的准确性,由S305中提取得到的第三要素的数量可知,显然,S304中所提取的多个信息段符合该预设判断规则,因此,S304所提取的多个信息段可以作为第一文本被提取出来。或者,可以设定预设判断规则为在每个所述信息段中,所述主体语义块位于所述信息段中的第一个所述第三要素之前,且所述主体语义块与所述第一个所述第三要素符合预设格式规则。其中,预设格式规则可以为,所述主体语义块位于所述信息段中的第一个所述第三要素之前,且主体语义块与所在信息段中的第一个第三要素之间的距离为0,或者主体语义块与所在信息段中的第一个第三要素之间的距离不为0,但是两者之间仅包含空格、tab或者“,”等字符串。例如,S304中所提取的信息段“你们通知我母亲姜××,电话是1××××××××××。”,其中,主体语义块为“我母亲姜××”,其所在信息段的第一个第三要素为“电话是1××××××××××”,两者之间的距离不为0,但是,两者之间仅包含字符串“,”,因此,该信息段为应该被抽取的第一文本。又如, S304中所提取的信息段“(相关人员于2021年5月16日9时10分已经通过电话:3××××××××××和何××的母亲姜××取得联系,”,其中,主体语义块为“何××的母亲姜××”,第一个第三要素为“电话:3××××××××××”,显然,第一个第三要素在主体语义块之后,不符合预设判断规则,因此,该信息段不是所要提取的第一文本。由上述可知,对于设定不同的预设判断规则,所提取到的第一文本也略有不同,例如,上述第二种预设判断规则所提取的第一文本比第一种预设判断规则所提取的第一文本要少信息段“(相关人员于2021年5月16日9时10分已经通过电话:3××××××××××和何××的母亲姜××取得联系,”,但是,上述第二种预设判断规则所提取的第一文本更加精简。无论采用哪一种预设判断规则,都可以抽取到包含与主体相关的全部人物相关信息,即完整的第一文本。而且,由上文提取过程可知,在提取到第一文本的同时,可以提取到第一文本中的第三要素。
S102、从所述第一文本中提取第一要素、第二要素和第三要素,所述第一要素是指所述第一文本中的各个主体,所述第二要素是指所述各个主体之间的关系,所述第三要素是指所述各个主体的属性。
通过S101可以提取到包含与主体相关信息的文本,即第一文本,此时,为了进一步梳理与主体相关的信息,例如主体之间的关系、主体的相关属性等,需要从第一文本中提取主体,以及与主体相关的要素,如第一要素,是指第一文本中的主体,第二要素,是指各个主体之间的关系,第三要素,是指主体的属性信息。
图4为本申请实施例提供的一种提取第一要素的流程示意图,如图4所示,所述方法包括:
S401、识别所述主体语义块中的第一关系词,所述第一关系词表示并列关系。
由S302可以提取到第一文本中的各个主体语义块,由S302提取主体语义块的规则(提取较长字符串)可知,主体语义块中可能会包含多个短语,例如,主体语义块为“我的母亲姜××和李×”,其中包含短语“我的母亲姜××”和“李×”。此时,就需要进一步分析主体语义块中的多个短语之间的关系,以确定这些短语所对应的主体是否为同一个。
通过识别表示并列关系的词语,可以识别包含有并列关系短语的主体语义块,在本实施例中可以将表示并列关系的词语定义为第一关系词,例如“和”、“或”、“同”、“跟”等,可以通过抽取表达式识别第一关系词,例如“@((PD_nr)丨(c_人称代词*))((c_ 并列短语切分符)((PD_nr)丨(c_人称代词*))){1,}@”等。在上例中,可以识别到第一关系词“和”。
S402、以所述第一关系词为切分符,将所述主体语义块划分为多个短语。
利用S401中识别到的第一关系词对主体语义块进行切分,接上例,可以将主体语义块切分为短语“我的母亲姜××”和“李×”。上述两个短语之间的关系即为并列关系,表示两个不同的主体。
S403、识别每个所述短语中的同位短语,所述同位短语表示同一主体。
对于一些表示主体的短语,其会包含同位短语,即这些短语都用于描述同一个主体,例如“我的母亲姜××”,其中,“我的母亲”和“姜××”显然是同一个主体,两者就是短语“我的母亲姜××”中的同位短语。具体的,同位短语可以通过抽取表达式来识别,例如,“@(c_人称代词*)的?(c_关系概念*)(PD_nr)@”、“@(PD_nr)的?(c_ 关系概念)(PD_nr)@”等。
S404、提取所述多个短语,并标识所述同位短语,得到第一要素。
通过S402提取到多个短语,这些短语表示不同的主体,同时,标识这些短语中的同位短语,以统一化每个主体的表达,避免同一主体对应多种表达方式,以提高对第一要素的标识准确性,便于后续梳理第一要素与其它要素之间对应关系。
进一步地,在所提取的信息中,更加关注“第一人称”以及“人物姓名”,因此,可以对抽取到的第一要素进行“第一人称”和“人物姓名”的提取,即利用抽取表达式中的“PD_nr”即可,准确提取“第一人称”和“人物姓名”,可以有效提高后续对主体关系和主体属性与主体之间对应的准确性。
图5为本申请实施例提供的一种提取第二要素的流程示意图,如图5所示,所述方法包括:
S501、识别所述主体语义块中的第二要素;
S502、提取所述第二要素。
在本实施例中,第二要素用于表示主体之间的关系,可以通过抽取表达式进行提取,例如“(c_关系概念*),以主体语义块“我的母亲姜××”为例,利用抽取表达式可以提取到第二要素“母亲”。
关于第三要素的提取方法已经在S305中进行阐述,此处将不再赘述。
S103、根据预设关系识别规则,分别建立所述第一要素与所述第二要素、所述第一要素与所述第三要素之间的对应关系。
通过S102准确提取第一文本中的第一要素、第二要素、第三要素之后,需要在第一要素与第二要素、第一要素与第三要素之间分别建立对应关系,以示出各主体之间的关系,以及各个主体对应的属性,具体如下:
图6为本申请实施例提供的一种建立第一要素与第二要素之间的对应关系的流程示意图,如图6所示,所述方法包括:
S601、以所述第二要素为分割点,将与所述第二要素位于同一所述主体语义块,且位于所述第二要素之前的第一要素确定为第一实体,将与所述第二要素位于同一所述主体语义块,且位于所述第二要素之后的第一要素确定为第二实体,第一实体和第二实体在本实施例中对应两个不同的主体。
通过S501-S502可以得到第二要素,确定第二要素所在的主体语义块,沿用S502中的举例,第二要素为“母亲”,其所在的主体语义块为“我的母亲姜××”。此时,以第二要素“母亲”为分割点,可以将主体语义块“我的母亲姜××”划分为“我的”和“姜××”两部分,在本实施例中,将位于“母亲”之前的“我的”定义为第一实体,其中,可以将“我的”实体化为对应的人称主体,即“我”,因此,第一实体为“我”,将位于“母亲”之后的“姜××”定义为第二实体。
S602、根据所述主体语义块的语义,为所述第二要素、所述第一实体和所述第二实体匹配相应的所述预设关系识别规则。
通常,在中文表达形式中,存在向前关系和向后关系两种实体关系,其中,通过分析语义得知位于前面的实体和表示关系的词语均用于描述位于后面的实体,也可以说语义是通过从前向后的顺序进行表达,则两个实体之间的实体关系符合向前关系;通过分析语义得知位于后面的实体和表示关系的词语均用于描述位于前面的实体,也可以说语义是通过从后向前的顺序进行表达,则两个实体之间的实体关系符合向后关系。
通过分析主体语义块“我的母亲姜××”的语义,可以得知其语义是通过从前向后的顺序进行表达的,因此,需要为其匹配关系识别规则(向前关系识别规则)。
如果主体语义块是“我是李×的大哥”,则第二要素为“大哥”,第一实体为“我”,第二实体为“李×”,根据语义可知其语义是通过从后向前的顺序进行表达的,因此,需要为其匹配关系识别规则(向后关系识别规则)。
S603、根据匹配到的所述预设关系识别规则,建立所述第二要素、所述第一实体和所述第二实体之间的对应关系。
当确定了对应的关系识别规则之后,就可以根据该关系识别规则来确定第二要素与第一实体和第二实体之间的对应关系,从而建立起主体之间的关系。例如,第二要素为“母亲”,第一实体为“我”,第二实体为“姜××”,则根据向前关系识别规则,确定“母亲”用于描述“姜××”,则建立的关系可以用“实体1:我->实体2:姜××->关系:母亲”来表示。
在一些实施例中,一些主体语义块本身不是很完整,这些不完整也无法通过填补零代词进行填补,例如“刘×的大哥”,其中,第二要素为“大哥”,第一实体为“刘×”,而缺乏第二实体,但是,通过分析语义,可知其适配于向前关系识别规则,那么可以将第二实体表示为“(空)”,例如“实体1:刘×->实体2:(空)->关系:大哥”。
通过上述过程,可以准确匹配第一要素与第二要素之间的对应关系,即确定主体之间的关系。
图7为本申请实施例提供的一种建立第一要素与第三要素之间的对应关系的流程示意图,如图7所示,所述方法包括:
S701、根据所述第三要素所在信息段的语义,为所述第三要素以及与所述第三要素位于同一信息段的第一要素匹配相应的所述预设关系识别规则。
通过S305可以提取到各个信息段中的第三要素,由第三要素的提取过程可知,第三要素与主体语义块(相当于第一要素)之间的关系是通过所在的信息段的语义来反映。
通常,第三要素与第一要素之间的对应关系有两种方式,即向前对应和向后对应,其中,向前对应是指第三要素位于第一要素之后,用于描述该第一要素;向后对应是指第三要素位于第一要素之前,用于描述该第一要素。
以信息段“我大女儿:何一13岁小学六年级;”为例,其中,主体语义块为“我大女儿:何一”,第一要素为“我大女儿:何一(标记大女儿与何一表示同一主体)”,第三要素为“13岁”和“小学六年级”,可见,第三要素位于第一要素之后,因此,应该为其匹配关系识别规则(向前识别规则)。
又如,信息段为“穿黑色大衣的那个人”,其中,第一要素为“那个人”,第三要素为“穿黑色大衣”,第三要素位于第一要素之后,因此,应该为其匹配关系识别规则(向后识别规则)。
S702、根据匹配到的所述预设关系识别规则,建立所述第一要素和所述第三要素之间的对应关系。
当确定了对应的关系识别规则之后,就可以根据该关系识别规则来确定第一要素与第三要素之间的对应关系,从而建立起主体对应的属性信息。例如,第一要素为“我大女儿:何一”,第三要素为“13岁”和“小学六年级”,则根据向前关系识别规则,建立的对应关系,可以用“{年龄:13岁}->{何一}”以及“{小学六年级}->{何一}”来表示。
通过上述过程,可以准确匹配第一要素与第三要素之间的对应关系,即确定主体对应的属性。
根据S101-S103可以准确提取主体、以及各主体之间的关系、以及与主体对应的属性,并明确示出各要素之间的对应关系,以准确,且完整地提取到笔录信息中与人物相关的信息。
图8为本申请实施例提供的一种实现笔录信息的提取方式的第一种装置的结构示意图,如图8所示,所述装置包括:
第一提取单元1,用于从笔录文本中提取第一文本,所述第一文本是指包含人物相关信息的文本;
第二提取单元2,用于从所述第一文本中提取第一要素、第二要素和第三要素,所述第一要素是指所述第一文本中的各个主体,所述第二要素是指所述各个主体之间的关系,所述第三要素是指所述各个主体的属性;
关系构建单元3,用于根据预设关系识别规则,分别建立所述第一要素与所述第二要素、所述第一要素与所述第三要素之间的对应关系。
图9为本申请实施例提供的一种实现笔录信息的提取方式的第二种装置的结构示意图,如图9所示,所述装置还包括:
填补单元4,用于填补所述笔录文本中的零代词,所述零代词是指所述笔录文本中省略的代词。
图10为本申请实施例提供的一种实现笔录信息的提取方式的第三种装置的结构示意图,如图10所示,所述填补单元4包括:
第一划分单元41,用于将所述笔录文本划分为单个句子;
分析单元42,用于分析所述单个句子的句子成分,确定所述单个句子中的零代词,以及所述零代词在所述单个句子中的位置;
目标代词确定单元43,用于根据上下文语义,确定与所述零代词对应的目标代词;
插入单元44,用于根据所述零代词在所述单个句子中的位置,将所述目标代词插入所述单个句子,得到填补后的笔录文本。
图11为本申请实施例提供的一种实现笔录信息的提取方式的第四种装置的结构示意图,如图11所示,所述第一提取单元1包括:
第二划分单元11,用于按照换行符将所述笔录文本划分为段落;
识别单元12,用于识别每一个所述段落中的主体语义块,所述主体语义块是指包含所述主体的短语;
确定单元13,用于确定所述主体语义块所在的短句;
切分单元14,用于以每一个所述短句的开始位置为切割点,将所述段落划分为多个信息段;
识别单元15,用于识别所述多个信息段中的所述第三要素;
确定单元16,用于如果所述多个信息段中的所述第三要素与所述主体语义块符合预设判断规则,则确定所述多个信息段为所述第一文本。
图12为本申请实施例提供的一种实现笔录信息的提取方式的第五种装置的结构示意图,如图12所示,所述第二提取单元2包括:
识别单元21,用于识别所述主体语义块中的第一关系词,所述第一关系词表示并列关系;
划分单元22,用于以所述第一关系词为切分符,将所述主体语义块划分为多个短语;
识别单元23,用于识别每个所述短语中的同位短语,所述同位短语表示同一主体;
提取单元24,用于提取所述多个短语,并标识所述同位短语,得到第一要素。
图13为本申请实施例提供的一种实现笔录信息的提取方式的第六种装置的结构示意图,如图13所示,所述第二提取单元2还包括:
识别单元25,用于识别所述主体语义块中的第二要素;
提取单元26,用于提取所述第二要素。
图14为本申请实施例提供的一种实现笔录信息的提取方式的第七种装置的结构示意图,如图14所示,所述关系构建单元3包括:
确定单元31,用于以所述第二要素为分割点,将与所述第二要素位于同一所述主体语义块,且位于所述第二要素之前的第一要素确定为第一实体,将与所述第二要素位于同一所述主体语义块,且位于所述第二要素之后的第一要素确定为第二实体;
匹配单元32,用于根据所述主体语义块的语义,为所述第二要素、所述第一实体和所述第二实体匹配相应的所述预设关系识别规则;
建立单元33,用于根据匹配到的所述预设关系识别规则,建立所述第二要素、所述第一实体和所述第二实体之间的对应关系。
图15为本申请实施例提供的一种实现笔录信息的提取方式的第八种装置的结构示意图,如图15所示,所述关系构建单元3还包括:
匹配单元34,用于根据所述第三要素所在信息段的语义,为所述第三要素以及与所述第三要素位于同一信息段的第一要素匹配相应的所述预设关系识别规则;
建立单元34,用于根据匹配到的所述预设关系识别规则,建立所述第一要素和所述第三要素之间的对应关系。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种笔录信息的提取方法,其特征在于,所述方法包括:
从笔录文本中提取第一文本,所述第一文本是指包含人物相关信息的文本;
从所述第一文本中提取第一要素、第二要素和第三要素,所述第一要素是指所述第一文本中的各个主体,所述第二要素是指所述各个主体之间的关系,所述第三要素是指所述各个主体的属性;
根据预设关系识别规则,分别建立所述第一要素与所述第二要素、所述第一要素与所述第三要素之间的对应关系。
2.根据权利要求1所述的方法,其特征在于,所述从笔录文本中提取第一文本之前还包括:
填补所述笔录文本中的零代词,所述零代词是指所述笔录文本中省略的代词。
3.根据权利要求2所述的方法,其特征在于,所述填补所述笔录文本中的零代词包括:
将所述笔录文本划分为单个句子;
分析所述单个句子的句子成分,确定所述单个句子中的零代词,以及所述零代词在所述单个句子中的位置;
根据上下文语义,确定与所述零代词对应的目标代词;
根据所述零代词在所述单个句子中的位置,将所述目标代词插入所述单个句子,得到填补后的笔录文本。
4.根据权利要求1所述的方法,其特征在于,所述从笔录文本中提取第一文本包括:
按照换行符将所述笔录文本划分为段落;
识别每一个所述段落中的主体语义块,所述主体语义块是指包含所述主体的短语;
确定所述主体语义块所在的短句;
以每一个所述短句的开始位置为切割点,将所述段落划分为多个信息段;
识别所述多个信息段中的所述第三要素;
如果所述多个信息段中的所述第三要素与所述主体语义块符合预设判断规则,则确定所述多个信息段为所述第一文本。
5.根据权利要求4所述的方法,其特征在于,所述预设判断规则为所述多个信息段包含至少三个所述第三要素,或者,在每个所述信息段中,所述主体语义块位于所述信息段中的第一个所述第三要素之前,且所述主体语义块与所述第一个所述第三要素符合预设格式规则。
6.根据权利要求4所述的方法,其特征在于,所述从所述第一文本中提取第一要素包括:
识别所述主体语义块中的第一关系词,所述第一关系词表示并列关系;
以所述第一关系词为切分符,将所述主体语义块划分为多个短语;
识别每个所述短语中的同位短语,所述同位短语表示同一主体;
提取所述多个短语,并标识所述同位短语,得到第一要素。
7.根据权利要求4所述的方法,其特征在于,所述从所述第一文本中提取第二要素包括:
识别所述主体语义块中的第二要素;
提取所述第二要素。
8.根据权利要求4所述的方法,其特征在于,所述根据预设关系识别规则,分别建立所述第一要素与所述第二要素之间的对应关系包括:
以所述第二要素为分割点,将与所述第二要素位于同一所述主体语义块,且位于所述第二要素之前的第一要素确定为第一实体,将与所述第二要素位于同一所述主体语义块,且位于所述第二要素之后的第一要素确定为第二实体;
根据所述主体语义块的语义,为所述第二要素、所述第一实体和所述第二实体匹配相应的所述预设关系识别规则;
根据匹配到的所述预设关系识别规则,建立所述第二要素、所述第一实体和所述第二实体之间的对应关系。
9.根据权利要求4所述的方法,其特征在于,所述根据预设关系识别规则,分别建立所述第一要素与所述第三要素之间的对应关系包括:
根据所述第三要素所在信息段的语义,为所述第三要素以及与所述第三要素位于同一信息段的第一要素匹配相应的所述预设关系识别规则;
根据匹配到的所述预设关系识别规则,建立所述第一要素和所述第三要素之间的对应关系。
10.一种笔录信息的提取装置,其特征在于,所述装置包括:
第一提取单元,用于从笔录文本中提取第一文本,所述第一文本是指包含人物相关信息的文本;
第二提取单元,用于从所述第一文本中提取第一要素、第二要素和第三要素,所述第一要素是指所述第一文本中的各个主体,所述第二要素是指所述各个主体之间的关系,所述第三要素是指所述各个主体的属性;
关系构建单元,用于根据预设关系识别规则,分别建立所述第一要素与所述第二要素、所述第一要素与所述第三要素之间的对应关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110418432.4A CN113609837A (zh) | 2021-04-19 | 2021-04-19 | 一种笔录信息的提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110418432.4A CN113609837A (zh) | 2021-04-19 | 2021-04-19 | 一种笔录信息的提取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113609837A true CN113609837A (zh) | 2021-11-05 |
Family
ID=78303348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110418432.4A Pending CN113609837A (zh) | 2021-04-19 | 2021-04-19 | 一种笔录信息的提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609837A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372056A (zh) * | 2016-08-25 | 2017-02-01 | 久远谦长(北京)技术服务有限公司 | 一种基于自然语言的主题与关键词的提取方法和系统 |
CN110765188A (zh) * | 2019-09-05 | 2020-02-07 | 中科鼎富(北京)科技发展有限公司 | 合同相对方信息的结构化方法及装置 |
CN111428503A (zh) * | 2020-03-11 | 2020-07-17 | 合肥工业大学 | 同名人物的识别处理方法及处理装置 |
CN111611396A (zh) * | 2019-02-26 | 2020-09-01 | 广州慧睿思通信息科技有限公司 | 基于法律知识图谱的信息匹配方法、装置和存储介质 |
-
2021
- 2021-04-19 CN CN202110418432.4A patent/CN113609837A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372056A (zh) * | 2016-08-25 | 2017-02-01 | 久远谦长(北京)技术服务有限公司 | 一种基于自然语言的主题与关键词的提取方法和系统 |
CN111611396A (zh) * | 2019-02-26 | 2020-09-01 | 广州慧睿思通信息科技有限公司 | 基于法律知识图谱的信息匹配方法、装置和存储介质 |
CN110765188A (zh) * | 2019-09-05 | 2020-02-07 | 中科鼎富(北京)科技发展有限公司 | 合同相对方信息的结构化方法及装置 |
CN111428503A (zh) * | 2020-03-11 | 2020-07-17 | 合肥工业大学 | 同名人物的识别处理方法及处理装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109213870B (zh) | 文档处理 | |
US9256679B2 (en) | Information search method and system, information provision method and system based on user's intention | |
US6810146B2 (en) | Method and system for segmenting and identifying events in images using spoken annotations | |
US20150120788A1 (en) | Classification of hashtags in micro-blogs | |
US11914968B2 (en) | Official document processing method, device, computer equipment and storage medium | |
CN111259631B (zh) | 一种裁判文书结构化方法及装置 | |
Maier et al. | Machine translation vs. multilingual dictionaries assessing two strategies for the topic modeling of multilingual text collections | |
CN112287914B (zh) | Ppt视频段提取方法、装置、设备及介质 | |
CN107967250B (zh) | 一种信息处理方法及装置 | |
CN111611775B (zh) | 一种实体识别模型生成方法、实体识别方法及装置、设备 | |
CN111369980A (zh) | 语音检测方法、装置、电子设备及存储介质 | |
Aumiller et al. | Klexikon: A German dataset for joint summarization and simplification | |
CN111259645A (zh) | 一种裁判文书结构化方法及装置 | |
JP2018163660A (ja) | 英語の音節計算法に基づいた可読性評価方法及びシステム | |
CN109635125B (zh) | 一种词汇图谱搭建方法及电子设备 | |
CN111930976B (zh) | 演示文稿生成方法、装置、设备及存储介质 | |
Wegmann et al. | Does it capture STEL? A modular, similarity-based linguistic style evaluation framework | |
CN114281979A (zh) | 生成文本摘要的文本处理方法、装置、设备以及存储介质 | |
CN111241276A (zh) | 题目搜索方法、装置、设备及存储介质 | |
CN114528851B (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN113609837A (zh) | 一种笔录信息的提取方法及装置 | |
CN115908027A (zh) | 一种金融长文本复核系统的金融数据一致性审核模块 | |
CN112800771B (zh) | 文章识别方法、装置、计算机可读存储介质和计算机设备 | |
Suriyachay et al. | Thai named entity tagged corpus annotation scheme and self verification | |
Catalinac | Quantitative text analysis with Asian languages: some problems and solutions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |