CN112464644B - 自动断句模型建立方法及自动断句方法 - Google Patents
自动断句模型建立方法及自动断句方法 Download PDFInfo
- Publication number
- CN112464644B CN112464644B CN202011406539.9A CN202011406539A CN112464644B CN 112464644 B CN112464644 B CN 112464644B CN 202011406539 A CN202011406539 A CN 202011406539A CN 112464644 B CN112464644 B CN 112464644B
- Authority
- CN
- China
- Prior art keywords
- language text
- sentence
- breaking
- identifier
- target language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 15
- 238000002372 labelling Methods 0.000 claims abstract description 7
- 238000010276 construction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 6
- 239000000463 material Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种自动断句模型建立方法,获取基准语言文本以及与所述基准语言文本段落对齐的目标语言文本;基于所述基准语言文本中的标点符号与所述目标语言文本中的标识符,对目标语言文本中的目标语言句标注用于表征目标语言文本断句位置的第一类型标签和用于表征目标语言文本非断句位置的第二类型标签,并且基于设置有所述第一类型标签和第二类型标签的目标语言文本来构造训练集;以及将所述目标语言文本转换为词向量,并且输入至所述自动断句模型,从而基于目标语言文本、所述第一类型标签和第二类型标签来对所述自动断句模型进行训练。本公开还提供了一种自动断句方法、自动断句模型建立装置、自动断句装置、电子设备及存储介质。
Description
技术领域
本公开属于自然语言处理/信息化技术领域,本公开尤其涉及一种自动断句模型建立方法、自动断句方法、自动断句模型建立装置、自动断句装置、电子设备及存储介质。
背景技术
在汉语句子中我们可以通过逗号、顿号、句号、分号等标点符号,准确识别出句子的边界和标点符号的功能,但在一些语言中,并不存在这些标点符号。
例如,在藏语中,所有标点都使用楔形符号导致无法准确识别哪个楔形符号表示句子边界。而且藏语中还存在以长脚字结尾省略楔形符号的情况,更增加了断句的难度。
作为藏语自然语言处理的一项关键技术,也是藏语信息处理的一项重要工作,藏语断句问题解决的好坏直接影响到藏语与其他语种之间的平行语料库质量,藏语句法分析以及藏汉机器翻译等其他藏语自然语言处理应用的性能。
因此,解决现代藏语句子边界的自动识别问题显得日益重要。现有技术采用统计的方式,统计语料中的代表断句的楔形符号前的一个词,和非断句楔形符号前的一个词,总结出断句词集合A和非断句词集合B,定义边界词表为集合A-B,非边界词表为集合B-A。再根据边界和非边界词表对句子初步断句判断,针对既存在于集合A又存在于集合B中的词,则无法判断。
针对这种情况,现有技术开始采用统计学习模型,使用楔形符号前的若干个字符作为特征,训练分类模型判断输入特征后的楔形符号是否断句。
现有技术存在的问题在于,只是用楔形符号前的若干词是否出现来作为断句的规则,没有考虑句子的语义信息,也无法对长脚字结尾的情况做断句判断。现有统计学习模型使用的浅层词向量,也不能反映出词语间的深层信息,导致准确率不高。
发明内容
为了解决上述技术问题中的至少一个,本公开提供了一种自动断句模型建立方法、自动断句方法、自动断句模型建立装置、自动断句装置、电子设备及存储介质。
根据本公开的一个方面,提供了一种自动断句模型建立方法,其包括:
获取基准语言文本以及与所述基准语言文本段落对齐的目标语言文本,所述基准语言为具有标点符号的语言,所述目标语言为不具有表示断句的标点符号的语言;
基于所述基准语言文本中的标点符号与所述目标语言文本中的标识符,对目标语言文本中的目标语言句标注用于表征目标语言文本断句位置的第一类型标签和用于表征目标语言文本非断句位置的第二类型标签,并且基于设置有所述第一类型标签和第二类型标签的目标语言文本来构造训练集;以及
将所述目标语言文本转换为词向量,并且输入至所述自动断句模型,从而基于目标语言文本、所述第一类型标签和第二类型标签来对所述自动断句模型进行训练。
根据本公开的至少一个实施方式的自动断句模型建立方法,获取基准语言文本以及与所述基准语言文本段落对齐的目标语言文本包括:
根据基准语言文本的标点符号获取基准语言文本中的断句符;
当所述标识符与所述断句符的位置对应时,则将所述标识符与所述第一类型标签相对应,并且当所述标识符与所述断句符的位置不对应时,则将所述标识符与所述第二类型标签相对应。
根据本公开的至少一个实施方式的自动断句模型建立方法,获取基准语言文本以及与所述基准语言文本段落对齐的目标语言文本还包括:
根据基准语言文本和目标语言文本的句子和/或段落对应关系,判断所述标识符是否为断句符。
根据本公开的至少一个实施方式的自动断句模型建立方法,还包括:查找当前标识符的上一个标识符和下一个标识符,当当前标识符对应所述基准语言文本的断句符时,则将上一个标识符和下一个标识符之间的目标语言文本以第一类型标签进行标注,当当前标识符对应所述基准语言的非断句符时,则将上一个标识符和下一个标识符之间的目标语言文本以第二类型标签进行标注。
根据本公开的至少一个实施方式的自动断句模型建立方法,当当前标识符为断句符时,根据当前标识符之前的预设数量的字符构建断句词表;当当前标识符为非断句符时,根据当前标识符之前的预设数量的字符构建非断句词表;根据断句词表和非断句词表构建边界词表和非边界词表。
根据本公开的另一方面,提供一种自动断句方法,使用上述的自动断句模型建立方法建立的自动断句模型进行自动断句,包括:
使用自动断句模型对输入的目标语言文本进行自动断句,以将该目标语言文本中的标识符识别为与所述第一类型标签相对应,或者将该标识符识别为与所述第二类型标签相对应;
其中,当所述标识符识别为与所述第一类型标签相对应时,将目标语言文本从该标识符处断句。
根据本公开的至少一个实施方式的自动断句方法,当所述标识符识别为与所述第二类型标签相对应时,将该标识符之前的句子和该标识符之后的句子拼接。
根据本公开的至少一个实施方式的自动断句方法,还包括:使用边界词表和非边界词表对输入的目标语言文本进行断句,当当前标识符之前的预设数量的字符存在于边界词表时,将当前标识符设置为与所述第一类型标签相对应;当当前标识符之前的预设数量的字符存在于非边界词表时,将该标识符设置为与第二类型标签相对应;否则,使用自动断句模型判断该当前标识符是否与第一类型标签对应。
根据本公开的另一方面,提供一种自动断句模型建立装置,包括:
语言文本获取模块,用于获取基准语言文本以及与所述基准语言文本段落对齐的目标语言文本,所述基准语言为具有标点符号的语言,所述目标语言为不具有表示断句的标点符号的语言;
训练集构造模块,基于所述基准语言文本中的标点符号与所述目标语言文本中的标识符,对目标语言文本中的目标语言句标注用于表征目标语言文本断句位置的第一类型标签和用于表征目标语言文本非断句位置的第二类型标签,并且基于设置有所述第一类型标签和第二类型标签的目标语言文本来构造训练集;以及
模型训练模块,将所述目标语言文本转换为词向量,并且输入至所述自动断句模型,从而基于目标语言文本、所述第一类型标签和第二类型标签来对所述自动断句模型进行训练。
根据本公开的至少一个实施方式的自动断句模型建立装置,所述语言文本获取模块包括:
断句符获得子模块,用于根据基准语言文本的标点符号获取基准语言文本中的断句符;
判断子模块,用于根据基准语言文本和目标语言文本的句子和/或段落对应关系,判断所述标识符是否为断句符,当所述标识符与所述断句符的位置对应时,则将所述标识符与所述第一类型标签相对应,并且当所述标识符与所述断句符的位置不对应时,则将所述标识符与所述第二类型标签相对应。
根据本公开的至少一个实施方式的自动断句模型建立装置,还包括:查找当前标识符的上一个标识符和下一个标识符,当当前标识符对应所述基准语言文本的断句符时,则将上一个标识符和下一个标识符之间的目标语言文本以第一类型标签进行标注,当当前标识符对应所述基准语言的非断句符时,则将上一个标识符和下一个标识符之间的目标语言文本以第二类型标签进行标注。
根据本公开的另一方面,提供一种自动断句装置,使用上述的自动断句模型建立装置所建立的自动断句模型进行自动断句,包括:
使用自动断句模型对输入的目标语言文本进行自动断句,以将该目标语言文本中的标识符识别为与所述第一类型标签相对应,或者将该标识符识别为与所述第二类型标签相对应;
其中,当所述标识符识别为与所述第一类型标签相对应时,将目标语言文本从该标识符处断句。
根据本公开的至少一个实施方式的自动断句装置,当所述标识符识别为与所述第二类型标签相对应时,将该标识符之前的句子和该标识符之后的句子拼接。
根据本公开的至少一个实施方式的自动断句装置,还包括:使用边界词表和非边界词表对输入的目标语言文本进行断句,当当前标识符之前的预设数量的字符存在于边界词表时,将当前标识符设置为与所述第一类型标签相对应;当当前标识符之前的预设数量的字符存在于非边界词表时,将该标识符设置为与第二类型标签相对应;否则,使用自动断句模型判断该当前标识符是否与第一类型标签对应。
根据本公开的另一方面,提供一种电子设备,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述的方法。
根据本公开的另一方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述的方法。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是根据本公开的一个实施方式的自动断句模型建立方法的流程示意图。
图2是根据本公开的一个实施方式的获取基准语言文本以及与所述基准语言文本段落对齐的目标语言文本的流程示意图。
图3是根据本公开的一个实施方式的自动断句模型建立装置的一种结构示意图。
图4是根据本公开的一个实施方式的语言文本获取模块的一种结构示意图。
图中附图标记具体为:
1000 自动断句模型建立装置
1002 语言文本获取模块
10021 断句符获得子模块
10022 判断子模块
1004 训练集构造模块
1006 模型训练模块
1100 总线
1200 处理器
1300 存储器
1400 其它电路。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。
当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上“、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。
本文使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
图1是根据本公开的一个实施方式的自动断句模型建立方法的流程示意图。
如图1所示的自动断句模型建立方法100,其包括:
102、获取基准语言文本以及与所述基准语言文本段落对齐的目标语言文本,所述基准语言为具有标点符号的语言,所述目标语言为不具有表示断句的标点符号的语言;
104、基于所述基准语言文本中的标点符号与所述目标语言文本中的标识符,对目标语言文本中的目标语言句标注用于表征目标语言文本断句位置的第一类型标签和用于表征目标语言文本非断句位置的第二类型标签,并且基于设置有所述第一类型标签和第二类型标签的目标语言文本来构造训练集;以及
106、将所述目标语言文本转换为词向量,并且输入至所述自动断句模型,从而基于目标语言文本、所述第一类型标签和第二类型标签来对所述自动断句模型进行训练。
图2是根据本公开的一个实施方式的获取基准语言文本以及与所述基准语言文本段落对齐的目标语言文本的流程示意图。
本公开中,参考图2,获取基准语言文本以及与所述基准语言文本段落对齐的目标语言文本包括:
1021、根据基准语言文本的标点符号获取基准语言文本中的断句符;以及
1022、根据基准语言文本和目标语言文本的句子和/或段落对应关系,判断所述标识符是否为断句符;
其中,当所述标识符与所述断句符的位置对应时,则将所述标识符与所述第一类型标签相对应,并且当所述标识符与所述断句符的位置不对应时,则将所述标识符与所述第二类型标签相对应。
本公开中,查找当前标识符的上一个标识符和下一个标识符,当当前标识符对应所述基准语言文本的断句符时,则将上一个标识符和下一个标识符之间的目标语言文本以第一类型标签进行标注,当当前标识符对应所述基准语言的非断句符时,则将上一个标识符和下一个标识符之间的目标语言文本以第二类型标签进行标注。
针对于目标语言文本的自然段落,将自然段落的结束字符与第一类型标签相对应。
本公开中,当所述基准语言为本为中文时,所述断句符包括句号、叹号、问号或者分号,也就是说,当基准语言文本中出现这些标点符号时,认为基准语言文本从该标点符号的位置处断句。
当所述目标语言文本为藏语时,所述标识符包括楔形符号和以空格结尾的长脚字。
本公开的自动断句模型建立方法中,还包括构建测试集,以通过所述测试集测试自动断句模型的性能;本公开中,构建测试集的方法与构建训练集的方法相同。
本公开的自动断句模型建立方法还包括:通过训练集获得多个自动断句模型,选择参数互补的k个模型集成,作为最终的自动断句模型,其中,k可取2-5。
其中,所述参数互补具体为:针对于通过训练集获得的多个自动断句模型,第一自动断句模型的1的召回率比0的召回率高,第二自动断句模型1的精确率比0的精确率高,此时可以认为第一自动断句模型和第二自动断句模型互补。
优选地,通过训练集获得自动断句模型中,使用修正的F1值测试自动断句模型的性能,并通过修改自动断句模型的参数,使得修正的F1值最优,例如大于0.95。
优选地,所述修正的F1值F1_fix_macro=3/8(F1_fix_0+F1_fix_1)。
其中,F1_fix_0=3R0*P0/(2R0+P0);F1_fix_1=3R1*P1/(R1+2P1)。
R0为第二类型标签的召回率,P0为第二类型标签的精确率;R1为第一类型标签的召回率;P1为第一类型标签的精确率。
优选地,所述自动断句模型建立方法,还包括修正训练集,并使用修正后的训练集重新训练模型。
其中,所述修正训练集包括:
使用自动断句模型对目标语言文本段落进行自动断句,将目标语言文本段落中的标识符识别为第一类型标签或者第二类型标签,得到识别后的目标语言文本;
将该识别后的目标语言文本与训练集中标注后的目标语言文本进行比较,当识别后的目标语言文本中的第一类型标签或第二类型标签,与训练集中标注后的目标语言文本中的第一类型标签或第二类型标签的位置不相同时,判断训练集中标注后的目标语言文本是否存在标注错误,或者判断训练集中基准语言文本是否存在断句错误;当训练集中标注后的目标语言文本存在标注错误时,修正该标注错误,获得修正后的训练集;当训练集中基准语言文本存在断句错误时,修正与该基准语言文本的断句错误位置处对应的目标语言文本中的第一类型标签修改为第二类型标签,或者将第二类型标签修改为第一类型标签,以获得修改后的训练集。
本公开中,所述自动断句模型建立方法还包括:构建边界词表和非边界词表;当当前标识符为断句符时,根据当前标识符之前的预设数量的字符构建断句词表;当当前标识符为非断句符时,根据当前标识符之前的预设数量的字符构建非断句词表;根据断句词表和非断句词表构建边界词表和非边界词表。
优选地,当当前标识符为断句符时,如果当前标识符为空格结尾的长脚字,则将长脚字和该长脚字之前的三个字符作为断句词表的元素;如果当前标识符为楔形符号,则将楔形符号和该楔形符号之前的两个词语作为断句词表的元素。
相应地,当当前标识符为非断句符时,如果当前标识符为空格结尾的长脚字,则将长脚字和该长脚字之前的三个字符作为非断句词表的元素;如果当前标识符为楔形符号,则将楔形符号和该楔形符号之前的两个词语作为非断句词表的元素。
本公开中,根据断句词表和非断句词表构建边界词表和非边界词表包括:
具体地,所述边界词表为断句词表中的元素去除非断句词表中的元素后的剩余元素集合;所述非边界词表为非断句词表中的元素去除断句词表中的元素后的剩余元素集合。
本公开中,当使用训练集训练自动断句模型时,使用藏语无标注数据获得词向量,将该训练集中的目标语言文本转换为词向量,输入至自动断句模型。
本公开中,所述自动断句模型建立方法还包括:使用边界词表和非边界词表对训练集进行处理,当训练集内的某一训练元素所对应的目标语言文本中的标识符以及该标识符之前预设数量的字符或词语存在于边界词表或者非边界词表时,将该训练元素从训练集删除。
优选地,使用藏语无标注数据获得词向量包括:对藏语无标注数据进行分词处理,通过词向量生成模型word2vec获得维度为200的词向量。
根据本公开的另一方面,提供一种自动断句方法,使用上述的自动断句模型建立方法建立的自动断句模型进行自动断句,包括:
使用自动断句模型对输入的目标语言文本进行自动断句,以将该目标语言文本中的标识符识别为与所述第一类型标签相对应,或者将该标识符识别为与所述第二类型标签相对应;
其中,当所述标识符识别为与所述第一类型标签相对应时,将目标语言文本从该标识符处断句。
本公开中,当所述标识符识别为与所述第二类型标签相对应时,将该标识符之前的句子和该标识符之后的句子拼接。
本公开的自动断句方法还包括:使用边界词表和非边界词表对输入的目标语言文本进行断句,当当前标识符之前的预设数量的字符存在于边界词表时,将当前标识符设置为与所述第一类型标签相对应;当当前标识符之前的预设数量的字符存在于非边界词表时,将该标识符设置为与第二类型标签相对应;当当前标识符既不存在于边界词表,也不存在于非边界词表时,使用自动断句模型判断该当前标识符是与第一类型标签对应,还是与第二类型标签对应。
具体地,当当前标识符为长脚字时,判断该长脚字以及该长脚字之前的三个字符是否存在于边界词表,或者是否存在与非边界词表;当该长脚字以及该长脚字之前的三个字符存在于边界词表时,将该当前标识符设置为与第一类型标签对应;当该长脚字以及该长脚字之前的三个字符存在于非边界词表时,将该当前标识符设置为与第二类型标签对应。
相似地,当当前标识符为楔形符号时,判断该楔形符号以及该楔形符号之前的两个词语是否存在于边界词表,或者是否存在与非边界词表;当该楔形符号以及该楔形符号之前的两个词语位于边界词表时,将该当前标识符设置为与第一类型标签对应;当该楔形符号以及该楔形符号之前的两个词语位于非边界词表时,将该当前标识符设置为与第二类型标签对应。
图3至4示出了采用处理系统的硬件实现方式的装置示例图。
该装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此,可以由相应模块执行上述流程图中的每个步骤或几个步骤,并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。
总线1100可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条连接线表示,但并不表示仅有一根总线或一种类型的总线。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在存储器中。
应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。
此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。
图3是根据本公开的一个实施方式的自动断句模型建立装置的一种结构示意图。
如图3所示,根据本公开的自动断句模型建立装置1000,可以包括:
语言文本获取模块1002,用于获取基准语言文本以及与所述基准语言文本段落对齐的目标语言文本,所述基准语言为具有标点符号的语言,所述目标语言为不具有表示断句的标点符号的语言;
训练集构造模块1004,基于所述基准语言文本中的标点符号与所述目标语言文本中的标识符,对目标语言文本中的目标语言句标注用于表征目标语言文本断句位置的第一类型标签和用于表征目标语言文本非断句位置的第二类型标签,并且基于设置有所述第一类型标签和第二类型标签的目标语言文本来构造训练集;以及
模型训练模块1006,将所述目标语言文本转换为词向量,并且输入至所述自动断句模型,从而基于目标语言文本、所述第一类型标签和第二类型标签来对所述自动断句模型进行训练。
优选地,所述语言文本获取模块1002包括:
断句符获得子模块10021,用于根据基准语言文本的标点符号获取基准语言文本中的断句符;
判断子模块10022,用于根据基准语言文本和目标语言文本的句子和/或段落对应关系,判断所述标识符是否为断句符,当所述标识符与所述断句符的位置对应时,则将所述标识符与所述第一类型标签相对应,并且当所述标识符与所述断句符的位置不对应时,则将所述标识符与所述第二类型标签相对应。
本公开的自动断句模型建立方法,还包括查找当前标识符的上一个标识符和下一个标识符,当当前标识符对应所述基准语言文本的断句符时,则将上一个标识符和下一个标识符之间的目标语言文本以第一类型标签进行标注,当当前标识符对应所述基准语言的非断句符时,则将上一个标识符和下一个标识符之间的目标语言文本以第二类型标签进行标注。
根据本公开的另一方面,提供一种自动断句装置,其使用上述的自动断句模型建立装置所建立的自动断句模型进行自动断句,所述自动断句装置包括:
使用自动断句模型对输入的目标语言文本进行自动断句,以将该目标语言文本中的标识符识别为与所述第一类型标签相对应,或者将该标识符识别为与所述第二类型标签相对应;
其中,当所述标识符识别为与所述第一类型标签相对应时,将目标语言文本从该标识符处断句。
当所述标识符识别为与所述第二类型标签相对应时,将该标识符之前的句子和该标识符之后的句子拼接。
根据本公开的自动断句装置,还包括:使用边界词表和非边界词表对输入的目标语言文本进行断句,当当前标识符之前的预设数量的字符存在于边界词表时,将当前标识符设置为与所述第一类型标签相对应;当当前标识符之前的预设数量的字符存在于非边界词表时,将该标识符设置为与第二类型标签相对应;否则,使用自动断句模型判断该当前标识符是否与第一类型标签对应。
本公开还提供了一种电子设备,包括:存储器,存储器存储执行指令;以及处理器或其他硬件模块,处理器或其他硬件模块执行存储器存储的执行指令,使得处理器或其他硬件模块执行上述的方法。
本公开还提供了一种可读存储介质,可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述的方法。
在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。
Claims (7)
1.一种自动断句模型建立方法,其特征在于,包括:
获取基准语言文本以及与所述基准语言文本段落对齐的目标语言文本,所述基准语言为具有标点符号的语言,所述目标语言为不具有表示断句的标点符号的语言;
基于所述基准语言文本中的标点符号与所述目标语言文本中的标识符,对目标语言文本中的目标语言句标注用于表征目标语言文本断句位置的第一类型标签和用于表征目标语言文本非断句位置的第二类型标签,并且基于设置有所述第一类型标签和第二类型标签的目标语言文本来构造训练集;以及
将所述目标语言文本转换为词向量,并且输入至所述自动断句模型,从而基于目标语言文本、所述第一类型标签和第二类型标签来对所述自动断句模型进行训练;
其中,获取基准语言文本以及与所述基准语言文本段落对齐的目标语言文本包括:根据基准语言文本的标点符号获取基准语言文本中的断句符;当所述标识符与所述断句符的位置对应时,则将所述标识符与所述第一类型标签相对应,并且当所述标识符与所述断句符的位置不对应时,则将所述标识符与所述第二类型标签相对应;根据基准语言文本和目标语言文本的句子和/或段落对应关系,判断所述标识符是否为断句符;
其中,所述自动断句模型建立方法还包括:查找当前标识符的上一个标识符和下一个标识符,当当前标识符对应所述基准语言文本的断句符时,则将上一个标识符和下一个标识符之间的目标语言文本以第一类型标签进行标注,当当前标识符对应所述基准语言的非断句符时,则将上一个标识符和下一个标识符之间的目标语言文本以第二类型标签进行标注。
2.如权利要求1所述的自动断句模型建立方法,其特征在于,当当前标识符为断句符时,根据当前标识符之前的预设数量的字符构建断句词表;当当前标识符为非断句符时,根据当前标识符之前的预设数量的字符构建非断句词表;根据断句词表和非断句词表构建边界词表和非边界词表。
3.一种自动断句方法,使用权利要求1或2所述的自动断句模型建立方法建立的自动断句模型进行自动断句,其特征在于,包括:
使用自动断句模型对输入的目标语言文本进行自动断句,以将该目标语言文本中的标识符识别为与所述第一类型标签相对应,或者将该标识符识别为与所述第二类型标签相对应;
其中,当所述标识符识别为与所述第一类型标签相对应时,将目标语言文本从该标识符处断句。
4.一种自动断句模型建立装置,其特征在于,包括:
语言文本获取模块,用于获取基准语言文本以及与所述基准语言文本段落对齐的目标语言文本,所述基准语言为具有标点符号的语言,所述目标语言为不具有表示断句的标点符号的语言;
训练集构造模块,基于所述基准语言文本中的标点符号与所述目标语言文本中的标识符,对目标语言文本中的目标语言句标注用于表征目标语言文本断句位置的第一类型标签和用于表征目标语言文本非断句位置的第二类型标签,并且基于设置有所述第一类型标签和第二类型标签的目标语言文本来构造训练集;以及
模型训练模块,将所述目标语言文本转换为词向量,并且输入至所述自动断句模型,从而基于目标语言文本、所述第一类型标签和第二类型标签来对所述自动断句模型进行训练;
获取基准语言文本以及与所述基准语言文本段落对齐的目标语言文本包括:根据基准语言文本的标点符号获取基准语言文本中的断句符;当所述标识符与所述断句符的位置对应时,则将所述标识符与所述第一类型标签相对应,并且当所述标识符与所述断句符的位置不对应时,则将所述标识符与所述第二类型标签相对应;根据基准语言文本和目标语言文本的句子和/或段落对应关系,判断所述标识符是否为断句符;
所述自动断句模型建立装置还包括:查找当前标识符的上一个标识符和下一个标识符,当当前标识符对应所述基准语言文本的断句符时,则将上一个标识符和下一个标识符之间的目标语言文本以第一类型标签进行标注,当当前标识符对应所述基准语言的非断句符时,则将上一个标识符和下一个标识符之间的目标语言文本以第二类型标签进行标注。
5.一种自动断句装置,使用权利要求4所述的自动断句模型建立装置所建立的自动断句模型进行自动断句,其特征在于,包括:
使用自动断句模型对输入的目标语言文本进行自动断句,以将该目标语言文本中的标识符识别为与所述第一类型标签相对应,或者将该标识符识别为与所述第二类型标签相对应;
其中,当所述标识符识别为与所述第一类型标签相对应时,将目标语言文本从该标识符处断句。
6.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行如权利要求1或2所述的方法。
7.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1或2所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011406539.9A CN112464644B (zh) | 2020-12-04 | 2020-12-04 | 自动断句模型建立方法及自动断句方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011406539.9A CN112464644B (zh) | 2020-12-04 | 2020-12-04 | 自动断句模型建立方法及自动断句方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112464644A CN112464644A (zh) | 2021-03-09 |
CN112464644B true CN112464644B (zh) | 2024-03-29 |
Family
ID=74804868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011406539.9A Active CN112464644B (zh) | 2020-12-04 | 2020-12-04 | 自动断句模型建立方法及自动断句方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464644B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343720A (zh) * | 2021-06-30 | 2021-09-03 | 北京搜狗科技发展有限公司 | 一种字幕翻译方法、装置和用于字幕翻译的装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662932A (zh) * | 2012-03-15 | 2012-09-12 | 中国科学院自动化研究所 | 构建树结构及基于树结构的机器翻译系统的方法 |
CN103268314A (zh) * | 2013-05-02 | 2013-08-28 | 百度在线网络技术(北京)有限公司 | 一种获取泰文断句规则的方法及装置 |
CN103902524A (zh) * | 2012-12-28 | 2014-07-02 | 新疆电力信息通信有限责任公司 | 维吾尔语句子边界识别方法 |
CN109284503A (zh) * | 2018-10-22 | 2019-01-29 | 传神语联网网络科技股份有限公司 | 翻译语句结束判断方法与系统 |
CN109359293A (zh) * | 2018-09-13 | 2019-02-19 | 内蒙古大学 | 基于神经网络的蒙古文命名实体识别方法及其识别系统 |
-
2020
- 2020-12-04 CN CN202011406539.9A patent/CN112464644B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662932A (zh) * | 2012-03-15 | 2012-09-12 | 中国科学院自动化研究所 | 构建树结构及基于树结构的机器翻译系统的方法 |
CN103902524A (zh) * | 2012-12-28 | 2014-07-02 | 新疆电力信息通信有限责任公司 | 维吾尔语句子边界识别方法 |
CN103268314A (zh) * | 2013-05-02 | 2013-08-28 | 百度在线网络技术(北京)有限公司 | 一种获取泰文断句规则的方法及装置 |
CN109359293A (zh) * | 2018-09-13 | 2019-02-19 | 内蒙古大学 | 基于神经网络的蒙古文命名实体识别方法及其识别系统 |
CN109284503A (zh) * | 2018-10-22 | 2019-01-29 | 传神语联网网络科技股份有限公司 | 翻译语句结束判断方法与系统 |
Non-Patent Citations (1)
Title |
---|
基于短语的藏汉在线翻译系统研究;位素东;《全国优秀硕士论文全文数据库》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112464644A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489760B (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN108595410B (zh) | 手写作文的自动批改方法及装置 | |
CN110046350B (zh) | 文法错误识别方法、装置、计算机设备及存储介质 | |
CN110008472B (zh) | 一种实体抽取的方法、装置、设备和计算机可读存储介质 | |
CN102156551B (zh) | 一种字词输入的纠错方法及系统 | |
CN110717039A (zh) | 文本分类方法和装置、电子设备、计算机可读存储介质 | |
CN107688803B (zh) | 字符识别中识别结果的校验方法和装置 | |
CN110162782B (zh) | 基于医学词典的实体提取方法、装置、设备及存储介质 | |
CN111753531A (zh) | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 | |
CN111737991B (zh) | 文本断句位置的识别方法及系统、电子设备及存储介质 | |
CN113449489B (zh) | 标点符号标注方法、装置、计算机设备和存储介质 | |
CN111192570A (zh) | 语言模型训练方法、系统、移动终端及存储介质 | |
CN111753524A (zh) | 文本断句位置的识别方法及系统、电子设备及存储介质 | |
CN111753532B (zh) | 西文文本的纠错方法和装置、电子设备及存储介质 | |
CN112464644B (zh) | 自动断句模型建立方法及自动断句方法 | |
US10120843B2 (en) | Generation of parsable data for deep parsing | |
CN110807338B (zh) | 英汉机器翻译术语一致性自修正系统及方法 | |
CN110147546B (zh) | 一种英语口语的语法校正方法及装置 | |
CN103559172B (zh) | 多语混合文本的分句方法和装置 | |
CN110929514B (zh) | 文本校对方法、装置、计算机可读存储介质及电子设备 | |
CN110750984B (zh) | 命令行字符串处理方法、终端、装置及可读存储介质 | |
CN110210035B (zh) | 序列标注方法、装置及序列标注模型的训练方法 | |
CN116070628A (zh) | 一种文本断句的方法、装置、电子设备及存储介质 | |
CN112101019A (zh) | 一种基于词性标注和组块分析的需求模板符合性检查优化方法 | |
CN109977420B (zh) | 离线语义识别调整方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |