CN111738024B - 实体名词标注方法和装置、计算设备和可读存储介质 - Google Patents
实体名词标注方法和装置、计算设备和可读存储介质 Download PDFInfo
- Publication number
- CN111738024B CN111738024B CN202010746638.5A CN202010746638A CN111738024B CN 111738024 B CN111738024 B CN 111738024B CN 202010746638 A CN202010746638 A CN 202010746638A CN 111738024 B CN111738024 B CN 111738024B
- Authority
- CN
- China
- Prior art keywords
- entity
- noun
- language
- labeling
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 221
- 238000000034 method Methods 0.000 claims description 36
- 230000004044 response Effects 0.000 claims description 15
- 238000013519 translation Methods 0.000 description 19
- 230000014616 translation Effects 0.000 description 19
- 238000004891 communication Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 10
- 238000003058 natural language processing Methods 0.000 description 9
- 230000003993 interaction Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000012800 visualization Methods 0.000 description 5
- 241001672694 Citrus reticulata Species 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 239000002699 waste material Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
公开了实体名词标注方法和装置、计算设备和计算机可读存储介质。该实体名词标注方法,包括:展示待标注的文本,待标注的文本包括第一语种文本和与第一语种文本相关联的第二语种文本;响应于分别对第一语种文本和第二语种文本的名词标注操作,将名词标注操作对应的第一语种实体名词和第二语种实体名词添加到实体名词标注区域;根据实体名词标注区域中对应显示的第一语种实体名词和第二语种实体名词,生成名词标注结果。通过本发明提供的实施例,可以对两种文本进行标注并且对两种文本的标注结果进行配对,实现了两种文本的标注结果的对应关系,从而生成了具有配对关系的资源库。
Description
技术领域
本发明涉及自然语言处理技术领域,并且特别地涉及实体名词标注方法和装置、计算设备和计算机可读存储介质。
背景技术
目前,人们交流日益频繁,所交流的内容同时也会更加广泛。因此,对基于计算机的自然语言处理的需求也与日俱增。例如,对于不同语种之间的机器翻译存在较大的需求。现有技术中,仍然存在一些不足和缺口,例如,翻译内容不够准确,可选择的翻译平台较少。方便、快捷、准确的机器翻译是期望的。
发明内容
本公开提供了一种可以缓解、减轻或甚至消除上述问题中的一个或多个的实体名词标注方法和装置、计算设备和计算机可读存储介质。
根据本发明的一方面,提供了一种实体名词标注方法,包括:展示待标注的文本,待标注的文本包括第一语种文本和与第一语种文本相关联的第二语种文本;响应于分别对第一语种文本和第二语种文本的名词标注操作,将名词标注操作对应的第一语种实体名词和第二语种实体名词添加到实体名词标注区域;根据实体名词标注区域中对应显示的第一语种实体名词和第二语种实体名词,生成名词标注结果。
在一些实施例中,根据实体名词标注区域中对应显示的第一语种实体名词和第二语种实体名词,生成名词标注结果包括:分别在第一语种文本和第二语种文本中,确定第一语种实体名词和第二语种实体名词,第一语种实体名词和第二语种实体名词在实体名词标注区域对应显示;以及在第一语种文本和第二语种文本中,分别对第一语种实体名词和第二语种实体名词添加相应的标注标签。
在一些实施例中,在第一语种文本和第二语种文本中,分别对第一语种实体名词和第二语种实体名词添加相应的标注标签,包括:在实体名词标注区域中,确定对应显示第一语种实体名词和第二语种实体名词的标注子区域的名词类型;根据名词类型确定标注标签;以及在第一语种文本和第二语种文本中,分别对第一语种实体名词和第二语种实体名词添加标注标签。
在一些实施例中,根据名词类型确定标注标签,包括:获取第一语种实体名词和第二语种实体名词在实体名词标注子区域中对应显示的位置标识;以及根据名词类型和位置标识生成标注标签。
在一些实施例中,响应于分别对第一语种文本和第二语种文本的名词标注操作,将名词标注操作对应的第一语种实体名词和第二语种实体名词添加到实体名词标注区域,包括:响应于对待标注文本的文本选择操作,对文本选择操作对应的实体名词突出显示;实体名词包括第一语种实体名词和第二语种实体名词中的至少一种;以及响应于对实体名词的名词分类操作,将实体名词添加到名词分类操作对应的标注子区域。
在一些实施例中,响应于对实体名词的名词分类操作,将实体名词添加到名词分类操作对应的标注子区域,包括:当检测到输入设备的组合键输入指令时,确定与组合键输入指令对应的名词分类操作;以及将实体名词添加到名词分类操作对应的标注子区域。
在一些实施例中,在响应于对实体名词的名词分类操作,将实体名词添加到名词分类操作对应的标注子区域之后,还包括:当检测到实体名词标注区域中的名词删除操作时,确定名词删除操作对应的实体名词;以及将实体名词从标注子区域中删除。
在一些实施例中,在响应于对实体名词的名词分类操作,将实体名词添加到名词分类操作对应的标注子区域之后,还包括:当检测到实体名词标注区域中的名词位置调整指令时,根据名词位置调整指令对标注子区域中实体名词的位置进行调整。
根据本发明的另一方面,提供了一种实体名词标注装置,该装置包括:展示模块,配置成展示待标注的文本,待标注的文本包括第一语种文本和与第一语种文本相关联的第二语种文本;实体名词标注区域添加模块,配置成响应于分别对第一语种文本和第二语种文本的名词标注操作,将名词标注操作对应的第一语种实体名词和第二语种实体名词添加到实体名词标注区域;以及名词标注结果生成模块,配置成根据实体名词标注区域中对应显示的第一语种实体名词和第二语种实体名词,生成名词标注结果。
根据本发明的另一方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储有指令,指令当在处理器上执行时促使处理器执行上面的实体名词标注方法中的任一个。
根据本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令在被执行时实现上面的实体名词标注方法中的任一个。
通过本文提供的实施例,可以对两种文本进行标注并且对两种文本的标注结果进行配对,实现了两种文本的标注结果的对应关系,从而生成了具有配对关系的资源库。这种资源库可以作为训练机器翻译等模型训练的重要基础。另外,可以同时对多个实体名词同时进行标注分类,提升了标注的效率。利用本发明提供的实施例,提升了对实体名词的标注的自动化程度和人机交互的效率,例如标签录入效率提升,自动将标注的标签还原至原文本,标注结果的自动配对等。同时,本发明提供的实施例中的标注实体名词的方法可视化程度高,例如可以提供可视化的标签和实体名词标注区域。另外,本发明提供的实施例降低了带宽和计算资源的闲置、浪费,改进了标注的效率和准确度,并且最终改进了计算机对自然语言处理的效率和准确度。
附图说明
在下面结合附图对于示例性实施例的描述中,本发明的更多细节、特征和优点被公开。附图仅用于示出实施方式的目的,而并不认为是对本公开的限制。而且在整个附图中,用相同的附图标记表示相同或相似的要素。在附图中:
图1示出了根据本公开的一些实施例的实体名词标注方法的应用场景;
图2示出了根据本公开的一些实施例的实体名词标注方法的流程示意图;
图3-5示出了根据本公开的一些实施例的实体名词标注方法的用户界面的局部示意图;
图6a示出了根据一些实施例的图2中所示出的步骤S220的一些子步骤;
图6b示出了根据一些实施例的图2中所示出的步骤S220的一些子步骤;
图7a-7b示出了包括多种语言的文本;
图8从人机交互的角度示出了根据本公开的一些实施例的实体名词标注方法的流程图;
图9示出了根据本公开的一些实施例的实体名词标注方法的部分过程的流程图;
图10示出了根据本公开的一些实施例的实体名词标注方法的部分过程的流程图;
图11示出了根据本发明实施例的实体名词标注装置的示意框图;以及
图12示出了能够实现根据本发明的一些实施例的实体名词标注方法的计算系统的示意框图。
具体实施方式
下面将参照附图更详细地描述本发明的若干个实施例以便使得本领域技术人员能够理解和实现本发明。然而,本发明可以具体实现为许多不同的形式并且不应被解释为局限于本文所阐述的实施例。相反,本文提供这些实施例以使得本发明全面且完整,并将充分地向本领域技术人员传达本发明的范围。这些实施例用于说明而不是限定本发明。
将理解的是,尽管术语第一、第二、第三等在本文中可以用来描述各种元件、步骤和/或部分,但是这些元件、步骤和/或部分不应当由这些术语限制。这些术语仅用来将一个元件、步骤或部分与另一个元件、步骤或部分相区分。因此,下面讨论的第一元件、步骤或部分可以被称为第二元件、步骤或部分而不偏离本发明的教导。
本文中使用的术语仅出于描述特定实施例的目的并且不意图限制本发明。如本文中使用的,单数形式“一个”、“一”和“该”意图也包括复数形式,除非上下文清楚地另有指示。将进一步理解的是,术语“包括”和/或“包含”当在本说明书中使用时指定特征、整体、步骤、操作、元件和/或部件的存在,但不排除一个或多个其他特征、整体、步骤、操作、元件、部件和/或其群组的存在。如本文中使用的,术语“和/或”包括相关联的列出项目中的一个或多个的任意和全部组合。
除非另有定义,本文中使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域的普通技术人员所通常理解的相同含义。将进一步理解的是,诸如那些在通常使用的字典中定义的术语应当被解释为具有与其在相关领域和/或本说明书上下文中的含义相一致的含义,并且将不在理想化或过于正式的意义上进行解释,除非本文中明确地如此定义。
需要注意的是,在不冲突的前提下,实施例中的特征可以任意组合使用。
在详细介绍本发明的实施例之前,首先对一些相关的概念进行解释:
1、实体名词,指自然语言的文本中具有特定含义或指代的实体单元或词组单元,例如,可以包括人名、地名、机构名、专有名词、日期等实体单元或词组单元。
2、实体名词识别,又称作“专名识别”,是指识别文本中的实体名词,例如识别自然语言的文本中的实体名词的边界和类型。
3、实体名词标注/标注实体名词,是指对自然语言的文本进行特定的操作或步骤来实现实体名词识别的过程,例如可以包括为实体名词添加标签。
4.配对,是将不同文本中的实体名词进行对应的过程,例如将两个文本中的实体名词进行一一对应。
5.语料,即语言材料,是指自然语言的实体单元,例如词、句等。
6.语料库,即语料的数据库,是指语料经过一定的加工和处理后进行归档供使用的数据库。例如,语料库可以包括经标注的实体名词。
7.语种,不仅仅指代语言,也可以指代同一语言内的不同表达方式。例如在本申请的一些实施例中,普通话和方言、普通话和拼音、简体中文与甲骨文等等方式可以视为不同语种。
自然语言处理是人工智能领域的重要分支。自然语言处理对于实现人机对话、机器翻译等重多应用场景具有重要的意义。在自然语言处理的过程中,常常需要对实体名词进行识别。例如,深度学习算法可以用于对机器翻译进行模型训练,在深度学习中实体名词识别是重要环节。因此,提供包括实体名词识别的结果的资源库是期望的。然而,当前这种资源库是缺乏的,对模型训练上带来了较大的难度。
例如,在维汉翻译过程中,机器翻译的质量不高,要解决的问题之一在于某些词语的翻译没能很好表达出其原始含义。从技术角度出发,其原因是NER的效果不佳,影响翻译预处理层,最终导致输出的机器翻译结果存在偏差。例如,地名“金沙三角洲”的不准确的翻译结果为“金色的沙子三角形的大洲”、人名“陈小蝶”的不准确的翻译结果为“陈小蝴蝶”等,更多的示例参见表1。NER的不准确使得机器错误理解了词语的含义,翻译结果便会出现偏差。
表1维汉翻译中实体名词翻译的常见错误
对实体名词进行标注可以创建和充实这样的资源库。为了提高NER的效果,可以对实体名词进行标注,将标注结果生成资源库,使用资源库中的数据来喂养算法,从而增强识别效果。
对实体名词进行识别和标注的方法面临众多问题,例如过度依赖于人工操作,人机交互的效率低,自动化程度低,以及由此导致的带宽和计算资源的闲置浪费。另外,由于现有的标注方法的局限性,标注的出错率较高,标注质量差,使得计算机对自然语言处理的效率和准确度有待提升。
特别地,在两个文本中的实体名词的标注,例如双语类的实体名词标注,需要判断词性、双语配对、标签录入、标签排序等众多步骤。在一些情况下,需要面临许多问题:标签类型繁多,标签序号杂乱、一些语言需要词缀切分以及不同语言的书写方向不同导致的多语种混排问题。这导致操作步骤繁琐,标注难度大且效率低。另外,单个文本中常常需要针对多种类型的实体名词进行标注,其中每种类型的实体名词的自身属性标签彼此独立,导致操作的变量增多,标签与文本字符密集排列导致核查不便,标注质量有待提升。
图1示出了根据本公开的一些实施例的实体名词标注方法的应用场景100。在该应用场景中,一个或多个用户接口101经由中间设备105与一个或多个计算设备108双向通信。用户104与一个或多个用户接口101进行交互,进而完成与计算设备108的双向通信。
可选地,还可以存在一个或多个数据库,例如第一数据库110、第二数据库120或第三数据库130中的一个或多个,用于与计算设备108协同实现功能。应当理解,在一些实施例中,该一个或多个数据库中的一个或多个可以集成于计算设备108中。
在一些实施例中,中间设备105可以包括网络连接,例如局域网(LAN)、广域网(WAN)、个域网(PAN)、和/或诸如因特网之类的通信网络的组合。在这种情况下,计算设备108可以充当服务器,用户接口101可以例如经由网络与一个或多个计算设备108进行交互,例如向其发送数据或从其接收数据。计算设备108以及一个或多个用户接口101的每一个可以包括能够通过中间设备105进行通信的至少一个通信接口(未示出)。这样的通信接口可以是下列各项中的一个或多个:任何类型的网络接口(例如,网络接口卡(NIC))、有线或无线(诸如IEEE 802.11无线LAN(WLAN))无线接口、全球微波接入互操作(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、BluetoothTM接口、近场通信(NFC)接口等。通信接口的另外的示例在本文其他地方描述。
在一些实施例中,中间设备105可以是直接的电连接,用户接口101与一个或多个计算设备108可以集成于一个或多个终端设备(未示出)上。一个或多个终端设备可以是任何类型的具有计算功能的设备,包括移动计算机(例如,设备、个人数字助理(PDA)、膝上型计算机、笔记本计算机、诸如Apple iPadTM的平板计算机、上网本等)、移动电话(例如,蜂窝电话、诸如Microsoft/>电话的智能手机、Apple iPhone、实现了/>AndroidTM操作系统的电话、/>设备,/>设备等)、可穿戴式设备(例如智能手表、头戴式设备,包括智能眼镜,如/>GlassTM,等)或其他类型的移动设备。在一些实施例中,一个或多个终端设备也可以是固定式设备,例如台式计算机、游戏机、智能电视等。此外,当存在多个终端设备的情况下,该多个终端设备可以是相同或不同类型的设备。
终端设备可以包括显示屏(未示出)以及可以经由显示屏与用户交互的终端应用(未示出)。终端应用可以为本地应用程序、网页(Web)应用程序或者作为轻量化应用的小程序(LiteApp,例如手机小程序、微信小程序)。在终端应用为需要安装的本地应用程序的情况下,可以将终端应用安装在终端设备中。在终端应用为Web应用程序的情况下,可以通过浏览器访问终端应用。在终端应用为小程序的情况下,可以通过搜索终端应用的相关信息(如终端应用的名称等)、扫描终端应用的图形码(如条形码、二维码等)等方式来在用户终端上直接打开终端应用,而无需安装终端应用。
图2示出了根据本公开的一些实施例的实体名词标注方法200的流程示意图。图3-5示出了根据本公开的一些实施例的实体名词标注方法的用户界面的局部示意图。
在一些实施例中,方法200可以包括下列步骤S210、S220和S230。
S210,展示待标注的文本,待标注的文本包括第一语种文本和与第一语种文本相关联的第二语种文本。
在一些实施例中,计算设备108可以被配置为从数据库110获取待标注的文本并进行展示。待标注的文本可以是经过翻译的双语语料。如图3所示,在一些实施例中,在用户界面300中的第一语种文本310包括文本 第二语种文本320包括汉语文本“中国青年钢琴家郎某作为上海世博会形象大使敲响了开市钟”。第一语种文本310中包括/>等待标注的实体名词。对应地,第二语种文本320中包括“郎某”、“中国”、“上海世博会”等待标注的实体名词。
在一些实施例中,第一语种文本与第二语种文本可以包括不同语言的文本。在一些实施例中,第一语种文本与第二语种文本可以包括同一种语言的不同表达类型的文本,例如分别包括普通话和方言文本,普通话和拼音文本,简体中文与甲骨文文本等。本公开对第一语种文本与第二语种文本的具体语种不做限制,只要能够适用于本发明即可。
S220,响应于分别对第一语种文本和第二语种文本的名词标注操作,将名词标注操作对应的第一语种实体名词和第二语种实体名词添加到实体名词标注区域。
在一些实施例中,如图4所示,创建实体名词标注区域600,实体名词标注区域600例如可以存储在计算设备108或一个或多个数据库(参见图1)中。可选地,实体名词标注区域600可以通过用户接口101与用户104交互(参见图1)。实体名词标注区域600可以包括第一子区域610,第二子区域620、第三子区域630、第四子区域640、第五子区域650和第六子区域660。第一子区域610,第二子区域620、第三子区域630、第四子区域640、第五子区域650和第六子区域660分别用于存储不同类型的实体名词。在一些实施例中,实体名词标注区域600可以以文本框的形式呈现给用户。
图6a示出了根据一些实施例的图2中所示出的步骤S220的一些子步骤。在一些实施例中,步骤S220包括:S502,响应于对待标注文本的文本选择操作,对文本选择操作对应的实体名词突出显示;实体名词包括第一语种实体名词和第二语种实体名词中的至少一种;和S504,响应于对实体名词的名词分类操作,将实体名词添加到名词分类操作对应的标注子区域类型。
在一些实施例中,响应于用户对的选取,将该名词进行突出显示,例如高亮显示,并且在用户界面上显示第一类型选项330。第一类型选项330例如可以包括三个选项:人名、地名、机构名。然后响应于用户对第一类型选项330的选择,确定该实体名词的类型,进而将该实体名词添加到标注区域的对应标注子区域。在一些实施例中,响应于用户对“郎某”的选取,将该名词进行突出显示,例如高亮显示,并且在用户界面上显示第二类型选项340。第二类型选项340例如可以包括三个选项:人名、地名、机构名。然后响应于用户对第二类型选项340的选择,确定该实体名词的类型,进而将该实体名词添加到标注区域的对应标注子区域。在一些实施例中,参见图3-4,先对第一语种文本310中的第一语种实体名词进行标注,将第一语种实体名词614导入至第一子区域610的第一位置612(图中示出为“0”);然后对第二语种文本320中的第二语种实体名词“郎某”进行标注,将第二语种实体名词624导入至第二子区域620的第二位置622(图中示出为“0”)。在一些实施例中,第一类型选项或第二类型选项中的一个或多个是预先配置的。例如,在标注前其已经被存储于一个或多个计算设备108中。
在一些实施例中,步骤S504可以包括:当检测到输入设备的组合键输入指令时,确定与组合键输入指令对应的名词分类操作,以及将实体名词添加到名词分类操作对应的标注子区域。例如,响应于用户的快捷键输入(例如Alt+1、Alt+2、Alt+3等),直接确定类型。例如,用户在选定第一语种实体名词之后,输入快捷键“Alt+1”,计算设备直接确定该实体名词属于类型选项中的某一类型,并且将实体名词添加到名词分类操作对应的标注子区域。
通过对待标注实体名词进行突出显示以及提供类型选项,进一步提升了标注方法的可视化程度,提升了用户交互的效率。通过提供实体名词标注区域,本发明的实施例提供了用于对多个文本的实体名词进行标注和配对的方法。本方法可以生成平行的双语语料,提升了可视化效果,方便将标注结果直接生成资源库而提供至模型训练的数据库的接口,改善了标注的效率和质量。
在一些实施例中,实体名词标注区域600的用户界面中还可以包括与用户进行交互的按钮,例如616、626所示的“删除”按钮,以便响应于用户的操作而对实体名词标注区域600进行调整。在一些实施例中,在步骤S504之后,实体名词标注方法还包括:当检测到实体名词标注区域中的名词删除操作时,确定名词删除操作对应的实体名词;以及将实体名词从标注子区域中删除。在一些实施例中,在步骤S504之后,实体名词标注方法还包括:当检测到实体名词标注区域中的名词位置调整指令时,根据名词位置调整指令对标注子区域中实体名词的位置进行调整。例如,响应于用户利用鼠标对实体名词标注区域600的不同子区域中不同命名实体的拖拽和删除,来调整第一语种实体名词和第二语种实体名词所在的子区域或第一语种实体名词和第二语种实体名词在所在子区域中的位置,从而完成来自不同文本的实体名词的配对和对齐。特别地,在同时标注多个命名实体的情况下,这样处理可以提升标注的效率,避免单次只能选取一个命名实体。
可选地,第一语种文本和第二语种文本可以分别包括多个相同类型的实体名词。也可以对多个相同类型的第一语种实体名词同时进行标注,将它们同时导入到第一子区域610并依次排列,然后对与该多个相同类型的第一语种实体名词相对应的多个相同类型的第二语种实体名词同时进行标注,将它们同时导入到第二子区域620并依次排列,然后调整次序使得相对应的实体名词处于相关联的位置,从而完成多个第一语种实体名词与多个第二语种实体名词之间的配对和对齐,这样可以大大提升标注的效率。应当理解,这种方法可以推广到更多个类型和更多个子区域。
S230,根据实体名词标注区域中对应显示的第一语种实体名词和第二语种实体名词,生成名词标注结果。
在一些实施例中,如图5所示,根据实体名词标注区域中对应显示的第一语种实体名词和第二语种实体名词,生成名词标注结果。
图6b示出了根据一些实施例的图2中所示出的步骤S230的一些子步骤。在一些实施例中,步骤S230包括:S510,分别在第一语种文本和第二语种文本中,确定第一语种实体名词和第二语种实体名词,第一语种实体名词和第二语种实体名词在实体名词标注区域对应显示;和S520在第一语种文本和第二语种文本中,分别对第一语种实体名词和第二语种实体名词添加相应的标注标签。
在一些实施例中,参见图3-5,分别在第一语种文本410和第二语种文本420中,确定第一语种实体名词和第二语种实体名词“郎某”,第一语种实体名词/>和第二语种实体名词“郎某”在实体名词标注区域600中对应显示在第一语种文本410和第二语种文本420中,分别对第一语种实体名词/>和第二语种实体名词“郎某”添加相应的标注标签。例如,根据在实体名词标注区域600中显示的第一语种文本310中的第一语种实体名词/>以及第二语种文本320中的第二语种实体名词“郎某”,分别在第一语种文本410和第二语种文本420中生成标注标签<S_PER_0>、<E_PER_0>和<S_PER_0>、<E_PER_0>。局部用户界面400中的文本410和420分别示出了带有标注结果的文本。在一些实施例中,在实体名词标注区域600中,确定对应显示第一语种实体名词/>和第二语种实体名词“郎某”的标注子区域610、620的名词类型,例如名词类型为“人名”。根据名词类型确定标注标签,以及为第一语种实体名词/>和第二语种实体名词“郎某”分别添加标注标签<S_PER_0>、<E_PER_0>和<S_PER_0>、<E_PER_0>。
在一些实施例中,根据名词类型确定标注标签,包括:获取第一语种实体名词和第二语种实体名词在实体名词标注子区域中对应显示的位置标识;以及根据名词类型和位置标识生成标注标签。如图3-6所示,获取第一语种文本310中的第一语种实体名词的位置标识612(图中示出为“0”)和第二语种文本320中的第二语种实体名词“郎某”的位置标识622(图中示出为“0”),以及根据名词类型“人名”和位置标识生成标注标签,为第一语种实体名词/>和第二语种实体名词“郎某”分别添加标注标签<S_PER_0>、<E_PER_0>和<S_PER_0>、<E_PER_0>。
在一些实施例中,在第一语种文本410和第二语种文本420中,分别对第一语种实体名词和第二语种实体名词“郎某”添加标注标签<S_PER_0>、<E_PER_0>和<S_PER_0>、<E_PER_0>。标注标签中的每个可以包括标识符,标识符可以包括类型标识符和位置标识符。如图5所示,在一些实施例中,标识符S_PER_0、E_PER_0,包括类型标识符“PER”和位置标识符“0”等。应当理解,每种文本中具有带有相同的类型标识符的标签的实体名词的数量可能是多个,在这种情况下,可以借助于位置标识符对同一文本中的不同的实体名词进行区分。通过设置标识符,进一步改善了可视化效果,提升了用户体验和操作效率,改善了标注质量,并且有助于不同标注结果的配对。
在一些实施例中,如表2所示,类型标识符与实体名词的类型相关联。例如,类型标识符与人名、地名或机构名中的至少一种相关联。这可以有利于标签和所标注文本的可视化,提升标注效率,减少标注的出错率,提升标注质量。
在一些实施例中,如表2和图5所示,标识符还可以包括置位标识符。在一些实施例中,标识标签可以包括标识符S_PER_0、E_PER_0,其中该标识符包括置位标识符S、E。标识标签<S_PER_0>、<E_PER_0>包括第一子标签<S_PER_0>和第二子标签<E_PER_0>,第一子标签<S_PER_0>和第二子标签签<E_PER_0>包括不同的置位标识符并且可以分别位于在第一语种实体名词的不同置位,例如分别位于第一语种实体名词/> 的前方和后方。特别地,可以将所生成的标签还原至原始文本中。这里的“还原”指的是按照一定的格式将标签嵌套在原始文本的特定置位,例如将特定的标签设置于所标记的实体名词的前方和后方两侧。
表2标注结果示例
表3示出了通过根据本发明的实施例的实体名词标注方法生成的带有标签的语料示例。
表3语料示例
应当理解,在一些实施例中,第一语种文本和第二语种文本中的不同实体名词可以被导入至第一子区域610,第二子区域620、第三子区域630、第四子区域640、第五子区域650和第六子区域660中的至少一个。本发明对实体名词标注区域的类型和数量不做限制。在同一文本中有多个同一类型的实体名词的情况下,可以根据位置的变化来对同一库中不同的实体名词进行区分和配对。
在一些实施例中,参见图1,可以将第一标注结果和第二标注结果更新至数据库110中。可替代地,可以将第一标注结果和第二标注结果更新至数据库120中。
通过本发明的实施例提供的实体名词标注方法,可以对两种文本进行标注并且对两种文本的标注结果进行配对,实现了两种文本的标注结果的对应关系,从而生成了具有配对关系的资源库。这种资源库可以作为训练机器翻译等模型训练的重要基础。另外,可以同时对多个实体名词同时进行标注分类,提升了标注的效率。利用本发明提供的实施例,提升了对实体名词的标注的自动化程度和人机交互的效率,例如标注结果录入效率提升,标注结果的自动配对等。同时,本发明提供的实施例中的标注实体名词的方法可视化程度高,例如可以提供可视化的标注结果。另外,本发明提供的实施例降低了带宽和计算资源的闲置、浪费,改进了标注的效率和准确度,并且最终改进了计算机对自然语言处理的效率和准确度。
图7a-7b示出了包括多种语言的文本。在一些实施例中,图7a-7b示出了第一语种文本1010,其中第一语种文本还包括第三语种文本1020,第一语种和第三语种具有不同的书写顺序。展示待标注的文本包括:以第一顺序展示第一语种文本1010,第一顺序取决于第一语种的书写顺序;以及以第二顺序展示第三语种文本1020,第二顺序取决于第三语种的书写顺序。具体地,如果按照1050所示次序展示第一语种文本1010和第三语种文本1020,则第三语种文本1020中的字符“LOC”将被以错误的顺序展示。如果按照1060所示的次序来依次展示第一语种文本1010和第三语种文本1020,则第三语种文本1020中的字符“LOC”将被以正确顺序展示。
在一些实施例中,图7a-7b示出了第一语种文本1010,其中第一标签中的标识符还包括第三语种文本,即第三语种文本1020可以被包括于第一标签的标识符中。其中,第一语种和第三语种具有不同的书写顺序。在这种情况下,展示待标注的文本包括:以第一顺序展示第一语种文本1010,第一顺序取决于第一语种的书写顺序,并且根据实体名词标注区域中对应显示的第一语种实体名词和第二语种实体名词,生成名词标注结果包括:以第二顺序生成第一标签中的第三语种文本1020,第二顺序取决于第三语种的书写顺序。换言之,需要保证第一语种文本和第三语种文本以不同的顺序被展示或者生成。
这样,可以保证第一语种文本和第三语种文本都以正确的顺序被展示或生成,从而避免多语种混排方向错乱的问题。
在一些实施例中,对实体名词标注区域中的第一子区域设置dir:rlt和unicode-bidi:normal样式,如此便可以让第一语种从右向左排,让英语从左往右排,并生成如1060所示的多语种的正确的字符顺序。如此,在将HTML标签转换为相应的实体名词的标注结果时,便可以生成一个具有正确的字符顺序的结果。
应当理解,本公开对不同文本所属的语言不做具体限制,只要能够实现本发明的目的即可。
图8从人机交互的角度示出了根据本公开的一些实施例的实体名词标注方法700的流程图。如图所示,示例地,将方法分成“用户端”和“服务器端”(或者“前端”和“后端”)。方法700可以包括下列步骤:S705,用户进入操作界面;S710,用户导入待标注的文本;S715,数据请求:将待标注文本加载至用户接口并且展示该文本的内容;S720,用户拖选实体名词;S725,操作请求:被拖选的实体名词亮度增加,提供类型选项(可选地,可以对每个类型选项设置快捷键);S730,用户对类型选项进行选择;S735,操作请求:根据类型选项将实体名词导入对应的实体名词标注区域的对应位置并同步至用户接口;S745,用户录入核查;以及S750,用户确定核查结果是否无误。
如果确定核查结果无误,则继续至S755,用户提交生成语料的指令;以及S760,操作请求:在实体名词的对应置位生成标签,以及将带有标签的文本和实体名词标注区域导出至数据库。
如果确定核查结果有误,则返回至步骤S730,重新进行后续步骤。
应当理解,如前文所描述的,方法700也可以直接在一个或多个用户终端或其他计算设备上进行,其原理与图8所描述的类似,在此不再赘述。
图9示出了根据本公开的一些实施例的实体名词标注方法的部分过程810的流程图。在一些实施例中,步骤S725可以包括:S812,获取被拖选的实体名词;以及S814,用HTML标签对该实体名词进行高亮。在一些实施例中,步骤S735可以包括:S816,将该实体名词加入实体名词标注区域中;以及S818,对该HTML标签添加属性标记来标注这个实体名词。在一些实施例中,当用户在第一语种文本拖选一个实体名词“xxx”、并按alt+1快捷键进行标注时,计算设备使用浏览器API‘getSelection’来获取用户拖选的实体名词“xxx”,用自定义的HTML标签<match-term>将这段文本替换为“<match-term>xxx</match-term>”来对该实体名词进行高亮,将该实体名词“xxx”加入第一子区域中,对这个<match-term>添加langguage_type=uygur,area_id=per,match_id=0属性标记来标注这个实体名词是来自第一语种文本的并且在实体名词标注区域的第一子区域的第一位置,比如“<match-termlanguage_type=’uygur’area_id=’per’match_id=’0’>xxx</match-term>”。
图10示出了根据本公开的一些实施例的实体名词标注方法的部分过程820的流程图。在一些实施例中,步骤S760可以包括:S822,获取标注中的文本;S824,将该文本中的特定HTML标签转换为相应的实体名词的标注结果;以及S826,提交给数据库以进行存储。在一些实施例中,在用户提交生成语料的指令时,计算设备获取用户标注中的文本,使用CSS选择器获取到所有的<match-term>标签,用langguage_type和area_id属性将它转换为相应的实体名词的标注结果。比如把“<match-term language_type=’uygur’area_id=’1’>xxx</match-term>”转化为“<S_PER_0>xxx<E_PER_0>”。转换成功之后,可获得标注结果,之后便会将该结果提交给数据库以进行存储。在后续的应用中,可下载该结果用作机器学习等应用。
在一些实施例中,实体名词标注区域的样式可以被抽离为一个配置项,样式例如可以包括文字的显示方向。这样,可以修改实体名词标注区域的文字方向,从而可支持更多的语言来进行标注。
在一些实施例中,文本中经标注的实体名词的样式可以被配置化,样式例如可以包括标签标识符,实体名词标注区域中的第一子区域、第二子区域、第三子区域、第四子区域、第五子区域或第六子区域中的一个或多个的名词类型,高亮显示的颜色等。这样,提升了可视化效果,改善了针对不同语言、不同文本等的个性化需求。
在一些实施例中,参见图1、图2,步骤S220可以包括下列子步骤。
S1112,获取语料库,语料库包括带有标注数据的多个经标注实体名词。在一些实施例中,计算设备108从第三数据库130获取包括带有标注数据的多个经标注实体名词的语料库。
S1114,响应于第一语种实体名词和第二语种实体名词与多个经标注实体名词中的至少一个相关联,根据多个经标注实体名词中的至少一个的标注数据将第一语种实体名词和第二语种实体名词添加到实体名词标注区域。
在一些实施例中,计算设备108分别确定第一语种文本和第二语种文本与语料库中的多个经标注实体名词中的每个是否相关联,响应于第一语种实体名词和第二语种实体名词与多个经标注实体名词中的至少一个相关联,则可以直接根据经标注实体名词的标注数据将第一语种实体名词和第二语种实体名词添加到实体名词标注区域。例如,如果语料库中存在经标注实体名词的标注数据,则以经标注实体名词/>为关键词对第一语种文本进行检索,如果在第一语种文本中存在实体名词与/>相关联,则可以将该实体名词确定为第一语种实体名词。并且根据经标注实体名词/>的标注数据将第一语种实体名词直接添加到对应的实体名词标注区域。相似地,如果语料库中存在经标注实体名词“郎某”的标注数据,则以经标注实体名词“郎某”为关键词对第二语种文本进行检索,如果在第二语种文本中存在实体名词与“郎某”相关联,则可以将该实体名词确定为第二语种实体名词。并且根据经标注实体名词“郎某”的标注数据将第二语种实体名词直接添加到对应的实体名词标注区域。这样,通过对整个语料库中的多个经标注实体名词进行穷尽尝试,可以将第一语种文本和第二语种文本中的与多个经标注实体名词中的至少一个相关联的第一语种实体名词和第二语种实体名词添加到实体名词标注区域。
通过这种方式,可以使得从数据库中的语料库中直接调取经标注的实体名词的标注数据,并且将待标注文本中的实体名词与经标注的实体名词的标注数据进行关联操作,使得计算设备在不经过人工标注的情况下自动将第一语种实体名词和第二语种实体名词添加到实体名词标注区域,而用户只需要在特定的情况下进行人工介入。这样,改善了实体名词的标注效率,减少了出错率,改善了标注质量。
应当理解,在不互相矛盾的情况下,图11所示出的实体名词标注方法可以与上文所描述的实体名词标注方法中的任一项相结合,例如与上文所描述的标签、实体名词标注区域等相结合,对此不再赘述。
在一些实施例中,语料库包括开源语料库,例如国家语委现代汉语语料库。
图11示出了根据本发明实施例的实体名词标注装置1200的示意框图。装置1200包括:
展示模块1201,配置成展示待标注的文本,待标注的文本包括第一语种文本和与第一语种文本相关联的第二语种文本;
实体名词标注区域添加模块1202,配置成响应于分别对第一语种文本和第二语种文本的名词标注操作,将名词标注操作对应的第一语种实体名词和第二语种实体名词添加到实体名词标注区域;以及
名词标注结果生成模块1203,,配置成根据实体名词标注区域中对应显示的第一语种实体名词和第二语种实体名词,生成名词标注结果。
实体名词标注装置1200具有与实体名词标注方法200相似的原理或优点,在此不再赘述。
图12示出了能够实现根据本发明的一些实施例的实体名词标注方法的计算系统1300的示意框图。在一些实施例中,该计算系统1300代表图1的应用场景中的计算设备108。
计算系统1300可以包括各种不同类型的设备,例如计算设备计算机、客户端设备、片上系统和/或任何其它合适的计算系统或计算系统。
计算系统1300可以包括能够诸如通过系统总线1314或其他适当的方式连接彼此通信的至少一个处理器1302、存储器1304、(多个)通信接口1306、显示设备1308、其他输入/输出(I/O)设备1310以及一个或多个大容量存储装置1312。
处理器1302可以是单个处理单元或多个处理单元,所有处理单元可以包括单个或多个计算单元或者多个核心。处理器1302可以被实施成一个或多个微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。除了其他能力之外,处理器1302可以被配置成获取并且执行存储在存储器1304、大容量存储装置1312或者其他计算机可读介质中的计算机可读指令,诸如操作系统1316的程序代码、应用程序1318的程序代码、其他程序1320的程序代码等,以实现本发明实施例提供的实体名词标注方法。
存储器1304和大容量存储设备1312是用于存储指令的计算机存储介质的示例,指令由处理器1302执行来实施前面所描述的各种功能。举例来说,存储器1304一般可以包括易失性存储器和非易失性存储器二者(例如RAM、ROM等等)。此外,大容量存储设备1312一般可以包括硬盘驱动器、固态驱动器、可移除介质、包括外部和可移除驱动器、存储器卡、闪存、软盘、光盘(例如CD、DVD)、存储阵列、网络附属存储、存储区域网等等。存储器1304和大容量存储设备1312在本文中都可以被统称为存储器或计算机存储介质,并且可以是能够把计算机可读、处理器可执行程序指令存储为计算机程序代码的非瞬时性介质,计算机程序代码可以由处理器1302作为被配置成实施在本文的示例中所描述的操作和功能的特定机器来执行。
多个程序模块可以存储在大容量存储设备1312上。这些程序包括操作系统1316、一个或多个应用程序1318、其他程序1320和程序数据1322,并且它们可以被加载到存储器1304以供执行。这样的应用程序或程序模块的示例可以包括例如用于实现本文所提供的实体名词标注方法的计算机程序逻辑(例如,计算机程序代码或指令)。而且,这些程序模块可以分布在不同的物理位置,以实现相应的功能。例如,被描述为由图1中的计算设备108执行的方法可以分布在多个计算设备上来完成。
本发明还提供了一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令在被执行时实现上述的实体名词标注方法。
虽然在图12中被图示成存储在计算系统1300的存储器1304中,但是模块1313、1318、1320和1322或者其部分可以使用可由计算系统1300访问的任何形式的计算机可读介质来实施。如本文所使用的,“计算机可读介质”至少包括两种类型的计算机可读介质,也就是计算机存储介质和通信介质。
计算机存储介质包括通过用于存储信息的任何方法或技术实施的易失性和非易失性、可移除和不可移除介质,信息诸如是计算机可读指令、数据结构、程序模块或者其他数据。计算机存储介质包括而不限于RAM、ROM、EEPROM、闪存或其他存储器技术,CD-ROM、数字通用盘(DVD)、或其他光学存储装置,磁盒、磁带、磁盘存储装置或其他磁性存储设备,或者可以被用来存储信息以供计算系统访问的任何其他非传送介质。
与此相对,通信介质可以在诸如载波或其他传送机制之类的已调数据信号中具体实现计算机可读指令、数据结构、程序模块或其他数据。本文所定义的计算机存储介质不包括通信介质。
计算系统1300还可以包括一个或更多通信接口1306,以用于诸如通过网络、直接连接等等与其他设备交换数据。通信接口1306可以促进在多种网络和协议类型内的通信,其中包括有线网络(例如LAN、电缆等等)和无线网络(例如WLAN、蜂窝、卫星等等)、因特网等等。通信接口1306还可以提供与诸如存储阵列、网络附属存储、存储区域网等等中的外部存储装置(未示出)的通信。
在一些示例中,可以包括显示设备1308,以用于显示信息和图像。其他I/O设备1310可以是接收来自用户的各种输入并且向用户提供各种输出的设备,并且可以包括触摸输入设备、手势输入设备、摄影机、键盘、遥控器、鼠标、打印机、音频输入/输出设备等等。
本文提供了实体名词标注方法和设备、计算设备和计算机可读存储介质。通过本文提供的实施例,可以对两种文本进行标注并且对两种文本的标注结果进行配对,实现了两种文本的标注结果的对应关系,从而生成了具有配对关系的资源库。这种资源库可以作为训练机器翻译等模型训练的重要基础。另外,可以同时对多个实体名词同时进行标注分类,提升了标注的效率。利用本发明提供的实施例,提升了对实体名词的标注的自动化程度和人机交互的效率,例如标签录入效率提升,自动将标注的标签还原至原文本,标注结果的自动配对等。同时,本发明提供的实施例中的标注实体名词的方法可视化程度高,例如可以提供可视化的标签和实体名词标注区域。另外,本发明提供的实施例降低了带宽和计算资源的闲置、浪费,改进了标注的效率和准确度,并且最终改进了计算机对自然语言处理的效率和准确度。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点被包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序(包括根据所涉及的功能按基本同时的方式或按相反的顺序)来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
通过研究附图、公开内容和所附的权利要求书,本领域技术人员在实践所要求保护的主题时,能够理解和实现对于所公开的实施例的变型。在权利要求书中,词语“包括”不排除其他元件或步骤,并且不定冠词“一”或“一个”不排除多个。在相互不同的从属权利要求中记载了某些措施的仅有事实并不表明这些措施的组合不能用来获利。
Claims (8)
1.一种实体名词标注方法,包括:
展示待标注文本,所述待标注文本包括第一语种文本和与所述第一语种文本相关联的第二语种文本;
响应于对所述待标注文本的文本选择操作,对所述文本选择操作对应的实体名词突出显示;所述实体名词包括第一语种实体名词和第二语种实体名词中的至少一种;当检测到输入设备的组合键输入指令时,确定与所述组合键输入指令对应的名词分类操作;以及将所述实体名词添加到实体名词标注区域;
根据所述实体名词标注区域中对应显示的所述第一语种实体名词和所述第二语种实体名词,生成名词标注结果。
2.根据权利要求1所述的实体名词标注方法,其中所述根据所述实体名词标注区域中对应显示的所述第一语种实体名词和所述第二语种实体名词,生成名词标注结果包括:
分别在所述第一语种文本和所述第二语种文本中,确定所述第一语种实体名词和所述第二语种实体名词,所述第一语种实体名词和所述第二语种实体名词在所述实体名词标注区域对应显示;以及
在所述第一语种文本和所述第二语种文本中,分别对所述第一语种实体名词和所述第二语种实体名词添加相应的标注标签。
3.根据权利要求2所述的实体名词标注方法,其中,所述在所述第一语种文本和所述第二语种文本中,分别对所述第一语种实体名词和所述第二语种实体名词添加相应的标注标签,包括:
在所述实体名词标注区域中,确定对应显示所述第一语种实体名词和所述第二语种实体名词的标注子区域的名词类型;
根据所述名词类型确定标注标签;以及
在所述第一语种文本和所述第二语种文本中,分别对所述第一语种实体名词和所述第二语种实体名词添加所述标注标签。
4.根据权利要求3所述的实体名词标注方法,其中,所述根据所述名词类型确定标注标签,包括:
获取所述第一语种实体名词和所述第二语种实体名词在所述实体名词标注子区域中对应显示的位置标识;以及
根据所述名词类型和所述位置标识生成标注标签。
5.根据权利要求1所述的实体名词标注方法,其中,在所述响应于对所述实体名词的名词分类操作,将所述实体名词添加到所述名词分类操作对应的标注子区域之后,还包括:
当检测到所述实体名词标注区域中的名词删除操作时,确定所述名词删除操作对应的实体名词;以及
将所述实体名词从所述标注子区域中删除。
6.根据权利要求1所述的实体名词标注方法,其中,在所述响应于对所述实体名词的名词分类操作,将所述实体名词添加到所述名词分类操作对应的标注子区域之后,还包括:
当检测到所述实体名词标注区域中的名词位置调整指令时,根据所述名词位置调整指令对所述标注子区域中所述实体名词的位置进行调整。
7.一种实体名词标注装置,所述装置包括:
展示模块,配置成展示待标注的文本,所述待标注的文本包括第一语种文本和与所述第一语种文本相关联的第二语种文本;
实体名词标注区域添加模块,配置成响应于对所述待标注的文本的文本选择操作,对所述文本选择操作对应的实体名词突出显示;所述实体名词包括第一语种实体名词和第二语种实体名词中的至少一种;当检测到输入设备的组合键输入指令时,确定与所述组合键输入指令对应的名词分类操作;以及将所述实体名词添加到实体名词标注区域;以及
名词标注结果生成模块,配置成根据所述实体名词标注区域中对应显示的所述第一语种实体名词和所述第二语种实体名词,生成名词标注结果。
8.一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令在被执行时实现权利要求1-6中任一项所述的实体名词标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010746638.5A CN111738024B (zh) | 2020-07-29 | 2020-07-29 | 实体名词标注方法和装置、计算设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010746638.5A CN111738024B (zh) | 2020-07-29 | 2020-07-29 | 实体名词标注方法和装置、计算设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111738024A CN111738024A (zh) | 2020-10-02 |
CN111738024B true CN111738024B (zh) | 2023-10-27 |
Family
ID=72656550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010746638.5A Active CN111738024B (zh) | 2020-07-29 | 2020-07-29 | 实体名词标注方法和装置、计算设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111738024B (zh) |
Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61184685A (ja) * | 1985-02-12 | 1986-08-18 | Hitachi Ltd | 翻訳情報追加方法 |
US4831529A (en) * | 1986-03-04 | 1989-05-16 | Kabushiki Kaisha Toshiba | Machine translation system |
JPH09282313A (ja) * | 1996-04-09 | 1997-10-31 | Shisuin Net:Kk | 人名漢字処理システム |
WO1999052041A1 (fr) * | 1998-04-06 | 1999-10-14 | Sha Liu | Procede de traduction de langage a gabarit holographique et d'ouverture presentant une fonction d'interaction homme-machine et systeme de marquage holographique |
JP2005151037A (ja) * | 2003-11-13 | 2005-06-09 | Sony Corp | 音声処理装置および音声処理方法 |
CN1643511A (zh) * | 2002-03-11 | 2005-07-20 | 南加利福尼亚大学 | 命名实体翻译 |
KR20120046414A (ko) * | 2010-11-02 | 2012-05-10 | 에스케이플래닛 주식회사 | 중간 번역처리 결과 제공 장치 및 그 방법 |
CN103853710A (zh) * | 2013-11-21 | 2014-06-11 | 北京理工大学 | 一种基于协同训练的双语命名实体识别方法 |
US8977953B1 (en) * | 2006-01-27 | 2015-03-10 | Linguastat, Inc. | Customizing information by combining pair of annotations from at least two different documents |
KR20170017379A (ko) * | 2015-08-06 | 2017-02-15 | 한국전자통신연구원 | 자동 음성 번역 장치 및 그 방법 |
CN108460026A (zh) * | 2017-02-22 | 2018-08-28 | 华为技术有限公司 | 一种翻译方法及装置 |
CN108647319A (zh) * | 2018-05-10 | 2018-10-12 | 思派(北京)网络科技有限公司 | 一种基于短文本聚类的标注系统及其方法 |
CN109002435A (zh) * | 2018-06-06 | 2018-12-14 | 达而观信息科技(上海)有限公司 | 一种数据处理方法和装置 |
CN109829159A (zh) * | 2019-01-29 | 2019-05-31 | 南京师范大学 | 一种古汉语文本的一体化自动词法分析方法及系统 |
CN110134949A (zh) * | 2019-04-26 | 2019-08-16 | 网宿科技股份有限公司 | 一种基于教师监督的文本标注方法和设备 |
CN110442869A (zh) * | 2019-08-01 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种医疗文本处理方法及其装置、设备和存储介质 |
CN110688844A (zh) * | 2019-08-22 | 2020-01-14 | 阿里巴巴集团控股有限公司 | 一种文本标注方法及装置 |
CN110688483A (zh) * | 2019-09-16 | 2020-01-14 | 重庆邮电大学 | 文景转换中基于词典的名词可视性标注方法、介质及系统 |
CN110717317A (zh) * | 2019-09-12 | 2020-01-21 | 中国科学院自动化研究所 | 在线人工中文文本标注系统 |
CN110968695A (zh) * | 2019-11-18 | 2020-04-07 | 罗彤 | 基于弱监督技术主动学习的智能标注方法、装置及平台 |
CN111274815A (zh) * | 2020-01-15 | 2020-06-12 | 北京百度网讯科技有限公司 | 用于挖掘文本中的实体关注点的方法和装置 |
CN111274829A (zh) * | 2020-02-07 | 2020-06-12 | 中国科学技术大学 | 一种利用跨语言信息的序列标注方法 |
CN111414766A (zh) * | 2018-12-18 | 2020-07-14 | 北京搜狗科技发展有限公司 | 一种翻译方法及装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7031911B2 (en) * | 2002-06-28 | 2006-04-18 | Microsoft Corporation | System and method for automatic detection of collocation mistakes in documents |
JP2006501582A (ja) * | 2002-09-30 | 2006-01-12 | チャン,ニン−ピン | 電子文書のテキスト情報に関するポインタにより瞬時に起動される2ヶ国語注釈 |
US20060047500A1 (en) * | 2004-08-31 | 2006-03-02 | Microsoft Corporation | Named entity recognition using compiler methods |
US20060047690A1 (en) * | 2004-08-31 | 2006-03-02 | Microsoft Corporation | Integration of Flex and Yacc into a linguistic services platform for named entity recognition |
US8706474B2 (en) * | 2008-02-23 | 2014-04-22 | Fair Isaac Corporation | Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names |
US8214346B2 (en) * | 2008-06-27 | 2012-07-03 | Cbs Interactive Inc. | Personalization engine for classifying unstructured documents |
US9244909B2 (en) * | 2012-12-10 | 2016-01-26 | General Electric Company | System and method for extracting ontological information from a body of text |
US9971763B2 (en) * | 2014-04-08 | 2018-05-15 | Microsoft Technology Licensing, Llc | Named entity recognition |
US9686275B2 (en) * | 2014-07-07 | 2017-06-20 | International Business Machines Corporation | Correlating cognitive biometrics for continuous identify verification |
US10552539B2 (en) * | 2015-12-17 | 2020-02-04 | Sap Se | Dynamic highlighting of text in electronic documents |
US10765956B2 (en) * | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
WO2017130434A1 (ja) * | 2016-01-28 | 2017-08-03 | 楽天株式会社 | 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム |
KR102329127B1 (ko) * | 2017-04-11 | 2021-11-22 | 삼성전자주식회사 | 방언을 표준어로 변환하는 방법 및 장치 |
-
2020
- 2020-07-29 CN CN202010746638.5A patent/CN111738024B/zh active Active
Patent Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61184685A (ja) * | 1985-02-12 | 1986-08-18 | Hitachi Ltd | 翻訳情報追加方法 |
US4831529A (en) * | 1986-03-04 | 1989-05-16 | Kabushiki Kaisha Toshiba | Machine translation system |
JPH09282313A (ja) * | 1996-04-09 | 1997-10-31 | Shisuin Net:Kk | 人名漢字処理システム |
WO1999052041A1 (fr) * | 1998-04-06 | 1999-10-14 | Sha Liu | Procede de traduction de langage a gabarit holographique et d'ouverture presentant une fonction d'interaction homme-machine et systeme de marquage holographique |
CN1643511A (zh) * | 2002-03-11 | 2005-07-20 | 南加利福尼亚大学 | 命名实体翻译 |
JP2005151037A (ja) * | 2003-11-13 | 2005-06-09 | Sony Corp | 音声処理装置および音声処理方法 |
US8977953B1 (en) * | 2006-01-27 | 2015-03-10 | Linguastat, Inc. | Customizing information by combining pair of annotations from at least two different documents |
KR20120046414A (ko) * | 2010-11-02 | 2012-05-10 | 에스케이플래닛 주식회사 | 중간 번역처리 결과 제공 장치 및 그 방법 |
CN103853710A (zh) * | 2013-11-21 | 2014-06-11 | 北京理工大学 | 一种基于协同训练的双语命名实体识别方法 |
KR20170017379A (ko) * | 2015-08-06 | 2017-02-15 | 한국전자통신연구원 | 자동 음성 번역 장치 및 그 방법 |
CN108460026A (zh) * | 2017-02-22 | 2018-08-28 | 华为技术有限公司 | 一种翻译方法及装置 |
CN108647319A (zh) * | 2018-05-10 | 2018-10-12 | 思派(北京)网络科技有限公司 | 一种基于短文本聚类的标注系统及其方法 |
CN109002435A (zh) * | 2018-06-06 | 2018-12-14 | 达而观信息科技(上海)有限公司 | 一种数据处理方法和装置 |
CN111414766A (zh) * | 2018-12-18 | 2020-07-14 | 北京搜狗科技发展有限公司 | 一种翻译方法及装置 |
CN109829159A (zh) * | 2019-01-29 | 2019-05-31 | 南京师范大学 | 一种古汉语文本的一体化自动词法分析方法及系统 |
CN110134949A (zh) * | 2019-04-26 | 2019-08-16 | 网宿科技股份有限公司 | 一种基于教师监督的文本标注方法和设备 |
CN110442869A (zh) * | 2019-08-01 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种医疗文本处理方法及其装置、设备和存储介质 |
CN110688844A (zh) * | 2019-08-22 | 2020-01-14 | 阿里巴巴集团控股有限公司 | 一种文本标注方法及装置 |
CN110717317A (zh) * | 2019-09-12 | 2020-01-21 | 中国科学院自动化研究所 | 在线人工中文文本标注系统 |
CN110688483A (zh) * | 2019-09-16 | 2020-01-14 | 重庆邮电大学 | 文景转换中基于词典的名词可视性标注方法、介质及系统 |
CN110968695A (zh) * | 2019-11-18 | 2020-04-07 | 罗彤 | 基于弱监督技术主动学习的智能标注方法、装置及平台 |
CN111274815A (zh) * | 2020-01-15 | 2020-06-12 | 北京百度网讯科技有限公司 | 用于挖掘文本中的实体关注点的方法和装置 |
CN111274829A (zh) * | 2020-02-07 | 2020-06-12 | 中国科学技术大学 | 一种利用跨语言信息的序列标注方法 |
Non-Patent Citations (6)
Title |
---|
基于特征相似度的可比语料挖掘汉柬命名实体等价对;徐璐;严馨;夏青;周枫;莫源源;;计算机与数字工程(第05期);882-885+910 * |
基于语料库的藏语名词分类与统计研究;祁坤钰;;西北民族大学学报(自然科学版)(第03期);44-49 * |
徐璐 ; 严馨 ; 夏青 ; 周枫 ; 莫源源 ; .基于特征相似度的可比语料挖掘汉柬命名实体等价对.计算机与数字工程.2017,(第05期),882-885+910. * |
祁坤钰 ; .基于语料库的藏语名词分类与统计研究.西北民族大学学报(自然科学版).2012,(第03期),44-49. * |
藏语命名实体识别研究;金明;杨欢欢;单广荣;;西北民族大学学报(自然科学版)(第03期);49-52 * |
金明 ; 杨欢欢 ; 单广荣 ; .藏语命名实体识别研究.西北民族大学学报(自然科学版).2010,(第03期),49-52. * |
Also Published As
Publication number | Publication date |
---|---|
CN111738024A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110520859B (zh) | 更智能的复制/粘贴 | |
US11429779B2 (en) | Method and system for intelligently suggesting paraphrases | |
US11900046B2 (en) | Intelligent feature identification and presentation | |
US20130185049A1 (en) | Predicting Pronouns for Pro-Drop Style Languages for Natural Language Translation | |
US9910554B2 (en) | Assisting graphical user interface design | |
US11651147B2 (en) | Method and system for intelligently detecting and modifying unoriginal content | |
JP6130315B2 (ja) | ファイル変換方法及びシステム | |
JP2017072872A (ja) | 操作支援システム、操作支援方法、および、操作支援プログラム | |
US20140236568A1 (en) | Input method to support multiple languages | |
US9298689B2 (en) | Multiple template based search function | |
Vandeghinste et al. | Improving the translation environment for professional translators | |
CN111738024B (zh) | 实体名词标注方法和装置、计算设备和可读存储介质 | |
US11763075B1 (en) | Method and system of discovering templates for documents | |
Wu et al. | Screen correspondence: Mapping interchangeable elements between uis | |
US11397846B1 (en) | Intelligent identification and modification of references in content | |
US20230351091A1 (en) | Presenting Intelligently Suggested Content Enhancements | |
US10853558B2 (en) | Transforming digital text content using expressions | |
JP2022187507A (ja) | 技術調査支援装置、技術調査支援方法、および技術調査支援プログラム | |
US20230161949A1 (en) | Intelligent content identification and transformation | |
US11775747B1 (en) | Method and system of generating a document template | |
US11367442B2 (en) | Device and method with input | |
US20240127617A1 (en) | Systems and methods for automated text labeling | |
US20230306087A1 (en) | Method and system of retrieving multimodal assets | |
US8875009B1 (en) | Analyzing links for NCX navigation | |
WO2024107279A1 (en) | Method and system of generating an editable document from a non-editable document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |