CN104899187A - 人机交互的分词与语义标示的方法与系统 - Google Patents

人机交互的分词与语义标示的方法与系统 Download PDF

Info

Publication number
CN104899187A
CN104899187A CN201410080020.4A CN201410080020A CN104899187A CN 104899187 A CN104899187 A CN 104899187A CN 201410080020 A CN201410080020 A CN 201410080020A CN 104899187 A CN104899187 A CN 104899187A
Authority
CN
China
Prior art keywords
participle
user
man
word segmentation
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410080020.4A
Other languages
English (en)
Inventor
蔡天琪
陈竹心
王墅
陈泽昊
徐家辉
蔡恒进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN YUANBAO CREATIVE TECHNOLOGY Co Ltd
Original Assignee
WUHAN YUANBAO CREATIVE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN YUANBAO CREATIVE TECHNOLOGY Co Ltd filed Critical WUHAN YUANBAO CREATIVE TECHNOLOGY Co Ltd
Priority to CN201410080020.4A priority Critical patent/CN104899187A/zh
Publication of CN104899187A publication Critical patent/CN104899187A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公布了人机交互的分词与语义标示的方法,其中包括:接收文档输入,默认分词;收到指示人工进行分词增加删除调整;进行人工设置代词或省略的指向和对二义性语句进行释义输入;最后接收、显示并保存用户的更新操作。本发现还公布了人机交互的分词与语义标示的系统,系统包括获取输入模块、分词处理模块、指代设置模块及显示模块。

Description

人机交互的分词与语义标示的方法与系统
技术领域
本发明涉及自然语言处理技术,特别涉及人机交互的分词与语义标示的方法。
背景技术
作为自然语言的中文有着悠久的历史,古文是没有标点符号的,标点的使用让中文更加易于理解。同样分词在自然语言处理相关的应用中是非常重要的,分词的结果将直接影响到具体应用的效果。
分词技术在近年来受到了人们的广泛关注。所谓分词,就是将文字序列切分成一个一个单独的词。以中文分词技术为例,分词技术的目标就是将例如但不限于一句话切分为一个一个单独的中文词语。
而将文字序列切分为单独的词,是实现机器识别人类语言的第一步,因此分词技术至关重要。经过多年的发展,研究人员已先后开发出多种分词方法,包括例如但不限于基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等等。
分词过程中还存在一定的歧义现象。歧义指的是在分词过程中存在多种切分选择的情况,在分词过程中如果出现歧义,现有技术中难以为消除歧义提供依据。容易得出使得机器理解自然语言,完全的自动化在当前背景下不现实,需要使用交互的方式进行。语义上的不确定性,使得作者与读者的理解有偏差,特别地,在法律文件中,不应存在模糊性。在这种情况下,人机交互的分词与语义标示的方法存在十分必要。
发明内容
本发明提供了人机交互的分词与语义标示的方法,可以对文档进行分词、词频统计、消除二义性和对代词或省略指代等信息进行处理。
该方法首先接收文档输入,默认进行分词处理,用户可以选择确认分词或进行人工干预。
系统收到进行人工分词调整的指示包括增加和删除两种操作。
其中接收到增加分词指示,提示用户选中词语,根据用户的光标,高亮标记出的词语,鼠标再一次松开后,词语标记完成,添加分词符号。
而接收到删除指示,提示用户选中词语,根据用户的光标,删去原分词符号,将原分词与前后文合并。
除了进行分词的调整还收到指示进行人工设置代词或省略的指向。
用户可操作光标定位在接近的计算机设备显示设备上的图形用户界面(GUI)中,系统收到指示进行人工指向提供至少一种指向选项和用户自定义输入框,用户进行输入选择,系统接收用户输入的GUI选择或自定义输入。
在光标再次移动到该词条上时,显示出更新后的指代或省略信息。
对于有二义性的语句,系统提供用户自定义输入框,由用户进行选择输入,系统进行更新保存。
本发现还公布了人机交互的分词与语义标示的系统,系统包括获取输入模块、分词处理模块、指代设置模块及显示模块。
获取输入模块接收文档的输入;分词处理模块对文档进行初步处理,与数据库进行匹配,进行分词;指代设着模块包括对文档指代不明及省略部分提供指代选择与接收用户的选择及输入,还包括接收用户对二义性语句的输入释义;显示模块处理对分词结果的显示。
附图说明
 图1是用来呈现人机交互的分词与语义标示的方法的流程图。
图2是人机交互的分词与语义标示的系统对分词结果呈现的示意图。
图3是删除系统分词示意图。
图4是添加系统分词示意图。
图5是用来呈现人机交互的分词与语义标示的系统对指代设置示意图。
图6是用来呈现人机交互的分词与语义标示的系统对指代选择示意图。
图7是用来呈现人机交互的分词与语义标示的系统对指代自定义输入示意图。
图8是用来呈现人机交互的分词与语义标示的系统对语句二义性处理示意图。
图9是用来呈现人机交互的分词与语义标示的系统对语句二义性用户输入示意图。
图10是人机交互的分词与语义标示的系统模块图。
具体实施方式
图1是用来呈现人机交互的分词与语义标示的方法的流程图。
该方法从101开始,首先接收文档输入,102根据用户输入和默认词典进行初始化分词,识别的词语用分词符号进行标记。
之后用户可以选择确认分词或进行人工干预。
如用户不进行人工干预,则通过113步骤达到114结束。如用户进行103手动调整,则可以选择104分词调整或者108指代及二义调整。
系统105接受分词调整包括增加和删除两种操作。
106设置分词符号,如接收到增加分词指示,提示用户选中词语,根据用户的光标,高亮标记出的词语,鼠标再一次松开后,词语标记完成,添加分词符号。
而接收到删除指示,提示用户选中词语,根据用户的光标,删去原分词符号,将原分词与前后文合并。107进行整合上下文。
除了进行分词的调整还收到指示进行人工设置代词或省略的指向。
109接受人工指向指示,用户可操作光标定位在接近的计算机设备显示设备上的图形用户界面(GUI)中,110系统收到指示进行人工指向提供至少一种指向选项和用户自定义输入框,用户进行输入选择,系统接收用户输入的GUI选择或自定义输入。
111接受用户的选择及输入,在光标再次移动到该词条上时,显示出更新后的指代或省略信息。
对于有二义性的语句,110系统用户自定义输入框,111由用户进行选择输入,进行112显示并保存更新,最后114结束。
 
图2是人机交互的分词与语义标示的系统分词结果呈现的示意图,分词结果如201古诗及202广寒宫所示。
图3是删除系统分词示意图,用户点击301删除分词符进行删除操作。
图4是添加系统分词示意图,用户使用光标指示选择需要添加的分词401,点击添加分词符402进行添加操作。
图5是用来呈现人机交互的分词与语义标示的系统对指代设置示意图,用户使用光标指示选择需要进行指代设置的501,点击指代设置502进行操作。
图6是用来呈现人机交互的分词与语义标示的系统对指代选择示意图,界面显示指代选择601月亮、广寒宫阙及602自定义输入。
图7是用来呈现人机交互的分词与语义标示的系统指代自定义输入示意图,在输入框701中输入指代内容。
图8是用来呈现人机交互的分词与语义标示的系统语句二义性处理示意图801为选择的有二义性的语句。
图9是用来呈现人机交互的分词与语义标示的系统语句二义性用户输入示意图,901为二义性语句用户自定义输入框。
图10是人机交互的分词与语义标示的系统模块图,系统包括115获取输入模块、116分词处理模块、117指代设置模块及118显示模块。
115获取输入模块接收文档的输入;116分词处理模块对文档进行初步处理,与数据库进行匹配,进行分词;117指代设着模块包括对文档指代不明及省略部分提供指代选择与接收用户的选择及输入,还包括接收用户对二义性语句的输入释义;118显示模块处理对分词结果的显示。

Claims (10)

1.人机交互的分词与语义标示的方法,包括:
A、接收输入,默认分词
B、收到指示进行人工分词调整
C、收到指示进行人工设置代词或省略的指向
D、收到指示对于二义性语句进行释义输入
E、接收、显示并保存用户的更新操作。
2.根据权利要求1所述的方法,其特征在于:人机交互入口为在分词过程中收到的用户指示操作。
3.根据权利要求1所述的方法,其特征在于,所述的A步骤包括:
根据输入的文本,以词库为依据进行匹配,将识别出的词汇与其他未识别部分进行标记,达到视觉上的区分;区分呈现的方式包括但不限于使用下划线标记出识别的部分,或采用竖线、斜线等符号进行分隔。
4.根据权利要求3所述的方法,其特征在于:
词汇的匹配方式包括但不限于使用正向迭代匹配,即正序逐字识别、与词库进行比对,一般默认采用正向最大长度匹配原则并进行词频统计。
5.根据权利要求1所述的方法,其特征在于,所述的B步骤包括:
接收到的人工分词指示包括删除默认识别标记和添加新的识别标记,分词的词汇频率统计将在每一次对词汇识别的人工操作后进行更新。
6.根据权利要求1所述的方法,其特征在于,所述的C步骤包括:
接收到的指示为定义指代指示;将识别光标在GUI中接近的文本作为使用了指代或省略的对象,提供至少一种对象选项;接收用户确认的指代或省略对象;提供至少一种指代或省略的具体内容选项;接收用户确认的指代或省略的具体内容。
7.根据权利要求6所述的方法,其特征在于:
用户确认指代或省略对象、指代或省略具体内容的方式包括但不限于在提供的单选列表中进行选择或手动输入。
8.根据权利要求1所述的方法,其特征在于,所述的D步骤包括:
接收到的指示为二义性指示;对于有二义性的语句,接收用户的自定义输入释义。
9.根据权利要求1所述的方法,其特征在于,所述的E步骤包括:
分词结果、代词或省略指代和二义性等信息随着源文件一起保存,包括但不限于使用插件或通过格式文件存储;保存的方式包括但不限于本地保存和保存到互联网或云端。
10.本发现还公布了人机交互的分词与语义标示的系统,系统包括获取输入模块、分词处理模块、指代设置模块及显示模块:
获取输入模块接收文档的输入;分词处理模块对文档进行初步处理,与数据库进行匹配,进行分词;指代设着模块包括对文档指代不明及省略部分提供指代选择与接收用户的选择及输入,还包括接收用户对二义性语句的输入释义;显示模块处理对分词结果的显示。
CN201410080020.4A 2014-03-06 2014-03-06 人机交互的分词与语义标示的方法与系统 Pending CN104899187A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410080020.4A CN104899187A (zh) 2014-03-06 2014-03-06 人机交互的分词与语义标示的方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410080020.4A CN104899187A (zh) 2014-03-06 2014-03-06 人机交互的分词与语义标示的方法与系统

Publications (1)

Publication Number Publication Date
CN104899187A true CN104899187A (zh) 2015-09-09

Family

ID=54031856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410080020.4A Pending CN104899187A (zh) 2014-03-06 2014-03-06 人机交互的分词与语义标示的方法与系统

Country Status (1)

Country Link
CN (1) CN104899187A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095988A (zh) * 2016-06-21 2016-11-09 上海智臻智能网络科技股份有限公司 自动问答方法及装置
CN107622044A (zh) * 2016-07-13 2018-01-23 阿里巴巴集团控股有限公司 字符串的分词方法、装置及设备
CN109857327A (zh) * 2017-03-27 2019-06-07 三角兽(北京)科技有限公司 信息处理装置、信息处理方法以及存储介质
CN110532539A (zh) * 2018-05-24 2019-12-03 本识科技(深圳)有限公司 一种人机交互信息处理方法和装置
CN110874527A (zh) * 2018-08-28 2020-03-10 游险峰 一种基于云端的智能释义注音系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095988A (zh) * 2016-06-21 2016-11-09 上海智臻智能网络科技股份有限公司 自动问答方法及装置
CN107622044A (zh) * 2016-07-13 2018-01-23 阿里巴巴集团控股有限公司 字符串的分词方法、装置及设备
CN109857327A (zh) * 2017-03-27 2019-06-07 三角兽(北京)科技有限公司 信息处理装置、信息处理方法以及存储介质
CN110532539A (zh) * 2018-05-24 2019-12-03 本识科技(深圳)有限公司 一种人机交互信息处理方法和装置
CN110874527A (zh) * 2018-08-28 2020-03-10 游险峰 一种基于云端的智能释义注音系统

Similar Documents

Publication Publication Date Title
US20210397780A1 (en) Method, device, and storage medium for correcting error in text
US10698932B2 (en) Method and apparatus for parsing query based on artificial intelligence, and storage medium
US10061768B2 (en) Method and apparatus for improving a bilingual corpus, machine translation method and apparatus
CN103076892B (zh) 一种用于提供输入字符串所对应的输入候选项的方法与设备
CN104899187A (zh) 人机交互的分词与语义标示的方法与系统
CN108804423B (zh) 医疗文本特征提取与自动匹配方法和系统
CN102937864B (zh) 一种用于在触摸终端上确定所选文本的方法与设备
CN104166462A (zh) 一种文字的输入方法和系统
CN111859997A (zh) 机器翻译中的模型训练方法、装置、电子设备及存储介质
CN113220836A (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
CN116012481B (zh) 图像生成处理方法、装置、电子设备及存储介质
CN104090669A (zh) 输入法编辑方法及装置
CN113935339B (zh) 翻译方法、装置、电子设备及存储介质
CN111984845B (zh) 网站错别字识别方法和系统
US20230103728A1 (en) Method for sample augmentation
CN111126061A (zh) 对联信息生成方法和装置
CN113850080A (zh) 一种押韵词推荐方法、装置、设备及存储介质
CN113360001A (zh) 输入文本的处理方法、装置、电子设备和存储介质
CN104933030A (zh) 一种维吾尔语拼写检查方法及装置
CN113792558B (zh) 基于机器翻译和译后编辑的自学习翻译方法及装置
CN114398952B (zh) 训练文本生成方法、装置、电子设备及存储介质
CN107908792B (zh) 信息推送方法和装置
CN112784599B (zh) 诗句的生成方法、装置、电子设备和存储介质
CN113641724A (zh) 知识标签挖掘方法、装置、电子设备及存储介质
Kaur et al. Toward normalizing Romanized Gurumukhi text from social media

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150909