CN107615268B - 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法 - Google Patents

用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法 Download PDF

Info

Publication number
CN107615268B
CN107615268B CN201680027497.3A CN201680027497A CN107615268B CN 107615268 B CN107615268 B CN 107615268B CN 201680027497 A CN201680027497 A CN 201680027497A CN 107615268 B CN107615268 B CN 107615268B
Authority
CN
China
Prior art keywords
word
words
text
syntactic
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680027497.3A
Other languages
English (en)
Other versions
CN107615268A (zh
Inventor
C·D·尼古拉斯
K·R·布朗菲尔德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asymmetrica Labs Inc
Original Assignee
Asymmetrica Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asymmetrica Labs Inc filed Critical Asymmetrica Labs Inc
Publication of CN107615268A publication Critical patent/CN107615268A/zh
Application granted granted Critical
Publication of CN107615268B publication Critical patent/CN107615268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/163Handling of whitespace
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/114Pagination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

根据词之间的不确定性而对词间隔进行不对称格式化包括初始过滤过程和后续文本格式化过程。含糊度过滤器从语料库或词序列频率数据(输入)生成键和值的映射(输出)。文本格式化过程使用所述值来不对称地调整与键相邻的间隔的宽度。为了分析语料库可以将生成键和值的映射的过滤过程执行一次,并且一旦生成,所述键‑值映射可以被后续文本处理过程使用多次。

Description

用于根据词之间的不确定性而对词间隔进行不对称格式化的 系统和方法
相关申请的交叉参考
本申请要求2015年3月10日提交的美国临时专利申请No.62/131,187“SystemsAnd Methods For Asymmetrical Formatting Of Word Spaces According To TheUncertainty Between Words”的优先权,所述临时专利申请以引用的方式整体并入。
技术领域
本发明涉及根据词之间的不确定性来对文本呈现中的词间间隔的宽度进行不对称格式化以提高阅读体验。
背景
短语格式化是用以提高阅读体验的排印技术,其中经常通过使短语之间的词间隔较大并使短语内的词间隔较小来强调句子中的短语。这种不对称词间隔大小设置在文本中提供视觉线索以辅助读者对含义单位进行分块。已示范了这种技术的手动、半自动和自动使用以提高阅读理解力、速度和乐趣。
短语格式化的一种系统和方法(Bever和Robbart,2006)使用具有三层连接模型的人工神经网络:输入层、“隐藏”层和输出层。这个人工神经网络对文本输入数据进行训练,提取模式,诸如短语停顿的可能性,并且为库中所存储的模型的单位建立权重和连接的文件。人工神经网络使用标点和功能词的库作为开始数据并通过跨越文本输入检查三个词序列的滑动窗口来分析来自剖析器的文本。
在这个训练分析期间,其学习对三个词序列中的第二个词处于句子末尾处的可能性进行分类。如果发现了标点或冠词或功能词,则注意第一个和第三个词并将信息添加至库中的数据模型中。否则,检查所存储的数据模型。接下来,基于对三个词序列检查的结果,神经网络将词是短语的开头或末尾的可能性值指派给词之间的间隔。
一旦对文本的语料库进行了训练,神经网络可以用来格式化文本。在输入将要格式化的文本之后,运行神经网络以确定范围从0-3的“C”值,其中“3”指示短语末尾标点,“2”指示较大短语停顿,“1”指示较小短语停顿,并且“0”被指派给所有其它停顿。一旦已建立这些短语边界,就按反向行序逐行地格式化文本边距。接下来,确定每一行中的可用间隔,接着使用短语边界值和可用间隔指派相对间隔值。
另一系统和方法(Bever等人,2012)计算与词项(词)相邻的额外的词汇信息(诸如标点和间隔)的信息量来调整字符突出。在这个方法中,词开头或末尾处的间隔的信息量与间隔字符的频率相对于非间隔标点字符的频率成正比。Bever等人(2012)还描述了第二种方法,其中使用标点在词汇单元之后的可预测性以及标点在下一词汇单元之前的可预测性来计算标点的信息量。
将需要具有用于对词间间隔的宽度进行不对称格式化而无需以下操作的系统和方法:(1)确定词在短语开头或末尾的可能性,(2)使用人工神经网络,或(3)使用标点来确定短语末尾或计算信息量。
参考文献
Aslin,R.N.,Saffran,J.R.,&Newport,E.L.(1998).Computation ofconditional probability statistics by 8-month-old infants.Psychologicalscience 9(4),321–324Granaas,Michael.Simple,applied text parsing,209-216.Vol.17.Behavior Research Methods,Instruments,and Computers,1985.
Chater,N.(1999).The search for Simplicity:A fundamental cognitiveprinciple?The Quarterly Journal of Experimental Psychology,52A(2),273–302.
Gómez,R.L.,&Gerken,L.A.(2000).Infant artificial language learning andlanguage acquisition.Trends in Cognitive Sciences(4),178–186.PMID:10782103
Granaas,M.M.(1985).Simple,applied text parsing.Behavior ResearchMethods,Instruments,&Computers,17(2),209–216.
Kosko,B.(1990).Fuzziness vs.Probability.International Journal ofGeneral Systems,vol.17,no.1,pp.211–240.
Lin,Y.,Michel,J-B.,Aiden,E.L.,Orwant,J.,Brockmanm W.&Petrov,S..(2012).Syntactic Annotations for the Google Books Ngram Corpus.Proceedings ofthe 50th Annual Meeting of the Association for Computational Linguistics,169–174.
Reeder,P.A.,Newport,E.L.,&Aslin,R.N.(2013).Form shared contexts tosyntactic categories:The role of distributional information in learninglinguistic form-classes.Cognitive Psychology,66,30–54.
Shriberg,E.E.&Stolcke,A.(1996).Word predictability after hesitations:a corpus-based study.in Proceedings of the 4th international conference onspoken language processing.Philadelphia,Pennsylvania,USA,1868–1871.
Thompson,S.P.,&Newport,E.L.(2007).Statistical learning of syntax:Therole of transitional probability.Language Learning and Development,3(1),1–42.
发明概要
根据本发明的一个方面,提供了一种用于确定跨越文本中的词间隔的不确定性的方法,其包括以下步骤:
a)提供文本输入;
b)提供功能词的数据库,所述功能词表示语法或句法关系,其中所述功能词中的每一者具有以下项中的至少一项:词汇身份、词位、词汇类别;
d)检查所述文本输入的多个词;
e)将所述多个词中的每一者识别为所述功能词的数据库中的所述功能词或不在所述功能词的数据库中的内容词中的任一者;
f)为每一独特的伪句法混合生成n字母组频率计数,其中所述独特的伪句法混合中的每一者是n字母组,所述n字母组由两个或两个以上词组成:所述功能词中的一者以及不在所述功能词的数据库中的所述内容词中的一者;
h)对于接下来的多个词重复步骤d-f直到到达末尾文本输入为止;以及
g)使用所述n字母组频率计数来计算所述文本输入内的所述独特的伪句法混合中的每一者的不确定性;
h)根据所述不确定性不对称地格式化所述文本中的所述词间隔的宽度;
其中所述词汇身份是词,所述词位是词可采用的形式的集合,所述词汇类别是所述词的词性,且所述内容词是缺乏句法信息的开放类词。
在一种实现方式中,所述文本输入是含有文本的文档。
在一种实现方式中,所述文本输入是从语料库生成的所述n字母组频率计数。
根据本发明的另一方面,提供了一种用于确定跨越文本中的词间隔的不确定性的系统,其包括:
功能词的数据库,所述功能词表示语法或句法关系,其中所述功能词中的每一者具有以下项中的至少一项:词汇身份、词位、词汇类别;
计数器,其用于为所述文本中的每一独特的伪句法混合生成频率计数,其中所述独特的伪句法混合中的每一者由两个或两个以上词组成,所述两个或两个以上词包括所述功能词以及不在所述功能词的数据库中的内容词中的至少一者;以及
过滤器,其用于使用所述频率计数来计算跨越伪句法混合的词间隔的词汇不确定性;
根据所述不确定性不对称地格式化所述文本输入中的词间间隔的宽度;
其中所述词汇身份是词,所述词位是词可采用的形式的集合,所述词汇类别是所述词的词性,且所述内容词是词项的开放类状态是缺乏句法信息的内容词。
在一种实现方式中,计算所述不确定性导致提供键和值的输入映射,所述键中的每一者指示至少一个伪句法混合,且所述值指示跨越与所述键相邻的所述词间隔的所述不确定性。
根据本发明的另一方面,提供了一种用于格式化文本的方法,其包括:
提供文本输入;
提供键和值的映射输入,所述键各自指示至少一个独特的伪句法混合,且所述值指示跨越与所述键相邻的词间隔的不确定性;以及
检查所述文本输入以在所述映射输入中查找所述键并基于所述检查的结果而格式化所述文本输入的与所述键相邻的所述间隔的宽度,其中所述格式化所述文本输入的与所述键相邻的所述间隔的所述宽度是通过指示跨越与所述键相邻的所述词间隔的所述不确定性的所述值来确定;
其中所述独特的伪句法混合是由两个或两个以上词组成的n字母组,所述两个或两个以上词包括功能词或内容词,所述功能词表示语法或句法关系并存储在功能词的数据库中且所述内容词是不在所述功能词的数据库中的开放类词。
在一种实现方式中,通过改变间隔字符、前一字符或后一字符的以下字符属性中的至少一项来调整所述相邻间隔的所述宽度:字母间距、水平缩放、字距调整、水平偏移、填充、左边距或右边距。
在一种实现方式中,通过在HTML文档内插入HTML标签来调整所述相邻间隔的所述宽度。
在一种实现方式中,通过在XML文档内插入XML标签来调整所述相邻间隔的所述宽度。
在一种实现方式中,通过在XHTML文档内插入XHTML标签来调整所述相邻间隔的所述宽度。
在一种实现方式中,来自所述映射输入的所述值中的一者指示绝对间隔大小。
在一种实现方式中,通过用具有指定宽度的至少一个统一码私人使用区间隔字符替换间隔字符来调整所述相邻间隔的所述宽度,所述指定宽度与来自所述映射输入的所述值相匹配。
在一种实现方式中,来自所述映射输入的所述值中的一者指示相对间隔大小,所述相对间隔大小被转换为将作为所述相邻间隔的所述宽度应用的绝对间隔大小。
在一种实现方式中,维持所述相对间隔大小跨越所述映射输入的所述键和所述值的分布,但动态地调整绝对间隔大小。
在一种实现方式中,使用HTML标签来动态地调整所述绝对间隔大小。
在一种实现方式中,HTML标签指CSS样式表,所述CSS样式表提供通过所述HTML标签应用的对所述绝对间隔大小的所述调整。
在一种实现方式中,通过在间隔字符之前或之后插入一个或多个像素或子像素来调整所述相邻间隔的所述宽度的所述格式化。
在一种实现方式中,通过呈现网络文档的网络浏览器或网络浏览器插件来调整所述相邻间隔的所述宽度的所述格式化。
在一种实现方式中,所述键指示由以下项中的至少一个组成的一个或多个项的列表:词汇身份、词汇类别、词项的开放类状态和所述词项的封闭类状态,其中所述词汇身份是词,词位是词可采用的形式的集合,所述词汇类别是所述词的词性,所述词项的所述开放类状态是缺乏句法信息的内容词且所述词项的所述封闭类状态是不接受新项的一类词。
在一种实现方式中,通过对条件熵的测量来确定跨越所述词间隔的所述不确定性。
根据本发明的另一方面,提供了一种用于格式化文本的计算机程序产品,所述计算机程序产品包括其中存储有计算机可读程序代码部分的非暂时性计算机可读存储介质,所述计算机可读程序代码部分包括:
第一部分,其被配置用来提供文本;
第二部分,其被配置用来提供键和值的映射输入,所述键中的每一者指示至少一个伪句法混合,且所述值中的每一者指示跨越与所述键相邻的词间隔的不确定性;以及
第三可执行部分,其被配置用来检查所述文本输入以在所述映射输入中查找所述键并格式化所述文本输入的词间间隔的宽度,所述格式化是基于所述检查的结果,其中所述词间间隔的所述宽度的所述格式化是通过指示跨越与所述键相邻的词间隔的所述不确定性的所述值来确定;
其中所述伪句法混合是由两个或两个以上词组成的n字母组,所述两个或两个以上词包括功能词或内容词,所述功能词表示语法或句法关系并存储在功能词的数据库中且所述内容词是不在所述功能词的数据库中的开放类词。
根据本发明的另一方面,提供了一种在具有显示器的计算机系统中显示文本的方法,所述方法包括以下步骤:
a)创建文本中的多个词的所有例子的列表,其中所述词之前的字符包括以下项中的至少一个:间隔、所述词的开头、行的开头、段落的开头、文档的开头、制表符、缩进或标点字符;
b)对于来自步骤a的所述列表中的所述多个词中的每一者,在调整分数库中查找所述词(n)和紧跟在所述词(n)之后的后一词(n+1),其中所述词与所述之后的后一词由间隔字符分开;以及
c)如果在所述调整库中找到,则使用在所述调整库中针对所述词和所述后一词的词双字母组找到的调整分数来调整所述间隔字符的宽度;
d)将n设置为n+1;以及
e)针对步骤a中创建的所述列表中的所有项重复步骤b-d。
一个实施方案包括初始过滤过程和后续文本格式化过程。第一个过程的实施方案包括含糊度过滤器以从语料库或词序列频率数据(输入)生成键和值的映射(输出)。第二个过程的实施方案包括文本格式化过程,其用于使用值来不对称地调整与键相邻的间隔的宽度。为了分析语料库只需要将生成键和值的映射的过滤过程执行一次;然而,一旦生成,键-值映射可以被后续文本处理过程使用多次。
在一实施方案中,过滤过程包括语言的统计建模,包括使用知觉广度不对称性、策略上不确定的输入数据和信息论中的原理测量跨越词间隔的不确定性。在一实施方案中,过滤器的输入由派生词诸如词序列频率计数(n字母组)组成。在另一实施方案中,过滤器的输入是生语料库,可以从生语料库生成词序列频率计数(n字母组)。在一实施方案中,过滤过程包括不对称阅读属性,其中间隔之后的词的属性可以取决于间隔之前的词的属性。可以基于(1)已知词和(2)关于之后的词的不完整但仍有用的副中央凹信息的上下文来部分地预测后续词。在一实施方案中,过滤过程包括部分合并词汇频率输入以由关于功能词与内容词转变的策略上不确定的伪句法信息组成。通过使携带句法信息的词项(功能词)保留其身份,同时使缺乏句法信息的词项(内容词)用一个或多个通配符(“·”)替换其身份(与其合并)来实现部分合并。在一实施方案中,过滤过程包括计算跨越词间隔的条件熵-也称作含糊度并写作H(y|x)以量化词之间的信息不对称性。这是在给定第一已知词或通配符(x)的可变性的情况下测量第二未知词或通配符(y)的可变量。在一实施方案中,通配符是词的词性类别。在一实施方案中,通配符是词的开放类状态(即,内容词)。在一实施方案中,过滤器的输出是针对语言中的两个或两个以上词项混合序列的键和值的映射(例如,“[·,of]0.83”、“[of,the]0.09”、“[the,·]-0.17”等)。
在一实施方案中,文本格式化过程使用来自键和值的含糊度过滤器映射的值来不对称地调整与键相邻的间隔的宽度。在一实施方案中,对于每一文本数据块,该过程在数据中扫描以间隔结尾的词记号(“ink”)之前的间隔。一旦发现,将先前剖析的记号和后续当前记号分别标记为记号A和记号B。在一实施方案中,检查每一记号的前导和/或尾随标点以创建核心A和核心B记号,使用部分合并用伪句法通配符来替换核心A和核心B记号。在一实施方案中,将这些伪句法核心记号任选地与尾随标点(如果有的话)连接以生成键A和键B。在其它实施方案中,核心记号用以直接生成键。在另一实施方案中,从与间隔相邻的尾随(键A)和/或前导(键B)标点结合的核心记号生成键。在一实施方案中,该过程使用一个或多个键从含糊度过滤过程的所记录输出中查找调整值。在一个实施方案中,键是从键对(键A、键B)得出的。在替代实施方案中,键由复合的词汇信息段组成,诸如标点、通配符、子类通配符、词性或功能词中的一个或多个。在进一步实施方案中,键由表示为连接的字符串、元组、字典或类似的数据结构的多个键或单个键组成。在一实施方案中,过程对记号A与记号B之间的间隔应用比例调整,其中间隔宽度的比例改变等于调整值。
附图简述
图1是图示根据词之间的不确定性使用来自含糊度过滤器的数据和文本格式化过程来对词间隔进行不对称格式化的实例方法的流程图;
图2是图示利用含糊度过滤过程生成键和值的映射的实例方法的流程图;
图3是示出具有英语的词和标点序列数据(双字母组和单字母组及其相应频率计数)的选定实例的含糊度过滤器的输入的图式;
图4是示出具有西班牙语的词序列数据(双字母组和单字母组及其相应频率计数)的选定实例的含糊度过滤器的输入的图式;
图5是示出具有英语的部分合并为混合的之后的词序列数据(·指示通配符;即,任何内容词)的选定实例的含糊度过滤器的中间步骤的图式;
图6是示出具有西班牙语的部分合并为混合的之后的词序列数据(·指示通配符;即,任何内容词)和功能伪类别(#指示伪通配符;即,任何阿拉伯数字)的选定实例的含糊度过滤器的中间步骤的图式;
图7是示出来自含糊度过滤器的输出的选定英语实例,即键和值的映射的图式,所述值具有值的三个说明性实例:原始含糊度分数、归一化之后的含糊度分数,以及在进行美学缩放(使用缩放范围因子=1)以生成相对调整值之后的归一化的含糊度分数;
图8是示出来自含糊度过滤器的输出的选定西班牙语实例,即键和值的映射的图式,所述值具有值的三个说明性实例:原始含糊度分数、归一化之后的含糊度分数,以及在进行美学缩放(使用缩放范围因子=1)以生成相对调整值之后的归一化的含糊度分数;
图9是图示使用来自含糊度过滤器的键和值的数据映射进行文本格式化过程的实例方法的流程图;
图10是示出在应用文本格式化过程之前的HTML文档的图式;
图11是示出在应用文本格式化过程之后的HTML文档的标题并图示被实现为CSS跨度标签的不对称词间距的图式;
图12是示出在应用文本格式化过程之后的HTML文档的正文并图示被实现为CSS跨度标签的不对称词间距的图式;
图13是示出呈现在应用文本格式化过程之前的英语HTML文档的网络浏览器的图式;
图14是示出呈现在应用文本格式化过程之后的英语HTML文档的网络浏览器的图式;
图15是示出呈现在应用文本格式化过程之后的突出通配符与词“of”之间的扩大的间隔的英语HTML文档的网络浏览器的图式;
图16是示出呈现在应用文本格式化过程之后的突出词“the”与通配符之间的压缩的间隔的英语HTML文档的网络浏览器的图式;
图17是示出呈现在应用文本格式化过程之前的西班牙语HTML文档的网络浏览器的图式;
图18是示出呈现在应用文本格式化过程之后的西班牙语HTML文档的网络浏览器的图式;
图19是示出呈现在应用文本格式化过程之前的德语HTML文档的网络浏览器的图式;
图20是示出呈现在应用文本格式化过程之后的德语HTML文档的网络浏览器的图式;
图21是图示使用来自对标记语言文档(.idml)应用的含糊度过滤器的键和值的数据映射并且在标记语言文档的源是准备打印的桌面出版文档(.indd)的情况下任选地校正段落长度的任何变化的文本格式化过程的实例方法的流程图;
图22示出可以实现系统的实施方案的客户端-服务器系统和网络的框图;
图23示出可以用于系统的实施方案的客户端或计算机的实例的较详细图式;以及
图24示出客户端计算机系统的系统框图。
详细描述
公开了计算机实现的系统和方法,其用于根据词之间的不确定性来对文本呈现中的词间间隔的宽度进行不对称格式化以提高阅读体验。
不对称地调整词间隔宽度首先需要过滤过程分析语言的伪句法结构,并且需要第二文本格式化过程将这个分析的结果应用于含有文本的给定文档。如图1所示,过滤过程使用含糊度过滤器110以从至少一个语料库或词序列频率数据(输入)生成键和值的映射120(输出)。文本格式化过程130使用值来不对称地调整与键相邻的间隔的宽度。文本格式化过程接收输入文档140并应用文本格式化过程130以生成处理过的文档150作为输出。
给定功能词的数据库,过滤过程对封闭类词进行操作,封闭类词主要具有句法角色而不是语义角色。数据库包括来自一个或多个词汇类别的词或词序列:助动词、限定词、连词、介词和代词词类;以及任选地功能词类别,诸如阿拉伯数字、罗马数字或专有名称;或标点字符的任选列表,例如用英语表示:
.?!,;:()等。
过滤过程包括语言的统计建模,包括使用知觉广度不对称性、策略上不确定的输入数据和信息论中的原理测量跨越词间隔的不确定性。
读者获得关于词的有用信息的知觉广度大小受限制并且在长度上不对称:在凝视处之后的大约3-4个字符且在凝视处之前的大约14-15个字符。知觉广度受书写稿的阅读方向影响并且归因于注意力而不是视觉敏锐度因子。阅读本质上是不对称的,因为所凝视的词是已知的,而后续词尚不知道;然而,其可以基于已知词的上下文和关于之后的词的不完整但仍有用的副中央凹信息来部分地预测。
参照图2,图示了利用含糊度过滤过程生成键和值的映射的方法的流程图的实施方案。过滤器的原始输入是派生词(诸如n字母组频率计数220)或可以生成这些的任选语料库210。首先,通过使用部分合并过滤器230将原始词序列频率数据再分类为混合结构而使这个输入在策略上为不确定的。在这个过滤过程中,携带句法信息的词项(封闭类或功能词)保留其身份;然而缺乏句法信息的词项(开放类或内容词)用一个或多个通配符(“·”)替换其身份(与其合并),一个或多个通配符是一类词项。这些部分合并混合含有关于功能词与内容词之间的(或封闭类与开放类词之间的)转变的伪句法信息。至关重要的是,这个混合步骤需要在一个以上抽象层级下进行特征分析,将一些词看作其词汇身份并将一些词看作类别。部分合并的一个实例,将词am、are、is、was、were等看作含有所有屈折词形式的词位(词根)“to be”。在另一实例中,将来自多个词位(诸如to be、to do和to have)的词(诸如is、are、did、has等)看作词汇类别(词类,或词性)“助动词”。在另一实例中,可以将名词(诸如time)、一些动词(诸如said)、形容词(诸如new)和副词(诸如recently)看作类别“内容词”。接下来,根据这些混合,生成独特项和项序列的频率计数240并且使用频率计数来计算含糊度值250。最后,在作为键和值的映射120输出之前,将含糊度值归一化260,将其缩放至所要相对调整值270,并且任选地缩放至绝对调整值280。
根据信息论的原理,熵是对预测随机变量时的不确定量的测量。更具体地说,跨越词间隔的条件熵-也称作含糊度并写作H(y|x)是用于量化词之间的信息不对称性的方法。它在给定第一已知词(x)的可变性的情况下测量第二未知词(y)的可变量。含糊度是在知道间隔之前的词的情况下对间隔之后的词的不确定程度的有效的不对称测量。含糊度反映事件发生的程度,测量事件模糊度。它是使已知事件(x)的观察值与第二事件(y)和第一事件(x)的交集(x,y)的观察值相关的测量。至关重要的是,在部分合并230之后,事件x和y可以为不同类型(例如,词汇身份:x=the,以及一个或多个类别:例如,y=内容词)或为相同类型(例如,x=of,y=the;或x=代词,y=助动词)。
存在功能上等效于含糊度(条件熵)的其它条件概率统计(例如,转移概率、互信息、相关性)。这些用个别事件的总频率来归一化共现频率。这些条件概率统计中的任一者,包括向后转移概率(给定Y的情况下X的概率)提供转移时的分段信息。
使用部分合并混合来测量不确定性允许该方法稳健地处置模型不熟悉的新颖内容词。使用部分合并混合还允许含糊度对词之间的语义和句法重叠程度以及那些词实际上在语言中的使用程度进行测量。这个语义和句法重叠程度是对词之间的伪句法距离的连续测量。它是对语义(实义)词和句法(功能)词在语言中如何彼此转变的简单的一维测量。
含糊度过滤过程
根据一个实施方案,对于语料库中的每个文档:首先,如图3针对英语和图4针对西班牙语所示,将文档分成以间隔分隔的记号或n字母组220的列表;第二,如图5针对英语和图6针对西班牙语所示,遍历这个记号列表以对伪句法混合230的单字母组和双字母组频率计数240;以及第三,如图7针对英语和图8针对西班牙语所示,单字母组和双字母组频率计数用以针对每个文档计算和输出每个混合的含糊度(条件熵)分数250。在一实施方案中,过滤后的伪句法混合的含糊度分数可以直接用作键-值映射120中的值250。在其它实施方案中,可以将含糊度分数归一化260并将其缩放至所要美学范围并且接着用作值270。在一实施方案中,过滤器110的输出是针对语言中的两个或两个以上词项混合序列的键和值的映射120(例如,“[·,of]0.83”、“[of,the]0.09”、“[the,·]-0.17”等),即键510和值520的列表。
在部分合并230和部分合并混合的频率计数240的实施方案中,在遍历记号列表期间,在列表中给定位置n处创建两个记号的窗口并将记号A设置为位置n-1而将记号B设置为位置n。接下来,将记号A中的任何前导和尾随标点与核心A记号分开。如果核心A是呈阿拉伯数字或罗马数字的形式,则用伪通配符记号将其替换。否则,如果核心A不在功能词的数据库中,则用通配符记号替换核心A。创建查找键“键A”,它是串联起来(按顺序)的:标记A的任何前导标点、核心A和标记A的任何尾随标点。接着使键A的单字母组计数器递增。
接下来,将记号B中的任何前导和尾随标点与核心B记号分开。如果核心B是呈阿拉伯数字或罗马数字的形式,则用伪通配符记号将其替换。否则,如果核心B不在功能词的数据库中,则用通配符记号替换核心B。创建查找键“键B”,它是串联起来(按顺序)的:标记B的任何前导标点、核心B和标记B的任何尾随标点。接着使(键A,键B)的双字母组计数器递增。
一旦对文档的遍历完成,伪句法混合的单字母组和双字母组频率计数用以计算含糊度分数。在一实施方案中,对于每个所记录的双字母组(键A,键B)且在给定键A的所记录的单字母组频率、所记录的双字母组(键A,键B)频率以及总的(总和)单字母组和双字母组频率的情况下,则使用以下计算含糊度(条件熵)分数250:
H(y|x)=p(x,y)×Log(p(x)/p(x,y)),其中:
p(x,y)=双字母组_频率((键A,键B))/sum(双字母组_频率(全部))
p(x)=单字母组_频率(键A)/sum(单字母组_频率(全部))
在优选实施方案中,对于每个文档,将含糊度分数归一化260(例如,被转换为标准分数)且接着跨语料库对每个文档的这些归一化值求平均值(即,相加并除以文档数目)。在替代实施方案中,在计算(和归一化)含糊度分数时,将多文档语料库看作一个单一的大文档。在一实施方案中,使用标准分数(z分数)来归一化含糊度分数260,标准分数(z分数)使用以下公式进行计算:
z分数(h)=(h–Mean(h))/Std Dev(h)
其中h是每个所记录的含糊度分数H(y|x)。在进一步实施方案中,将归一化的含糊度分数缩放至所要美学范围(即,使词间隔宽度增大和减小的最大范围)。例如,归一化的含糊度分数的美学缩放270使用以下变换:
相对调整值=z×r/(Max(z)–Min(z))
其中r是描述调整值可以变化的范围(上界和下界)的缩放因子(例如,r=1)且z是归一化的含糊度分数。
在一实施方案中,相对调整270直接用作值,或(任选地)如果需要绝对缩放调整,则其可以被转换为绝对百分值280:
绝对调整值=相对调整值×100+100
在一实施方案中,将每一双字母组和其相对或绝对调整值的这个映射作为键510和值520输出。在一实施方案中,已将值520归一化并缩放至所要美学变化270。这些调整值270指定可变间隔宽度,包括增大的宽度550、减小的宽度555或保留原始宽度的例外。在替代实施方案中,含糊度(条件熵)分数250或归一化后的分数260用作来自映射输入的值并且在文本格式化过程130期间执行归一化和/或美学缩放。在这个实施方案中,美学缩放可以使用预定默认值,或由用户在文本格式化之时确定。当应用这些值以调整文本中用键指示的词间隔之间的格式130时,在知道第一个词的情况下根据第二个词的句法/非句法不确定性格式化文本的排印结构。
分布方法
以下是应用过滤过程的输出以不对称地调整文档中的间隔宽度的非限制性实例。在这个实例中,文档是HTML文档,但相同的原理可以适合应用于含有文本的其它类型的文档。参照图9,图示了使用来自含糊度过滤器120的键和值的数据映射进行文本格式化过程130的方法的流程图的实施方案。
文本处理
参照图9,对于文本140的每个块,在块610中反复扫描以间隔结尾的词记号(“ink”)之前的间隔。将先前剖析的记号(或如果在数据块开头,则为第一记号)和当前剖析的记号分别指定为记号A和记号B640。对于每个记号(A和B),将任何前导和尾随标点(每个记号的左边标点和右边标点)(如果存在的话)与核心记号分开。
在一实施方案中,如果核心A或核心B记号是阿拉伯数字或罗马数字,则用对应的伪通配符替换核心A和核心B;否则,创建键“键A”和“键B”,其各自为串联起来(按顺序)的:分别为标记A或标记B的任何前导标点;分别为核心A或核心B;以及分别为标记A或标记B的任何尾随标点650。
在一实施方案中,键A变成仅核心A的任何尾随标点,否则键A变成核心A。在一实施方案中,键含有油墨串,包括词,之后的或之前的任选标点。在第二实施方案中,键A仅含有油墨串的词和最终标点且键B仅含有油墨串的词和初始标点。在第三实施方案中,键仅含有词(核心A或核心B)。
接下来,使用键(键A,键B)查找记录为含糊度过滤器的输出的调整值660。
这个调整值可以用来(直接地或经过修改)告知在目的介质(例如,HTML、IDML、PDF等)内应用的间隔调整670。
这个过程跨任何剩余记号630和数据块620而反复。一旦已经处理所有记号和数据块,将文档作为处理过的文档150发布。
HTML处理
对于含有文本的给定HTML,文本格式化过程涉及剖析HTML以隔离用户可视内容(“数据”)与其标记,包括文本元素与文档的其它部分(如果存在的话)的层次关系,或文本元素应该显示的方式。接着如“文本处理”中一样处理可显示的文本的每一部分。
在一实施方案中,对于含有文本的给定文档和HTML,诸如图10中的140,文本格式化过程涉及剖析HTML以隔离用户可视内容(“数据”)160与其标记,包括文本元素与文档的其它部分(如果存在的话)的层次关系,或文本元素应该显示的方式。
图10图示了用于图9所示的“文本处理”130的一般方法但应用于HTML的实例输入文件140。图11和12分别图示了在作为处理过的文档150发布之后的HTML的标题和正文的实例。图13和14分别图示了在将间距调整应用于用英语表示的用户可视内容之前和之后的用户可视内容的浏览器呈现。图15图示了在已经利用不对称间距的实例应用间距调整之后的用户可视内容的浏览器呈现,不对称间距被应用以根据调整值扩大550键指示的间隔。图16图示了在已经利用不对称间距的实例应用间距调整之后的用户可视内容的浏览器呈现,不对称间距被应用以根据调整值压缩555键指示的间隔。在图10-16中,实例中的文本是英语。
图17和18分别图示了在将间距调整应用于用西班牙语表示的用户可视内容之前和之后的用户可视内容的浏览器呈现。图19和20分别图示了在将间距调整应用于用德语表示的用户可视内容之前和之后的用户可视内容的浏览器呈现。
在一实施方案中,给定词间隔分开的键和对应的调整值,间隔的调整后的大小以em为单位。em是排印领域的单位,等于当前指定的点大小。因此,16点字体中的一em是16点。因此,这个单位对于给定点大小的所有字体都相同。可以使用默认大小(例如,0.25em)乘以调整值来计算调整后的大小。例如,调整值0.10(+10%)和默认间隔大小0.25em将得出大小调整至0.275em的间隔。在进一步实施方案中,过程检查其是否已应用0.275em的调整。如果没有,则为指定新的间隔宽度的新的独特的跨度类创建CSS规范,并且接着将新的跨度类发布为样式表,例如“调整1”。使用上文定义的类用跨度规范来包围键A与键B之间的间隔。例如:
<span class=“调整1”></span>
如果过程已经应用了给定大小的调整,则查找先前定义的跨度类(例如,“调整1”)。使用先前定义的类用跨度规范来包围键A与键B之间的间隔,例如:
<span class=“调整1”></span>
在优选实施方案中,被调整以实现词间隔的外观大小的参数是字母间距。在其它实施方案中,调整其它参数,包括水平缩放、字距调整、水平偏移、填充、左边距或右边距中的一个或多个。
在另一实施方案中,先前提到的调整可以应用于具有所生成的输入的所生成的JavaScript或固定JavaScript中的<SPAN>标签,<SPAN>标签在呈现时间将调整应用于文档对象模型内的具有相应id或类识别符的SPAN。在另一实施方案中,可以通过插入静态间距结构(例如,<IMG>和<SPACER>HTML实体)来实现调整,静态间距结构可以放置为嵌入文本中以便扩大或替换一个或多个间隔。
任意文件格式处理
在一实施方案中,用类似于“文本处理”中所描述的方法处理含有文本的任何任意文件格式,包括标记语言(例如,XML、HTML、XHTML或IDML)。提取文本段并如“文本处理”中一样处理。使用原生标记语言规范调整文档内的间距并创建处理过的文档(或指定的子集)作为输出。参照图21,图示了应用于InDesign标记语言(.idml)文件的文本格式化过程130的方法的流程图的实施方案。InDesign文档(,indd)1140测量并记录文本1145的每个块的初始段落长度且接着导出为.idml文件,一种类型的XML 140。处理130这个输入文件并将输出文件150转换为处理过的.indd文档1150,处理过的.indd文档1150用以重新测量当前段落长度1155。如果所有段落的当前长度与初始长度大致相同1160,则处理完成并且可以导出文档1170(为PDF文件)。如果不是,则可以动态地重新调整间距1180直到实现长度相等为止。
经由服务器的文本
在一实施方案中,将具有任选字体规范的文本段提交至服务器(本地的或远程的),服务器将“文本处理”中所描述的方法应用于文本。所提交的数据的格式可以是文本,或压缩为JSON、BSON、HTML、XHTML、XML,或其它压缩方法。通过用<ASYM=N>替换间隔来传回间隔调整,其中N是“文本处理”中的计算出的调整。在另一实施方案中,传回调整值的数据库。每个数据库条目对应于源文本内的一个或多个间隔。在另一实施方案中,“文本处理”的逻辑嵌入于浏览器、浏览器扩展程序或应用程序插件(例如,NSAPI)中。将文本提交给这个嵌入的程序而不是发送给本地或远程服务器。
经由服务器的HTML
“HTML处理”的方法,其中将具有任选字体规范的HTML提交至服务器(本地的或远程的),服务器将“HTML处理”应用于文本。所提交的数据的格式可以压缩为JSON、BSON、XHTML、XML,或其它数据格式。在一个实施方案中,传回HTML,其中<STYLE>CSS样式表自动插入至HTML中。在另一实施方案中,将样式表作为数据的单独项传回。在另一实施方案中,将“HTML处理”的逻辑嵌入于浏览器、浏览器扩展程序或应用程序插件(例如,NSAPI)中。将HTML提交给这个嵌入的处理器而不是发送给本地或远程服务器。
扩展程序
在一实施方案中,经由浏览器插件或扩展程序剖析和调整文本,浏览器插件或扩展程序实现对浏览器的文档对象模型(DOM)进行操作的程序。扩展程序剖析所呈现网页的DOM,从而提取向用户显示或可以向用户显示的文本。接着按照“经由服务器的文本”提交文本块和任选的每一块的字体规范。
DOM处理
在一个实施方案中,将传回的间隔调整值转换为大小由间隔调整告知的新的DOM元素,所述DOM元素替换间隔。在另一实施方案中,用额外的DOM元素增大间隔以如“HTML处理”中一样调整间距。
HTML到文本处理
在另一实施方案中,从DOM提取网页的HTML,如“经由服务器的HTML”中一样将其导出,并重新导入至网页中,接着刷新网页来更新内容。在另一实施方案中,从DOM提取网页的HTML,如“经由服务器的HTML”中一样将其导出。接着将响应分成纯文本部分并直接应用于DOM元素的内容。
在另一实施方案中,从DOM剖析具有任选字体规范的可显示文本段,并且如“经由服务器的文本”中一样提交。接着如“DOM处理”中一样将传回的间距调整应用于DOM。
在另一实施方案中,从DOM剖析具有任选字体规范的可显示文本段,并且如“经由服务器的文本”中一样提交。接着如“HTML至文本处理”中一样将传回的HTML应用于DOM,例如经由DOM元素.innerHTML。
在另一实施方案中,将网页上的可显示的文本段分解成独特的词对。接着如“经由服务器的文本”中一样将这些词对作为一个或多个文本块提交。将传回的调整存储在数据库中。针对词对重新剖析网页上的可显示的文本段,并且应用存储在数据库中的针对该词对的任何调整。在另一实施方案中,在可显示的文本中搜索数据库中的每一词对,并且应用间距调整。在另一实施方案中,如上文提交来自任何源的文本块,从而生成间距调整。
在另一实施方案中,网络浏览器NSAPI(或其它原生)插件用以在浏览器<EMBED>标签中呈现网页,应用如从“经由服务器的文本”或“经由服务器的HTML”传回的间距并显示网页的文本。
应用程序
在一个实施方案中,计算机应用程序(或计算机应用程序插件、扩展程序等)从先前描述的方法中的一个或多个接受输出,并且创建新文档,新文档具有处理过的文本和使用对于给定格式为原生的格式化机制调整的间隔。实例文件格式包括但不限于PDF、HTML、ePUB、IDML、INDD、DOC和DOCX。在另一实施方案中,这个新文档任选地呈现在存储器中并且向用户显示以供阅读。这种类型的应用程序包括网络浏览器、文本编辑器、文字处理器、桌面出版应用程序和电子书阅读器。
定义:
“跨越词间隔的不确定性”是在给定第一已知词(间隔之前)的情况下对第二未知词(间隔之后)的可变性的测量。
“用于计算词汇不确定性的过滤器”是一过程,其中具有句法信息的词项(封闭类或功能词)保留其身份;然而,缺乏句法信息的词项(开放类或内容词)用一个或多个通配符(“·”)替换其身份(与其合并)。
“通配符”是具有作为群组计数的多个词项的类别,例如词汇类别(助动词、代词、数字等),或内容词。
“功能词”是几乎没有词汇含义且表示与句子中其它词的语法或句法关系,或指定发言人的态度或语气的词。功能词通常缺乏含义。
“内容词”是指某一物体、动作或特性的词,诸如名词、大多数(但不是所有)动词、形容词和副词。内容词通常含义丰富(语义的)。
“N字母组频率计数”是事件在给定文本序列中的连续n项序列中发生的次数。n字母组的实例是1项(单字母组)、2项(双字母组)、3项(三字母组)等。
“伪句法混合”是部分合并混合,其含有关于功能词与实义词转变以及任选地功能词与另一功能词之间的伪句法信息。部分合并指一些词类中的词合并(组合为一类别)。一些词可以看作本身(保留其词汇身份)且不组合为一类别。其它词可以看作一类别。例如,可以将am、are、is、was、were等看作词位(含有所有屈折词形式的词根“to be”)。在另一实例中,可以将词汇类别(包括多个词位诸如to be、to do和to have的“助动词”)或例如名词(诸如time)、一些动词(诸如said)、形容词(诸如new)和副词(诸如recently)看作类别“内容词”。
“词位”是词汇含义单位,其存在而与其可能具有的屈折词尾或其可含有的词的数目无关。词位是大致对应于单个词采用的形式的集合的类别。
“词项”是形成语言词典的基本元素(词汇)的单个词、词的一部分或一连串词。
“词汇身份”是词本身。
“词汇类别”是词类(有时称作词汇种类或词性)。一般词汇类别的实例包括名词、动词、形容词、副词、代词、介词、连词、数字、冠词和限定词。
“封闭类”是不接受或只很少接受新项的词类。封闭类类别的实例包括连词、限定词、代词和介词。一般来说,封闭类描述是句法类别,其含有主要是语法的、具有功能角色并且缺乏含义的词。
“开放类”是含有大量词并且接受新词的添加的词类。实例包括名词、动词、形容词、副词和感叹词。一般来说,开放类是词汇类别,其含有主要是语义的、具有内容并且含义丰富的词。
“语料库”是书面文本的集合。
“键和值”是键-值存储(也称作键-值数据库、关联数组、字典或哈希表)的元素。键中的每一者是参考相关联的值并对相关联的值提供存取的唯一识别符。值表示数据,其可以是简单的数据点或复杂的数据类型,如记录、数组或字典。
“键和值的映射输入”是键及其值的离散集合。
“HTML文档”是含有零个或更多由HTML标准定义的句法元素的文本或数据块。这些文档通常旨在在网络浏览器内查看。
“HTML标签”是定义HTML文档的内容和格式的代码。HTML标签包含在'<'and'>'字符内。可以通过插入HTML标签来调整HTML文档内的相邻间隔的宽度。
“XML文档”是含有零个或更多由XML标准定义的句法元素的文本或数据块。这些文档通常旨在在网络浏览器内查看。可以用指定间隔的宽度的XML标签来标记XML文档内的相邻间隔的宽度。
“XML标签”是定义HTML文档的内容和格式的代码。XML标签包含在'<'and'>'字符内。
“XHTML文档”是含有零个或更多由XHTML标准定义的句法元素的文本或数据块。这些文档通常旨在在网络浏览器内查看。可以通过插入XHTML标签来调整XHTML文档内的相邻间隔的宽度。
“XHTML标签”是定义XHTML文档的内容和格式的代码。XHTML标签包含在'<'and'>'字符内。
“绝对间隔大小”是对给定空格区域的离散大小测量。实例绝对间隔大小是0.25。
“相对间隔大小”是与现有绝对间隔大小成比例的正调整或负调整。实例相对间隔大小将为+0.1或–0.2,其将分别将间隔大小从初始大小增大10%或减小20%。
“行间文本密度”是油墨在行间的紧凑或松散程度。例如,文本的每一行的平均字符或词量。
“间隔字符”是用于文本的数字表示以大体上分隔词并且引入空格的标准间隔字符。间隔字符通常在ASCII表中被识别为32,但也可以表示为ASCII码160或HTML实体&nbsp;(非中断间隔),或如统一码标准中定义的任何间隔字符(包括U+0020、U+00A0、U+1680、U+180E、U+2000到U+200B(包括在内)、U+202F、U+205F、U+3000、U+FEFF)。
“统一码私人使用区间隔字符”是由统一码标准定义的在U+E000到E+F8FF(包括在内)的范围内的字符。这个范围中的字符的视觉表示可以修改以适合任何目的,包括使用字体来表示不同大小的空格。
“CSS”样式表是利用CSS语言的元素来确定视觉元素应该在文本页面或其它内容上呈现的样子的代码块。可以通过使用HTML或XHTML标签来调整HTML或XHTML文档内的相邻间隔的宽度,HTML或XHTML标签参考CSS样式表中的一个或多个样式。
一般考虑
图22是分布式计算机网络100的简化框图。计算机网络100包括经由多个通信链路128耦合至通信网络124的若干客户端系统113、116和119以及服务器系统122。系统中可以存在任何数目的客户端和服务器。通信网络124提供机制以允许分布式网络100的各组件彼此通信并交换信息。
通信网络124本身可以由许多互连的计算机系统和通信链路组成。通信链路128可以是硬连线链路、光链路、卫星或其它无线通信链路、波传播链路,或用于信息的通信的任何其它机制。各种通信协议可以用于便于图22所示的各种系统之间的通信。这些通信协议可以包括TCP/IP、HTTP协议、无线应用协议(WAP)、供应商特定协议、定制协议和其它协议。尽管在一个实施方案中,通信网络124是因特网,但在其它实施方案中,通信网络124可以是任何合适的通信网络,包括局域网(LAN)、广域网(WAN)、无线网络、内联网、专用网络、公共网络、交换网络以及这些网络的组合,和类似网络。
图22中的分布式计算机网络100仅仅说明实施方案并且无意限制如权利要求书中所述的本发明的范围。本领域技术人员将认识到其它变化、修改和替代方案。举例来说,一个以上服务器系统122可以连接至通信网络124。作为另一实例,若干客户端系统113、116和119可以经由接入提供商(未示出)或经由某一其它服务器系统耦合至通信网络124。
客户端系统113、116和119通常向提供信息的服务器系统请求信息。出于这个理由,服务器系统通常具有比客户端系统更大的计算和存储容量。然而,特定计算机系统可以充当客户端或服务器,这取决于计算机系统是请求还是提供信息。另外,尽管已使用客户端-服务器环境描述了系统的方面,但应显而易见的是,系统也可以在独立的计算机系统中实施。系统的方面可以使用客户端-服务器环境或云计算环境实施。
服务器122负责从客户端系统113、116和119接收信息请求,执行满足请求所需的处理,并将对应于请求的结果转发回请求的客户端系统。满足请求所需的处理可以由服务器系统122执行或可以替代地委托给连接至通信网络124的其它服务器。
客户端系统113、116和119使用户能够访问和查询由服务器系统122存储的信息。在特定实施方案中,在客户端系统上执行的“网络浏览器”应用程序使用户能够选择、访问、检索或查询服务器系统122存储的信息。网络浏览器的实例包括Microsoft公司提供的Internet Explorer浏览器程序、Google提供的Google Chrome、Apple Inc.提供的Safari和Mozilla Foundation提供的火狐浏览器,以及其它浏览器。
图23示出示例性客户端或服务器系统。在一实施方案中,用户通过计算机工作站系统与系统介接,如图23所示。图23示出计算机系统201,其包括监视器203、屏幕205、机箱207、键盘209和鼠标211。鼠标211可以具有一个或多个按钮,诸如鼠标按钮213。机箱207容纳熟悉的计算机组件,其中一些未示出,诸如处理器、存储器、大容量存储装置217等。
大容量存储装置217可以包括大容量磁盘驱动器、软盘、磁盘、光盘、磁光盘、固定磁盘、硬盘、CD-ROM、可录CD、DVD、可录DVD(例如,DVD-R、DVD+R、DVD-RW、DVD+RW、HD-DVD或蓝光光盘)、快闪和其它非易失性固态存储器(例如,USB闪存驱动器)、电池后备易失性存储器、磁带存储器、阅读器和其它类似介质,以及这些的组合。
系统的计算机实现的或计算机可执行的版本可以使用计算机可读介质或非暂时性计算机可读介质实施、存储在计算机可读介质或非暂时性计算机可读介质上或与其相关联。计算机可读介质可以包括参与向一个或多个处理器提供指令以供执行的任何介质。这个介质可以采用许多形式,包括但不限于非易失性和易失性介质。非易失性介质包括(例如)快闪存储器,或光盘或磁盘。易失性介质包括静态或动态存储器,诸如高速缓冲存储器或RAM。
例如,本系统的软件的二进制机器可执行版本可以存储或驻留在RAM或高速缓冲存储器中,或大容量存储装置217上。软件的源代码也可以存储或驻留在大容量存储装置217(例如,硬盘、磁盘、磁带或CD-ROM)上。作为进一步实例,代码可以经由线或通过网络(诸如英特网)传输。
图24示出计算机系统201的系统框图。如图23中一样,计算机系统201包括监视器203、键盘209和大容量存储装置217。计算机系统201进一步包括子系统,诸如中央处理器302、系统存储器304、输入/输出(I/O)控制器306、显示适配器308、串行或通用串行总线(USB)端口312、网络接口318和扬声器320。在一实施方案中,计算机系统包括额外的或更少子系统。例如,计算机系统可以包括一个以上处理器302(即,多处理器系统)或系统可以包括高速缓冲存储器。
诸如322的箭头表示计算机系统201的系统总线架构。然而,这些箭头说明用以链接子系统的任何互连方案。例如,扬声器320可以通过端口连接至其它子系统或在内部直接连接至中央处理器302。处理器可以包括可以准许并行地处理信息的多个处理器或多核处理器。图23所示的计算机系统201仅仅是合适的计算机系统的实例。适合使用的子系统的其它配置对于本领域技术人员来说将易于显而易见。
计算机软件产品可以用各种合适的编程语言中的任一者编写,诸如C、C++、C#、Pascal、Fortran、Perl、Matlab(来自MathWorks)、SAS、SPSS、JavaScript、AJAX、Java、SQL和XQuery(一种查询语言,被设计用来处理来自XML文件或可以看作XML、HTML或两者的任何数据源的数据)。计算机软件产品可以是具有数据输入和数据显示模块的独立应用程序。或者,计算机软件产品可以是可以实例化为分布式对象的类。计算机软件产品也可以是组件软件,诸如Java Beans(来自Oracle公司)或企业Java Beans(来自Oracle公司的EJB)。在特定实施方案中,本系统提供一种计算机程序产品,其存储诸如计算机代码的指令以对计算机编程以执行所描述的过程或技术中的任一者。
用于系统的操作系统可以是以下中的一者:Microsoft
Figure GDA0002889879730000291
系列操作系统(例如,Windows NT、Windows 2000、Windows XP、Windows XP x64版本、Windows Vista、Windows 7、Windows CE、Windows Mobile、Windows 8)、Linux、HP-UX、TRU64、UNIX、Sun OS、Solaris SPARC和x64、Mac OS X、Alpha OS、AIX、IRIX32或IRIX64。也可以或替代地使用其它操作系统。Microsoft Windows是Microsoft公司的商标。
此外,计算机可以连接至网络并且可以使用这个网络与其它计算机介接。网络可以是内联网、因特网或互联网以及其它网络。网络可以是有线网络(例如,使用铜)、电话网络、分组网络、光网络(例如,使用光纤),或无线网络,或这些的任何组合。例如,数据和其它信息可以使用无线网络使用诸如Wi-Fi的协议(IEEE标准802.11、802.11a、802.11b、802.11e、802.11g、802.11i和802.11n,仅举几个例子)在计算机与系统组件(或步骤)之间传递。例如,来自计算机的信号可以至少部分无线地传送至组件或其它计算机。
在一实施方案中,在网络浏览器在计算机工作站系统上执行的情况下,用户通过诸如因特网的网络访问万维网(WWW)上的系统。网络浏览器用以下载各种格式的网页或其它内容,包括HTML、XML、文本、PDF和附录,并且可以用来将信息上传至系统的其它部分。网络浏览器可以使用统一资源识别符(URL)来识别网络上的资源并在网络上传送文件时使用超文本传送协议(HTTP)。
本文中阐述了许多特定细节以提供对要求保护的主题的全面理解。然而,本领域技术人员将理解,可以在没有这些特定细节的情况下实践要求保护的主题。在其它例子中,没有详细描述本领域技术人员将已知的方法、设备或系统以免混淆要求保护的主题。
除非另外特定陈述,否则应了解,在这个说明书中,使用诸如“处理”、“计算(computing)”、“计算(calculating)”、“确定”和“识别”等术语的论述是指计算装置(诸如一个或多个计算机或类似的电子计算装置)操纵或变换数据的动作或处理,所述数据表示为计算平台的存储器、寄存器或其它信息存储装置、传输装置或显示装置内的物理电子或磁性量。
本文中论述的系统不限于任何特定硬件架构或配置。计算装置可以包括提供以一个或多个输入为条件的结果的组件的任何合适的布置。合适的计算装置包括访问所存储软件的基于多用途微处理器的计算机系统,所述软件对计算系统进行编程或配置,从实现本主题的一个或多个实施方案的通用计算设备到专用计算设备。任何合适的编程、脚本或其它类型的语言或语言组合可以用来在用于对计算装置进行编程或配置的软件中实现本文中含有的教导。
可以在这些计算装置的操作中执行本文中公开的方法的实施方案。以上实例中呈现的块顺序可以改变-例如,块可以重新排序、组合和/或分解为子块。某些块或过程可以并行地执行。
本文中使用“适合于”或“被配置用来”意味开放性和包括性语言,其并不将适合于或被配置用来执行额外任务或步骤的装置排除在外。另外,使用“基于”意味开放性和包括性的,因为“基于”一个或多个所述条件或值的过程、步骤、计算或其它动作实际上可以基于超出所述的额外条件或值。本文中包括的标题、列表和数字仅仅是为了易于解释,而不意味着限制。
尽管已关于本主题的特定实施方案详细描述了本主题,但应了解,本领域技术人员在获得对以上内容的理解后可以易于产生这些实施方案的替代方案、变化形式和等效形式。因此,应理解,已呈现本公开以用于实例目的而不是限制目的,并且不排除包括对本主题的这些修改、变化和/或添加,如对本领域技术人员来说将易于显而易见。

Claims (22)

1.一种用于确定跨越文本中的词间隔的不确定性的方法,其包括以下步骤:
a)提供文本输入;
b)提供功能词的数据库,所述功能词表示语法或句法关系,其中所述功能词中的每一者具有以下项中的至少一项:词汇身份、词位、词汇类别;
d)检查所述文本输入的多个词;
e)将所述多个词中的每一者识别为所述功能词的数据库中的所述功能词或不在所述功能词的数据库中的内容词中的任一者;
f)为每一独特的伪句法混合生成n字母组频率计数,其中所述独特的伪句法混合中的每一者是n字母组,所述n字母组由两个或两个以上词组成:所述功能词中的一者以及不在所述功能词的数据库中的所述内容词中的一者;
h)对于接下来的多个词重复步骤d-f直到到达末尾文本输入为止;以及
g)使用所述n字母组频率计数来计算所述文本输入内的所述独特的伪句法混合中的每一者的不确定性;
h)根据所述不确定性不对称地格式化所述文本中的所述词间隔的宽度;
其中所述词汇身份是词,所述词位是词可采用的形式的集合,所述词汇类别是所述词的词性,且所述内容词是缺乏句法信息的开放类词。
2.如权利要求1所述的方法,其中所述文本输入是含有文本的文档。
3.如权利要求1所述的方法,其中所述文本输入是从语料库生成的所述n字母组频率计数。
4.一种用于确定跨越文本中的词间隔的不确定性的系统,其包括:
功能词的数据库,所述功能词表示语法或句法关系,其中所述功能词中的每一者具有以下项中的至少一项:词汇身份、词位、词汇类别;
计数器,其用于为所述文本中的每一独特的伪句法混合生成频率计数,其中所述独特的伪句法混合中的每一者由两个或两个以上词组成,所述两个或两个以上词包括所述功能词以及不在所述功能词的数据库中的内容词中的至少一者;以及
过滤器,其用于使用所述频率计数来计算跨越伪句法混合的词间隔的词汇不确定性;
根据所述不确定性不对称地格式化所述文本输入中的词间间隔的宽度;
其中所述词汇身份是词,所述词位是词可采用的形式的集合,所述词汇类别是所述词的词性,且所述内容词是词项的开放类状态是缺乏句法信息的内容词。
5.如权利要求4所述的系统,其中计算所述不确定性导致提供键和值的输入映射,所述键中的每一者指示至少一个伪句法混合,且所述值指示跨越与所述键相邻的所述词间隔的所述不确定性。
6.一种用于格式化文本的方法,其包括:
提供文本输入;
提供键和值的映射输入,所述键各自指示至少一个独特的伪句法混合,且所述值指示跨越与所述键相邻的词间隔的不确定性;以及
检查所述文本输入以在所述映射输入中查找所述键并基于所述检查的结果而格式化所述文本输入的与所述键相邻的所述间隔的宽度,其中所述格式化所述文本输入的与所述键相邻的所述间隔的所述宽度是通过指示跨越与所述键相邻的所述词间隔的所述不确定性的所述值来确定;
其中所述独特的伪句法混合是由两个或两个以上词组成的n字母组,所述两个或两个以上词包括功能词或内容词,所述功能词表示语法或句法关系并存储在功能词的数据库中且所述内容词是不在所述功能词的数据库中的开放类词。
7.如权利要求6所述的方法,其中通过改变间隔字符、前一字符或后一字符的以下字符属性中的至少一项来调整所述相邻间隔的所述宽度:字母间距、水平缩放、字距调整、水平偏移、填充、左边距或右边距。
8.如权利要求6所述的方法,其中通过在HTML文档内插入HTML标签来调整所述相邻间隔的所述宽度。
9.如权利要求6所述的方法,其中通过在XML文档内插入XML标签来调整所述相邻间隔的所述宽度。
10.如权利要求6所述的方法,其中通过在XHTML文档内插入XHTML标签来调整所述相邻间隔的所述宽度。
11.如权利要求6所述的方法,其中来自所述映射输入的所述值中的一者指示绝对间隔大小。
12.如权利要求6所述的方法,其中通过用具有指定宽度的至少一个统一码私人使用区间隔字符替换间隔字符来调整所述相邻间隔的所述宽度,所述指定宽度与来自所述映射输入的所述值相匹配。
13.如权利要求6所述的方法,其中来自所述映射输入的所述值中的一者指示相对间隔大小,所述相对间隔大小被转换为将作为所述相邻间隔的所述宽度应用的绝对间隔大小。
14.如权利要求13所述的方法,其中维持所述相对间隔大小跨越所述映射输入的所述键和所述值的分布,但动态地调整绝对间隔大小。
15.如权利要求14所述的方法,其中使用HTML标签来动态地调整所述绝对间隔大小。
16.如权利要求14所述的方法,其中HTML标签指CSS样式表,所述CSS样式表提供通过所述HTML标签应用的对所述绝对间隔大小的所述调整。
17.如权利要求6所述的方法,其中通过在间隔字符之前或之后插入一个或多个像素或子像素来调整所述相邻间隔的所述宽度的所述格式化。
18.如权利要求6所述的方法,其中通过呈现网络文档的网络浏览器或网络浏览器插件来调整所述相邻间隔的所述宽度的所述格式化。
19.如权利要求6所述的方法,其中所述键指示由以下项中的至少一个组成的一个或多个项的列表:词汇身份、词汇类别、词项的开放类状态和所述词项的封闭类状态,其中所述词汇身份是词,词位是词可采用的形式的集合,所述词汇类别是所述词的词性,所述词项的所述开放类状态是缺乏句法信息的内容词且所述词项的所述封闭类状态是不接受新项的一类词。
20.如权利要求19所述的方法,其中通过对条件熵的测量来确定跨越所述词间隔的所述不确定性。
21.一种存储有计算机可读程序代码部分的非暂时性计算机可读存储介质,所述计算机可读程序代码部分用于使计算机执行权利要求6-20中任一项所述的用于格式化文本的方法,包括:
第一部分,其被配置用来提供文本;
第二部分,其被配置用来提供键和值的映射输入,所述键中的每一者指示至少一个伪句法混合,且所述值中的每一者指示跨越与所述键相邻的词间隔的不确定性;以及
第三可执行部分,其被配置用来检查所述文本输入以在所述映射输入中查找所述键并格式化所述文本输入的词间间隔的宽度,所述格式化是基于所述检查的结果,其中所述词间间隔的所述宽度的所述格式化是通过指示跨越与所述键相邻的词间隔的所述不确定性的所述值来确定;
其中所述伪句法混合是由两个或两个以上词组成的n字母组,所述两个或两个以上词包括功能词或内容词,所述功能词表示语法或句法关系并存储在功能词的数据库中且所述内容词是不在所述功能词的数据库中的开放类词。
22.一种在具有显示器的计算机系统中显示文本的方法,所述方法包括以下步骤:
a)创建文本中的多个词的所有例子的列表,其中所述词之前的字符包括以下项中的至少一个:间隔、所述词的开头、行的开头、段落的开头、文档的开头、制表符、缩进或标点字符;
b)对于来自步骤a的所述列表中的所述多个词中的每一者,在调整分数库中查找所述词(n)和紧跟在所述词(n)之后的后一词(n+1),其中所述词与所述之后的后一词由间隔字符分开;以及
c)如果在所述调整分数库中找到,则使用在所述调整分数库中针对所述词和所述后一词的词双字母组找到的调整分数来调整所述间隔字符的宽度;
d)将n设置为n+1;以及
e)针对步骤a中创建的所述列表中的所有项重复步骤b-d。
CN201680027497.3A 2015-03-10 2016-03-08 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法 Active CN107615268B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562131187P 2015-03-10 2015-03-10
US62/131,187 2015-03-10
PCT/US2016/021381 WO2016144963A1 (en) 2015-03-10 2016-03-08 Systems and methods for asymmetrical formatting of word spaces according to the uncertainty between words

Publications (2)

Publication Number Publication Date
CN107615268A CN107615268A (zh) 2018-01-19
CN107615268B true CN107615268B (zh) 2021-08-24

Family

ID=56879374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680027497.3A Active CN107615268B (zh) 2015-03-10 2016-03-08 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法

Country Status (9)

Country Link
US (2) US10157168B2 (zh)
EP (1) EP3268872A4 (zh)
JP (1) JP2018513453A (zh)
KR (1) KR20170140808A (zh)
CN (1) CN107615268B (zh)
AU (1) AU2016229923B2 (zh)
BR (1) BR112017017612A2 (zh)
MX (1) MX2017011452A (zh)
WO (1) WO2016144963A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190124B (zh) * 2018-09-14 2019-11-26 北京字节跳动网络技术有限公司 用于分词的方法和装置
CN111261162B (zh) * 2020-03-09 2023-04-18 北京达佳互联信息技术有限公司 语音识别方法、语音识别装置及存储介质
KR102209133B1 (ko) * 2020-04-27 2021-01-28 주식회사 뉴로라인즈 물질안전보건자료를 위한 판독 및 처리 시스템 및 이를 위한 동작 방법
CN112016322B (zh) * 2020-08-28 2023-06-27 沈阳雅译网络技术有限公司 一种英文粘连词错误的还原方法
US20220318500A1 (en) * 2021-04-06 2022-10-06 Talent Unlimited Online Services Private Limited System and method for generating contextualized text using a character-based convolutional neural network architecture

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014103123A1 (ja) * 2012-12-27 2014-07-03 パナソニック株式会社 ダイジェストを生成するための装置、方法、及びプログラム
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其系统
CN105373614A (zh) * 2015-11-24 2016-03-02 中国科学院深圳先进技术研究院 一种基于用户账号的子用户识别方法及系统

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5146405A (en) * 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
US20020052903A1 (en) * 1993-05-31 2002-05-02 Mitsuhiro Aida Text input method
US5579466A (en) * 1994-09-01 1996-11-26 Microsoft Corporation Method and system for editing and formatting data in a dialog window
EP0834139A4 (en) * 1995-06-07 1998-08-05 Int Language Engineering Corp COMPUTER-ASSISTED TRANSLATION TOOLS
US5857212A (en) * 1995-07-06 1999-01-05 Sun Microsystems, Inc. System and method for horizontal alignment of tokens in a structural representation program editor
US5801679A (en) * 1996-11-26 1998-09-01 Novell, Inc. Method and system for determining a cursor location with respect to a plurality of character locations
US6240430B1 (en) * 1996-12-13 2001-05-29 International Business Machines Corporation Method of multiple text selection and manipulation
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
AU5451800A (en) * 1999-05-28 2000-12-18 Sehda, Inc. Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
US7346489B1 (en) * 1999-07-16 2008-03-18 Language Technologies, Inc. System and method of determining phrasing in text
US7069508B1 (en) * 2000-07-13 2006-06-27 Language Technologies, Inc. System and method for formatting text according to linguistic, visual and psychological variables
US6282327B1 (en) * 1999-07-30 2001-08-28 Microsoft Corporation Maintaining advance widths of existing characters that have been resolution enhanced
US6477488B1 (en) * 2000-03-10 2002-11-05 Apple Computer, Inc. Method for dynamic context scope selection in hybrid n-gram+LSA language modeling
US7093240B1 (en) * 2001-12-20 2006-08-15 Unisys Corporation Efficient timing chart creation and manipulation
US7385606B2 (en) * 2002-12-18 2008-06-10 Microsoft Corporation International font measurement system and method
US7516404B1 (en) * 2003-06-02 2009-04-07 Colby Steven M Text correction
US20040253568A1 (en) * 2003-06-16 2004-12-16 Shaver-Troup Bonnie S. Method of improving reading of a text
US7773248B2 (en) * 2003-09-30 2010-08-10 Brother Kogyo Kabushiki Kaisha Device information management system
US7292244B2 (en) * 2004-10-18 2007-11-06 Microsoft Corporation System and method for automatic label placement on charts
US9465852B1 (en) * 2007-08-02 2016-10-11 Amazon Technologies, Inc. Data format for processing information
US8306356B1 (en) * 2007-09-28 2012-11-06 Language Technologies, Inc. System, plug-in, and method for improving text composition by modifying character prominence according to assigned character information measures
US8996682B2 (en) * 2007-10-12 2015-03-31 Microsoft Technology Licensing, Llc Automatically instrumenting a set of web documents
US8417713B1 (en) * 2007-12-05 2013-04-09 Google Inc. Sentiment detection as a ranking signal for reviewable entities
US9529974B2 (en) * 2008-02-25 2016-12-27 Georgetown University System and method for detecting, collecting, analyzing, and communicating event-related information
US20110231755A1 (en) * 2008-07-14 2011-09-22 Daniel Herzner Method of formatting text in an electronic document to increase reading speed
JP5226425B2 (ja) * 2008-08-13 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、情報処理方法およびプログラム
US20100146444A1 (en) * 2008-12-05 2010-06-10 Microsoft Corporation Motion Adaptive User Interface Service
US8819541B2 (en) * 2009-02-13 2014-08-26 Language Technologies, Inc. System and method for converting the digital typesetting documents used in publishing to a device-specfic format for electronic publishing
US8306819B2 (en) * 2009-03-09 2012-11-06 Microsoft Corporation Enhanced automatic speech recognition using mapping between unsupervised and supervised speech model parameters trained on same acoustic training data
US8712774B2 (en) * 2009-03-30 2014-04-29 Nuance Communications, Inc. Systems and methods for generating a hybrid text string from two or more text strings generated by multiple automated speech recognition systems
US8543914B2 (en) * 2009-05-22 2013-09-24 Blackberry Limited Method and device for proportional setting of font attributes
CN102812475A (zh) * 2009-12-24 2012-12-05 梅塔瓦纳股份有限公司 确定在文档中所表达的情绪的系统和方法
US9026907B2 (en) * 2010-02-12 2015-05-05 Nicholas Lum Indicators of text continuity
US8959427B1 (en) * 2011-08-05 2015-02-17 Google Inc. System and method for JavaScript based HTML website layouts
US8862602B1 (en) * 2011-10-25 2014-10-14 Google Inc. Systems and methods for improved readability of URLs
US9116654B1 (en) * 2011-12-01 2015-08-25 Amazon Technologies, Inc. Controlling the rendering of supplemental content related to electronic books
CN103106227A (zh) * 2012-08-03 2013-05-15 人民搜索网络股份公司 一种基于网页文本的新词查找系统及方法
JP2014130445A (ja) * 2012-12-28 2014-07-10 Toshiba Corp 情報抽出サーバ、情報抽出クライアント、情報抽出方法、及び、情報抽出プログラム
IN2013CH00469A (zh) * 2013-01-21 2015-07-31 Keypoint Technologies India Pvt Ltd
CN104063387B (zh) * 2013-03-19 2017-07-28 三星电子(中国)研发中心 在文本中抽取关键词的装置和方法
JP6136568B2 (ja) * 2013-05-23 2017-05-31 富士通株式会社 情報処理装置および入力制御プログラム
EP2824586A1 (en) * 2013-07-09 2015-01-14 Universiteit Twente Method and computer server system for receiving and presenting information to a user in a computer network
US20160301828A1 (en) * 2014-06-18 2016-10-13 Sarfaraz K. Niazi Visual axis optimization for enhanced readability and comprehension
US20150371120A1 (en) * 2014-06-18 2015-12-24 Sarfaraz K. Niazi Visual axis optimization for enhanced readability and comprehension
WO2016125177A1 (en) * 2015-02-05 2016-08-11 Hewlett-Packard Development Company, L.P. Character spacing adjustment of text columns
US10891699B2 (en) * 2015-02-09 2021-01-12 Legalogic Ltd. System and method in support of digital document analysis
US10235348B2 (en) * 2016-04-12 2019-03-19 Microsoft Technology Licensing, Llc Assistive graphical user interface for preserving document layout while improving the document readability
US10552217B2 (en) * 2016-08-15 2020-02-04 International Business Machines Corporation Workload placement in a hybrid cloud environment
US10467241B2 (en) * 2017-03-24 2019-11-05 Ca, Inc. Dynamically provisioning instances of a single-tenant application for multi-tenant use

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014103123A1 (ja) * 2012-12-27 2014-07-03 パナソニック株式会社 ダイジェストを生成するための装置、方法、及びプログラム
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其系统
CN105373614A (zh) * 2015-11-24 2016-03-02 中国科学院深圳先进技术研究院 一种基于用户账号的子用户识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Severity of Vision Loss Interacts with Word-Specific Features to Impact Out-Loud Reading in Glaucoma";Mathews Priya M 等;《Investigative ophthalmology & visual science》;20150127;第1011-1023页 *
"基于多策略的短文本信息流会话抽取";李天彩 等;《计算机应用研究》;20150929;第33卷(第4期);第997-1002页 *

Also Published As

Publication number Publication date
JP2018513453A (ja) 2018-05-24
CN107615268A (zh) 2018-01-19
AU2016229923A1 (en) 2017-09-07
US10157168B2 (en) 2018-12-18
KR20170140808A (ko) 2017-12-21
BR112017017612A2 (pt) 2018-05-08
EP3268872A4 (en) 2018-11-21
WO2016144963A1 (en) 2016-09-15
US20170185566A1 (en) 2017-06-29
AU2016229923B2 (en) 2021-01-21
EP3268872A1 (en) 2018-01-17
US10599748B2 (en) 2020-03-24
MX2017011452A (es) 2018-06-15
US20180039617A1 (en) 2018-02-08

Similar Documents

Publication Publication Date Title
McEnery et al. Corpus linguistics: Method, theory and practice
CN107615268B (zh) 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法
Arts et al. arTenTen: Arabic corpus and word sketches
Fletcher Making the web more useful as a source for linguistic corpora
JP5362353B2 (ja) 文書中のコロケーション誤りを処理すること
US7627562B2 (en) Obfuscating document stylometry
Abuata et al. A rule-based stemmer for Arabic Gulf dialect
US20020046018A1 (en) Discourse parsing and summarization
KR100999488B1 (ko) 문서 표절 탐색 방법 및 장치
Sharjeel et al. COUNTER: corpus of Urdu news text reuse
Odebrecht et al. RIDGES Herbology: designing a diachronic multi-layer corpus
JP2003085193A (ja) テキストサマリ生成システム及び方法
Nguyen et al. Impact analysis of document digitization on event extraction
Sembok et al. Arabic word stemming algorithms and retrieval effectiveness
Alotaiby et al. Arabic vs. English: Comparative statistical study
Saroj et al. Rule based Event Extraction System from Newswires and Social Media Text in Indian Languages (EventXtract-IL) for English and Hindi Data.
Horsch The comparative correlative construction in World Englishes: a usage-based construction grammar approach
Lučanský et al. Improving relevance of keyword extraction from the web utilizing visual style information
Gajdoš A Syntactic Object in Chinese—A Corpus Analysis
Vasuki et al. English to Tamil machine translation system using parallel corpus
Al Moaiad et al. Python Solutions to Address Natural Language Challenges
Lu et al. Lexical analysis
JP2004126986A (ja) 文書差分検出装置及びプログラム
Gajendragadkar et al. Anatomy of building Marathi n-grams
Birnbaum Paul the Not-So-Simple

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant